专利汇可以提供从文档到排名短语的语义分析专利检索,专利查询,专利分析的服务。并且一种为语义分析器提供的方法、装置和计算机产品,用于产生和排名语义短语以反映它们与文档主题和话题的关联性。在语义分析器执行文本提取之前,文本和文档可以与任意预先选择的关键字没有关系。语义分析器从文档中提取文本,并且对提取出的文本执行语义分析。作为该语义分析的结果,语义分析器提供多个已排名的语义短语,并且将语义短语作为语义关键字与该文档相关联。语义短语定义出与该文档一起被呈现的内容,该内容是广告、到远程信息资源的链接和第二文档。,下面是从文档到排名短语的语义分析专利的具体信息内容。
1.一种由计算机实施的方法,包括:
从文档中提取文本;
对从所述文档提取出的所述文本执行语义分析,其中执行语义分析包括:针对从所述文档中提取的至少一个词组,
(i)为从所述文档中提取的每个单词标识单词频率,所述单词频率表示相应的单词多频繁地出现在所述文档中;
(ii)标识所述词组在所述文档中的出现的至少一个文档位置;
(iii)确定指示所述文档的内容的至少一个主题的至少一个语义短语,所述至少一个主题是基于所述词组的所述出现的所述至少一个文档位置并且关于所述相应词组中所使用的至少一个单词的单词频率的;
作为所述语义分析的结果,提供多个已排名的语义短语;和
将至少一个语义短语与所述文档相关联,所述至少一个语义短语定义出将与所述文档一起被呈现的内容;
其中确定所述至少一个语义短语包括:
标识整个所述文档中第一词组的放置模式;以及
基于所述第一词组的所述放置模式并且关于所述第一词组中每个单词的单词频率,确定所述至少一个语义短语,其中整个所述文档中至少出现一次的至少一个第二词组使用所述第一词组中发现的特定单词,其中针对所述特定单词的单词频率反映所述第一词组和所述第二词组对所述特定单词的使用;
其中标识整个所述文档中第一词组的放置模式包括:
标识由所述文档的内容体现的文章的类型;
获取与所述文档的文章类型相对应的期望的文章结构;
检测所述第一词组的第一相邻出现对的文档位置之间的第一距离;
检测所述第一词组的第二相邻出现对的文档位置之间的第二距离;以及
基于关于所述期望的文章结构的所述第一距离和所述第二距离,标识所述放置模式。
2.根据权利要求1所述的由计算机实施的方法,其中所述至少一个语义短语定义出将与所述文档一起被呈现的内容包括:定义出包括广告、到远程信息资源的链接和第二文档的组中的至少一个。
3.一种由计算机实施的方法,包括:
从文档中提取文本,其中从所述文档中提取所述文本包括从所述文档中提取纯文本,所述文本和所述文档缺乏到一个或多个预选择的关键词的关系;
对从所述文档中提取的所述文本执行语义分析;
将至少一个语义短语与所述文档相关联,所述至少一个语义短语定义出将与所述文档一同呈现的内容,其中从所述文档提取纯文本还包括:
在提取的所述纯文本中标识至少一个标志,所述标志表示文档中的文本与字符的串;
为表示所述标志在所述文档中出现的总次数的标志值列表;
在提取的所述纯文本中标识至少一个短语,所述短语包含标志的连续分组;
为短语xj的短语值n列表,所述短语值n表示所述短语在所述文档中出现的总次数;和为所述短语的至少一个提及偏置列表,所述提及偏置offset(mi)表示所述短语xj在一组所述短语的n次出现中的单个出现mi在所述文档中的位置,其中n等于或大于1;
其中将所述至少一个语义短语关联到所述文档中包括:将所述至少一个语义短语插入到所述文档的元数据部分中;
其中将所述至少一个语义短语插入到所述文档的所述元数据部分中包括将所述至少一个语义短语插入到所述文档的可扩展元数据平台XMP部分中;
其中由计算机实施的所述方法还包括:向所述文档指派策略,所述策略支持所述文档将与所述文档相关联的所述至少一个语义短语利用作为语义关键词,以便于在所述文档被呈现时显示所述内容,所述策略还包括支持所述文档略过与所述文档相关联的所述至少一个语义短语,以便于在所述文档被呈现时不显示所述内容。
4.根据权利要求3所述的由计算机实施的方法,进一步包括计算至少一个短语统计量,所述至少一个短语统计量从包含下列的组中选择:
作为所述短语中标志的标志值的函数,来计算短语的标志频率tf(xj),所述函数包括所述短语中标志的标志值的平均值和中间值中的至少一个;
计算所述短语的中间偏置moffset(xj);和
计算所述短语的偏置标准差soffset(xj)。
5.根据权利要求4所述的由计算机实施的方法,进一步包括:当所述文档是讨论至少一个中心主题的长文章时,计算文章分值ascore(xj),其中所述文章分值由以下等式所定义:
6.根据权利要求4所述的由计算机实施的方法,进一步包括:当所述文档是科技文章时,计算科技文章分值tscore(xj),所述科技文章分值包括:
计算所述短语的两个单个出现的至少一个差值r;
计算中间差距r(xj);和
计算差距标准差rsdiff(xj),
其中科技文章分值由以下等式所定义:
7.根据权利要求4所述的由计算机实施的方法,进一步包含:当所述文档是信件时,计算标准差信件分值sdlscore(xj)和计算微频信件分值mflscore(xj),其中所述标准差信件分值由以下等式所定义:
sdlscore(xj)=n(soffset(xj)),以及
所述微频信件分值由以下等式所定义:
8.根据权利要求4所述的由计算机实施的方法,其中作为所述语义分析的结果,提供多个已排名的语义短语包括:
提供所述多个排名的语义短语的列表,所述列表根据一个或多个短语统计量对所述语义短语排名;
从所述列表中选择一个或多个语义短语,以创建由选择的一个或多个语义短语中每一个所定义的内容的预览;所述预览显示由选择的一个或多个语义短语中每一个所定义的内容的聚集;和
从所述列表中指定一个或多个语义短语,以作为一个或多个语义关键字与所述文档相关联。
9.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质包括编码于其上的可执行指令,所述可执行指令在计算化设备上可操作以执行处理,所述可执行指令包括:
用于从文档中提取文本的指令,其中用于从所述文档中提取文本的指令包括:用于从所述文档中提取纯文本的指令,所述文本和所述文档缺乏到一个或多个预选择的关键词的关系;
用于对从所述文档提取出的所述文本执行语义分析的指令;
用于作为所述语义分析的结果,提供多个已排名的语义短语的指令;和
用于将至少一个语义短语与所述文档相关联的指令,所述至少一个语义短语定义出与所述文档一起被呈现的内容;
其中用于提取纯文本的所述指令包括:
用于在提取的所述纯文本中标识至少一个标志的指令,所述标志表示所述文档中的文本与字符的串;
用于为表示所述标志在所述文档中出现的总次数的标志值列表的指令;
用于在提取的所述纯文本中标识至少一个短语的指令,所述短语包含标志的连续分组;
用于为短语xj的短语值n列表的指令,所述短语值n表示所述短语在所述文档中出现的总次数;以及
用于为所述短语的至少一个提及偏置列表的指令,所述提及偏置offset(mi)表示短语xj在一组所述短语的n次出现中的单个出现mi在所述文档中的位置,其中n等于或大于1;
其中用于将所述至少一个语义短语关联到所述文档中的指令包括:用于将所述至少一个语义短语插入到所述文档的元数据部分中的指令;
其中用于将所述至少一个语义短语插入到所述文档的所述元数据部分中的指令包括用于将所述至少一个语义短语插入到所述文档的可扩展元数据平台XMP部分中的指令;
用于向所述文档指派策略的指令,所述策略支持所述文档将与所述文档相关联的所述至少一个语义短语利用作为语义短语,以便于在所述文档被呈现时显示所述内容,所述策略还支持所述文档略过与所述文档相关联的所述至少一个语义短语,以便于在所述文档被呈现时不显示所述内容。
10.根据权利要求9所述的非暂态计算机可读存储介质,其中所述至少一个语义短语定义出与所述文档一起被呈现的内容包括:用于定义出包括广告、到远程信息资源的链接和第二文档的组中的至少一个的指令。
11.根据权利要求9所述的非暂态计算机可读存储介质,进一步包括:用于计算至少一个短语统计量的指令,所述用于计算至少一个短语统计量的指令从包括下列的组中选择:
用于作为短语中标志的标志值的函数,来计算短语的标志频率tf(xj)的指令,所述函数包括短语中标志的标志值的平均值和中间值中的至少一个;
用于计算所述短语的中间偏置moffset(xj)的指令;和
用于计算所述短语的偏置标准差soffset(xj)的指令。
12.根据权利要求11所述的非暂态计算机可读存储介质,进一步包括:用于当所述文档是讨论至少一个中心主题的长文章时计算文章分值ascore(xj)的指令,其中所述文章分值由以下等式所定义:
13.根据权利要求11所述的非暂态计算机可读存储介质,进一步包括:用于当所述文档是科技文章时计算科技文章分值tscore(xj)的指令,所述用于计算所述科技文章分值的装置包括:
用于计算所述短语的两个单个出现的至少一个差值r的指令;
用于计算中间差距r(xj)的指令;和
用于计算差距标准差rsdiff(xj)的指令,
其中所述科技文章分值由以下等式所定义:
14.根据权利要求11所述的非暂态计算机可读存储介质,进一步包括:用于当所述文档是信件时,计算标准差信件分值sdlscore(xj)的指令和用于计算微频信件分值mflscore(xj)的指令,其中所述标准差信件分值由以下等式所定义:
sdlscore(xj)=n(soffset(xj)),以及
所述微频信件分值由以下等式所定义:
15.根据权利要求9所述的非暂态计算机可读存储介质,其中用于作为所述语义分析的结果,来提供多个已排名的语义短语的指令包括:
用于提供所述多个已排名的语义短语的列表的指令,所述列表根据一个或多个短语统计量对所述语义短语排名;
用于从所述列表中选择一个或多个语义短语以创建由选择的一个或多个语义短语中每一个所定义的内容的预览的指令;所述预览显示由选择的一个或多个语义短语中每一个所定义的内容的聚集;和
用于从所述列表中指定一个或多个语义短语以作为一个或多个语义关键字与所述文档相关联的指令。
16.一种计算机系统,包括:
处理器;
存储器单元,其存储与所述处理器执行的应用相关联的指令;和
互连单元,其耦合所述处理器和存储器单元,使所述计算机系统能够执行所述应用而且执行操作:
从文档中提取文本,其中用于从所述文档中提取文本的指令包括:用于从所述文档中提取纯文本的指令,所述文本和所述文档缺乏到一个或多个预选择的关键词的关系;
对从所述文档提取出的文本执行语义分析;
作为所述语义分析的结果,来提供多个已排名的语义短语;和
将至少一个语义短语与所述文档相关联,所述至少一个语义短语定义出与所述文档一起被呈现的内容,其中从所述文档提取纯文本还包括:
在提取的所述纯文本中标识至少一个标志,所述标志表示文档中的文本与字符的串;
为表示所述标志在所述文档中出现的总次数的标志值列表;
在提取的所述纯文本中标识至少一个短语,所述短语包含标志的连续分组;
为短语xj的短语值n列表,所述短语值n表示所述短语在所述文档中出现的总次数;和为所述短语的至少一个提及偏置列表,所述提及偏置offset(mi)表示短语xj在一组所述短语的n次出现中的单个出现mi在所述文档中的位置,其中n等于或大于1;
计算至少一个短语统计量,所述至少一个短语统计量从包含下项的组中选择:
作为所述短语中的所述标志的所述标志值的函数,来计算短语的标志频率tf(xj),所述函数包括所述短语中所述标志的所述标志值的平均值和中间值中的至少一个;
计算所述短语的中间偏置moffset(xj);和
计算所述短语的偏置标准差soffset(xj);
当所述文档是讨论至少一个中心主题的长文章时,计算文章分值ascore(xj),其中所述文章分值由以下等式所定义:
当所述文档是科技文章时,计算科技文章分值tscore(xj),所述科技文章分值包括:
计算所述短语的两个单个出现之间的至少一个差值r;
计算中间差距r(xj);以及
计算差距标准差rsdiff(xj),其中所述科技文章分值由以下等式所定义:
当所述文档是信件时,计算标准差信件分值和计算微频信件分值,其中所述标准差信件分值由以下等式所定义:
sdlscore(xj)=n(soffset(xj)),以及
所述微频信件分值由以下等式所定义:
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种自动化批量盖章机 | 2020-05-12 | 603 |
基于AR增强现实和车辆违章记录查询的驾驶辅助系统 | 2020-05-16 | 992 |
用于内燃机的点火单元 | 2020-05-25 | 630 |
基于深度卷积神经网络的违章停车和抛锚车视觉检测系统 | 2020-05-23 | 1007 |
重放装置以及记录方法 | 2020-05-15 | 656 |
根据印刷出版物和出版商所控制的链接向客户机设备提供网页的方法和装置 | 2020-05-18 | 318 |
用于车辆尤其是商业用车的观察系统 | 2020-05-27 | 558 |
用于选择、分析以及将相关数据库记录可视化为网络的方法 | 2020-05-16 | 959 |
用于播放的图像存储设备 | 2020-05-20 | 582 |
电镀镶嵌三色币(章)及其套裁制作工艺 | 2020-05-20 | 174 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。