专利汇可以提供一种文档相关度计算系统和方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及文档相关度计算系统及方法。该系统包括文档预处理模 块 和分词模块,文档预处理模块的输入为至少一篇待分析文档,分词模块的输出为对应至少一篇文档的第一词汇表;还包括:分词后处理模块,用于根据第一词汇表中词汇的词性,剔除其中的停用词、虚词,得到第二词汇表;义元处理模块,对第二词汇表中的词汇进行义元标注,形成第三词汇表,确定第三词汇表中多义词所对应的多个义元的权重或为多义词确定唯一义元以得到第一义元表,对第一义元表中的所有义元计算权重,得到按权重排序的主题语义向量;文档相关度计算模块,与义元处理模块相连,用于对至少两个主题语义向量进行相关度计算。本发明的有益效果是提升了文档相关度计算的 精度 。,下面是一种文档相关度计算系统和方法专利的具体信息内容。
1.一种文档相关度计算系统,包括顺序相连的文档预处理模块和分词模块,所述文档预处理模块的输入为至少一篇待分析文档,所述分词模块的输出为对应所述至少一篇文档的第一词汇表;所述分词模块还具有对切分后的词汇进行词性标注的功能;其特征在于,还包括:
在所述分词模块与义元处理模块之间还串联的分词后处理模块,所述分词后处理模块用于根据第一词汇表中词汇的词性,剔除其中的停用词、虚词,得到第二词汇表;
义元处理模块,用于对所述第二词汇表中的词汇进行义元标注,形成第三词汇表,确定所述第三词汇表中多义词所对应的多个义元的权重或为多义词确定唯一义元以得到第一义元表,对所述第一义元表中的所有义元计算权重,得到按权重排序的主题语义向量;
文档相关度计算模块,其与所述义元处理模块相连,用于对至少两个主题语义向量进行相关度计算。
2.根据权利要求1所述的一种文档相关度计算系统,其特征在于:还包括主题语义向量库,其输入端与所述义元处理模块相连,输出端与所述文档相关度计算模块相连,用于存储所述义元处理模块输出的主题语义向量;
所述文档相关度计算模块用于对至少两个主题语义向量进行相关度计算;所述主题语义向量从所述义元处理模块获得,或从所述主题语义向量库中获得,或分别从所述义元处理模块和主题语义向量库中获得。
3.根据权利要求1所述的一种文档相关度计算系统,其特征在于:
所述文档预处理模块用于将输入的、不同格式的文档转换为标准格式,并提取文档正文;
分词模块用于对所述文档预处理模块的输出进行分词,得到所述第一词汇表。
4.根据权利要求3所述的一种文档相关度计算系统,其特征在于,所述义元处理模块包括:
义元标注模块,其用于使用义元词典对所述第二词汇表中的词汇进行义元标注,形成第三词汇表;
词义消歧模块,其用于确定所述第三词汇表中多义词所对应的多个义元的权重,或为多义词确定唯一义元,得到第一义元表;
主题语义向量计算模块,其用于对所述第一义元表中的所有义元计算权重,得到按权重排序的主题语义向量。
5.一种文档相关度计算方法,其特征在于,包括以下步骤:
(a),由文档预处理模块将输入的、不同格式的文档转换为标准格式,并提取文档正文内容;
(b),由分词模块对所述文档预处理模块的输出进行分词并对切分后的词汇进行词性标注,得到第一词汇表;由分词后处理模块对所述第一词汇表的词汇进行剔除其中的停用词、虚词处理得到第二词汇表;
(c),由义元处理模块对所述第二词汇表中的词汇进行义元标注,形成第三词汇表,并对所述第三词汇表中的词汇进行处理,确定其中多义词所对应的多个义元的权重或为多义词确定唯一义元以得到第一义元表,对所述第一义元表中的所有义元计算权重,得到按权重排序的主题语义向量;
(d),由文档相关度计算模块对待分析的至少两篇文档的主题语义向量进行计算,得到所述至少两篇文档的相关度。
6.根据权利要求5所述的一种文档相关度计算方法,其特征在于:步骤(d)中,所述至少两篇文档的主题语义向量从所述义元处理模块获得,或从与所述文档相关度计算模块连接的主题语义向量库中获得,或分别从所述义元处理模块和主题语义向量库中获得。
7.根据权利要求5所述的一种文档相关度计算方法,其特征在于,步骤(a)进一步包括:所述文档预处理模块获取对应文档类别信息和标题信息。
8.根据权利要求5所述的一种文档相关度计算方法,其特征在于,步骤(c)中,获得主题语义向量的方法是:
(c1),由义元标注模块使用义元词典对所述第二词汇表中的词汇进行义元标注,形成第三词汇表;
(c2),由词义消歧模块对所述第三词汇表中标注过义元的词汇进行处理,确定其中多义词所对应的多个义元的权重,或为多义词确定唯一义元,得到第一义元表;
(c3),由主题语义向量计算模块对所述第一义元表中的所有义元计算权重,得到按权重排序的主题语义向量。
本发明涉及网络通信技术,更具体地说,涉及一种文档相关度计算系统和方法。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种听写报读进度的控制方法及电子设备 | 2020-05-11 | 454 |
基于XML的领域要素提取配置语言系统 | 2020-05-08 | 55 |
用于增强已标注样本的方法和设备 | 2020-05-11 | 934 |
一种基于边缘信息和语义信息的句子相似度计算方法 | 2020-05-12 | 742 |
一种电商产品竞争分析方法及系统 | 2020-05-14 | 221 |
关键词提取方法、装置及存储介质 | 2020-05-08 | 775 |
一种视频文本摘要生成方法及装置 | 2020-05-08 | 687 |
一种基于Bi-LSTM网络的无监督属性的抽取方法 | 2020-05-11 | 47 |
关键词提取方法、关键词提取装置及电子设备 | 2020-05-08 | 185 |
一种使用重叠拆分规则的文本序列标注算法 | 2020-05-14 | 365 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。