专利汇可以提供一种网页主题提取系统和方法专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种网页主题提取系统,包括文档解析器,其用于从网页源文件中提取网页标题和具有不同突出显示属性的网页正文;还包括:分词模 块 ,其用于将所述网页正文、网页标题和网页类别信息进行分词,得到第一词汇表;义元处理模块,其用于将所述第一词汇表中的词汇转换为义元,对所述义元计算权重,最后再对计算权重后的义元进行反向还原,得到主题词汇集合。本发明还提供了一种网页主题提取方法。本发明的有益效果在于:采用基于义元集的语义分析技术,避免了词汇稀疏的难题,对短文章的分析效果良好。充分考虑了网页的预分类、标题信息和显示属性,能够准确地提取出网页的主题。采用带权重的词汇排序表表示网页的主题,避免了信息的丢失。,下面是一种网页主题提取系统和方法专利的具体信息内容。
1.一种网页主题提取系统,包括文档解析器,其用于从网页源文件中提取网页标题和具有不同突出显示属性的网页正文;其特征在于,还包括:分词模块,其用于将所述网页正文、网页标题和网页类别信息进行分词,得到第一词汇表;义元处理模块,其用于将所述第一词汇表中的词汇转换为义元,对所述义元计算权重,最后再对计算权重后的义元进行反向还原,得到主题词汇集合。
2.根据权利要求1所述的一种网页主题提取系统,其特征在于:所述分词模块与义元处理模块之间还串联有分词后处理模块;所述分词模块还具有对切分后的词汇进行词性标注的功能;所述分词后处理模块用于根据第一词汇表中词汇的词性,剔除其中的停用词、虚词,得到第二词汇表;所述义元处理模块用于对所述第二词汇表中的词汇进行处理。
3.根据权利要求1或2所述的一种网页主题提取系统,其特征在于,所述义元处理模块包括:义元扩展模块,其用于使用义元词典将所述第二词汇表中的词汇转换成义元,组成第一义元表;网页主题义元计算模块,其用于对所述第一义元表中的所有义元计算权重;义元复原关键词模块,其用于对计算权重后的义元进行反向还原,得到主题词汇集合。
4.根据权利要求1或2所述的一种网页主题提取系统,其特征在于:还包括网页主题输出接口,其用于将所述主题词汇集合处理为适合应用层调用的词汇列表,所述词汇按照语义密度分别被赋予不同的权重。
5.一种网页主题提取方法,其特征在于,包括以下步骤:(a),所述文档解析器从网页源文件中提取网页标题和具有不同突出显示属性的网页正文;(b),所述分词模块将所述网页正文、网页标题和网页类别信息进行分词,得到第一词汇表;(c),所述义元处理模块将所述第一词汇表中的词汇转换为义元,对所述义元计算权重,最后再对计算权重后的义元进行反向还原,得到表征了网页主题的、具有不同权重的主题词汇集合。
6.根据权利要求5所述的一种网页主题提取方法,其特征在于,步骤(a)中,提取网页标题和网页正文的方法是:所述文档解析器对所述网页的源文件进行解析,得到网页的语法树,然后从语法树上获得网页标题、网页正文中具有不同突出显示属性的正文内容,并将所述正文内容按照其突出显示属性顺序记为body1 body2 body3到bodyN。
7.根据权利要求5所述的一种网页主题提取方法,其特征在于,进一步的:步骤(b)中,所述分词模块还对切分后的词汇进行词性标注,得到第一词汇表。
8.根据权利要求7所述的一种网页主题提取方法,其特征在于:步骤(b)之后进一步包括步骤(b1),所述分词后处理模块至少对所述第一词汇表中的词汇进行去停用词、去虚词,得到第二词汇表。
9.根据权利要求8所述的一种网页主题提取方法,其特征在于,具体的,步骤(c)包括步骤:(c1),所述义元扩展模块按照词典与义元词典的对应关系将所述W1中的词汇转换成义元,组成第一义元表;(c2),所述网页主题义元计算模块对所述第一义元表中的所有义元计算权重,得到具有不同权重的第二义元表;(c3),所述义元复原关键词模块按照义元词典对所述第二义元表中的义元进行反向还原,得到表征了网页主题的、具有不同权重的主题词汇集合。
10.根据权利要求5所述的一种网页主题提取方法,其特征在于:步骤(c)之后进一步包括步骤(d),所述网页主题输出接口将所述主题词汇集合处理为适合应用层调用的词汇列表,所述词汇按照语义密度分别被赋予不同的权重。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种电商产品竞争分析方法及系统 | 2020-05-14 | 221 |
一种面向金融事件的混合型因果关系发现方法 | 2020-05-11 | 513 |
一种融合多类事理与实体知识的领域事件图谱构建方法和装置 | 2020-05-13 | 766 |
一种使用重叠拆分规则的文本序列标注算法 | 2020-05-14 | 365 |
一种视频文本摘要生成方法及装置 | 2020-05-08 | 687 |
基于物理距离和语义距离的双向LSTM模型的构建方法 | 2020-05-08 | 713 |
基于弱监督技术主动学习的智能标注方法、装置及平台 | 2020-05-13 | 61 |
基于XML的领域要素提取配置语言系统 | 2020-05-08 | 55 |
一种公司形象提升系统的社交网络数据提取方法及系统 | 2020-05-11 | 985 |
留学文书智能自动创作系统 | 2020-05-12 | 673 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。