专利汇可以提供一种非结构化文本中的产品属性挖掘方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种非结构化文本中的产品属性挖掘方法。是通过对非结构化文本进行中文分词与 词性标注 ,然后对其中的名词进行关联规则挖掘获得产品的粗属性,再采用基于 搜索引擎 的方法进行过滤,获得真正的产品属性。产品属性按照出现 频率 排序。本发明在非结构化文本中的产品属性挖掘的查全率,查准率以及F值指标上均有很好的表现,并且适用范围广。,下面是一种非结构化文本中的产品属性挖掘方法专利的具体信息内容。
1.一种非结构化文本中的产品属性挖掘方法,其特征在于该方法的步骤 如下:
1)对非结构化文本进行中文分词和词性标注;
2)对步骤1)中标注为名词的词语进行关联规则挖掘,挖掘出其中的频繁项, 定义为粗属性;
3)对步骤2)中的粗属性进行基于搜索引擎的产品属性过滤,滤去非产品属性 的频繁项,提取真正的产品属性;
4)把步骤3)中挖掘出的产品属性按照其在非结构化文本中的出现频率排序。
2.根据权利要求1所述的一种非结构化文本中的产品属性挖掘方法,其特 征在于:所述步骤1)中对非结构化文本进行中文分词为基于词语的中文分词, 词性标注的关键为名词词性标注。
3.根据权利要求1所述的一种非结构化文本中的产品属性挖掘方法,其特 征在于:所述步骤2)中是采用机器学习中的Apriori算法对步骤1)中的名词进行 关联规则挖掘,挖掘其中的频繁项,作为粗属性。
4.根据权利要求1所述的一种非结构化文本中的产品属性挖掘方法,其特 征在于:所述步骤3)中采用基于搜索引擎的方法过滤步骤2)中的粗属性,具体 方法为将产品类别与粗属性组成新的搜索词条发送到百度搜索引擎中,检查百 度针对该搜索词条的返回结果的摘要中是否包含该词条来决定是否保留或者过 滤粗属性。
5.根据权利要求1所述的一种非结构化文本中的产品属性挖掘方法,其特 征在于:所述步骤4)中把挖掘出的产品属性根据其在非结构化文本中出现的频 率进行排序,从而可以将结果按照讨论热度排序。
本发明涉及自然语言处理,信息检索,数据挖掘,机器学习技术领域,特 别是涉及一种非结构化文本中的产品属性挖掘方法。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种处理文本的方法和装置 | 2020-05-12 | 181 |
判决预测方法、判决预测模型获得方法及装置 | 2020-05-12 | 712 |
一种图像识别的英语作文跑题判断方法 | 2020-05-08 | 70 |
一种电力营销知识体系平台及应用方法 | 2020-05-14 | 979 |
一种文本摘要和情感分类联合训练方法 | 2020-05-14 | 556 |
一种面向金融事件的混合型因果关系发现方法 | 2020-05-11 | 513 |
基于XML的领域要素提取配置语言系统 | 2020-05-08 | 55 |
一种基于主题模型和语义分析的实体指称项识别方法 | 2020-05-11 | 651 |
留学文书智能自动创作系统 | 2020-05-12 | 673 |
一种基于主题下的情感分析方法 | 2020-05-12 | 360 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。