首页 / 专利库 / 人工智能 / 词性标注 / 文本关键词的提取方法

文本关键词的提取方法

阅读:41发布:2021-09-13

专利汇可以提供文本关键词的提取方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种文本关键词的提取方法,它是改进TF-IDF方法,通过篇频修正法提取单篇文本的关键词,提高从单篇文本中提取关键词的 精度 ;通过词频修正法或对比选择法,提取同类文本集合中共同的领域关键词。本发明的方法有效地提高单篇文本的关键词提取精度,能够提取领域关键词,从而提高文本领域知识获取的性能与领域知识本体建立的效果,提高网络资源服务的 质量 与效果。,下面是文本关键词的提取方法专利的具体信息内容。

1.一种文本关键词的提取方法,其特征在于改进TF-IDF方法,通过篇频修正法提取 单篇文本的关键词,提高从单篇文本中提取关键词的精度;通过词频修正法或对 比选择法提取同类文本集合中共同的领域关键词。
2.按权利要求1所述的文本关键词的提取方法,其特征在于所述的篇频修正法就是 去除无关文本集中所有出现频率为1的词,获得一个最终的篇频进行TF-IDF公式 提取单篇文本中的关键词;其具体步骤如下:
(1)打开训练文本集中的一篇无关文档;
(2)分词、词性标注
(3)通过“废词”表,提取有意义的实词;
(4)统计所有实词出现的绝对频率;
(5)删除绝对词频为1的实词;
(6)用TF-IDF公式计算单篇文本中的所有实词的权重,从中提取一定比例的 关键词。
3.按权利要求1所述的文本关键词的提取方法,其特征在于所述的词频修正法就是 在求领域关键词的词频时,先对每篇文本求词频,然后在求出每个词在所有文档 中的平均词频,最后把该词在每篇文档中的词频逐一与平均词频进行比较,一定 比例地除去大于或小于平均词频的词频,再求该词词频的总和,获得一个最终的 词频,对同类文本集合运用TF-IDF公式提取领域关键词;其具体步骤如下:
(1)打开同类文本集中的所有文档;
(2)分词、词性标注;
(3)通过“废词”表,提取有意义的实词;
(4)统计一个实词出现的平均词频;
(5)删除超过平均词频一定范围的所在文本中的词频;
(6)求和剩余词频;
(7)用TF-IDF公式计算同类文本集中的所有实词的权重,从中提取一定比例 的领域关键词。
4.按权利要求1所述的文本关键词的提取方法,其特征在于所述的对比选择法就是 提取同类文本集合中共同的领域关键词的方法,先对每篇文本运用TF-IDF公式, 求出单篇文本的关键词,再通过对比,选出共同拥有率比较高的词,作为领域关 键词,共同拥有率是指:在领域关键词提取时,某一关键词在同类文本集合中出 现的文本数与该文本集合的文本数之比;其具体步骤如下:
(1)打开同类文本集中的所有文档;
(2)预处理(分词、词性标注);
(3)通过“废词”表,提取有意义的实词;
(4)用TF-IDF公式计算同类文本集中的所有实词的权重,从中提取一定比例 的关键词;
(5)统计所有实词的共同拥有率;
(6)选择共同拥有率高于设定阈值的关键词为领域关键词。

说明书全文

技术领域:

发明涉及一种计算机自动提取文本关键词的方法,更具体地说,涉及对TF-IDF 公式提取文本关键词的若干改进方法。

背景技术:

文本知识获取与表示的基本单元之一是文本的关键词。文本关键词自动获取的精 度直接影响到文本知识获取的性能与文本本体建立的质量

属于一个领域的多个文本所共现的类关键词呈现该领域文本的最低层知识,是该 领域文本知识表示与获取的基本单元之一。文本领域关键词的自动获取的精度直接影 响到文本领域知识获取的性能与领域知识本体建立的效果,从而影响网络资源服务的 质量与效果。

单篇文本关键词与多篇文本领域关键词在文本自动分类、聚类、资源智能服务等 方面有着广泛的应用,它不仅是进行这些工作不可缺少的基础和前提,也是语义网格 与知识网格中语义表示、知识获取与本体建设的最基本元素之一。

目前尚未见对领域关键词的研究论文,而目前主要运用于单个文本关键词提取研 究的主要方法有:TF-IDF方法、互信息方法、朴素贝叶斯分类法,最大熵模型法、 最大似然性和前缀树等方法等。TF-IDF方法提取关键词的精度还不够高。

发明内容:

本发明的目的在于针对已有技术存在的不足,提供一种改进的文本关键词提取方 法,能提高从单篇文本中提取关键词的精度,并能提取同类文本集合中共同领域关键 词。

为了达到上述的目的,本发明的构思如下:

本发明就是从分析TF-IDF公式提取关键词的基础上,提出通过篇频修正法提高 单篇文本关键词获取精度,通过词频修正法和对比选择法提取同类文本集中共同的领 域关键词。

TF-IDF公式的本质就是通过比较,在提取文本中如果一个词的词频越高,而在 无关文本中的出现次数越低的话,那么它越有可能成为提取文本中的关键词。但是在 TF-IDF公式中,无论一个关键词在一篇无关文本中出现几次,只要出现了,篇频就 要加1,例如“grid”一词在被提取的文本中出现30次,但在10篇无关文本中,每 篇只出现了一次,但是此时系统得到的篇频是10,而另一个词“service”也在被提 取的文本中出现了30次,但在10篇无关文本中,每篇却出现了20次,此时的篇频 也是10。我们可以直观地看到“grid”应该比“service”更像关键词,但是在系统计 算的时候两者的值是一样的。为了解决以上问题,本发明提出在导入无关文本时,先 对每篇无关文本求词频,把词频为1的词删去,即统计篇频时,只考虑关键词出现次 数大于等于2的文本数。

领域关键词是多篇同类单篇文本关键词的交集,传统的TF-IDF关键词提取公式 虽然可以取得不错的效果,但是在求文本领域关键词时,可能把属于单篇文章的关键 词错认为是领域关键词,例如“SARS”一词是某篇描述网格运用于“SARS”研究方 面的文章的关键词,因此在这篇文本中“SARS”一词有很高的词频,而且在无关文 本中“SARS”出现的频率很低,在进行文本领域(类)关键词提取时,利用TF-IDF 公式计算相对词频时,“SARS”一词就会拥有比较高的权重,系统就会认为它是领域 关键词。但是事实上“SARS”的确属于该篇文本的关键词,但是它不可能属于网格 这类文本的关键词。所以本发明在进行TF-IDF公式提取领域关键词前,先对词频进 行修正。

传统的TF-IDF公式提取领域关键词时,是先把每类中的所有文章合并成一篇文 章,在统一计算各词的词频,这样的话就引起了上面的错误,因为只要在一篇文本中 一个词的绝对词频偏高的话,那么在这个领域中这个词的绝对词频也就偏高,可能导 致最后求得的相对词频也偏高。所谓的词频修正法就是在求文本领域关键词的词频 时,先在每篇文本求词频,然后再求出每个词在所有文章中的平均词频,最后把该词 在每篇文本中的词频逐一与平均词频进行比较,把大于或小于平均词频一定比例的词 频出去,再求该词词频的总和,获得一个最终的词频进行TF-IDF公式的计算。

本发明提出用对比选择法提取领域关键词,所谓的对比选择法就是从文本领域关 键词的定义出发,先对每篇文本求出单篇文本的关键词,再通过对比,选出共同拥有 率比较高的词,作为领域关键词。共同拥有率指的是在领域关键词提取时,某一单词 为单篇文本关键词的次数与所有属于该领域的文本数之比。

根据上述的发明构思,本发明采用下述技术方案:

一种文本关键词提取方法,其特征在于改进TF-IDF方法,通过篇频修正法提取 单篇文本的关键词,提高从单篇文本中提取关键词的精度;通过词频修正法或对 比选择法提取同类文本集合中共同的领域关键词。

上述的篇频修正法就是去除无关文本集中所有出现频率为1的词,获得一个 最终的篇频进行TF-IDF公式提取单篇文本中的关键词;其具体步骤如下:

(1)打开训练文本集中的一篇无关文档;

(2)分词、词性标注

(3)通过“废词”表,提取有意义的实词;

(4)统计所有实词出现的绝对频率;

(5)删除绝对词频为1的实词;

(6)用TF-IDF公式计算单篇文本中的所有实词的权重,从中提取一定比例的 关键词。

上述的词频修正法就是在求领域关键词的词频时,先对每篇文本求词频,然后在 求出每个词在所有文档中的平均词频,最后把该词在每篇文档中的词频逐一与平均词 频进行比较,一定比例地除去大于或小于平均词频的词频,再求该词词频的总和,获 得一个最终的词频,对同类文本集合运用TF-IDF公式提取领域关键词;其具体步骤 如下:

(1)打开同类文本集中的所有文档;

(2)分词、词性标注;

(3)通过“废词”表,提取有意义的实词;

(4)统计一个实词出现的平均词频;

(5)删除超过平均词频一定范围的所在文本中的词频;

(6)求和剩余词频;

(7)用TF-IDF公式计算同类文本集中的所有实词的权重,从中提取一定比例 的领域关键词。

上述的对比选择法就是提取同类文本集合中共同的领域关键词的方法,先对每篇 文本运用TF-IDF公式,求出单篇文本的关键词,再通过对比,选出共同拥有率比较 高的词,作为领域关键词,共同拥有率是指:在领域关键词提取时,某一关键词在同 类文本集合中出现的文本数与该文本集合的文本数之比;其具体步骤如下:

(1)打开同类文本集中的所有文档;

(2)预处理(分词、词性标注);

(3)通过“废词”表,提取有意义的实词;

(4)用TF-IDF公式计算同类文本集中的所有实词的权重,从中提取一定比例 的关键词;

(5)统计所有实词的共同拥有率;

(6)选择共同拥有率高于设定阈值的关键词为领域关键词。

本发明与现有技术相比较,具有如下显而易见的突出实质性特点和优点:

本发明在TF-IDF方法提取关键词的基础上,通过篇频修正法、词频修正法和对 比选择法提高从单篇文本提取关键词的精度,或提取同类文本集合中共同的领域关键 词。本发明的特征在于能有效地避免在无关文档中仅出现一次的关键词被统计到篇频 中;通过以一个关键词在所有文档中的平均词频为阈值,去除出现该关键词过大或过 小的文档后,得到的绝对词频之和作为修正后的词频,用于提取领域关键词,从而避 免一个关键词在一篇文档中频繁出现导致绝对词频很高而被计入领域关键词;通过对 每篇文本求出单篇文本的关键词,再通过对比,选出共同拥有率比较高的词,作为领 域关键词,从而避免一个关键词在一篇文档中频繁出现导致绝对词频很高而被计入领 域关键词。该方法可以有效地提高单篇文本的关键词提取精度,或提取领域关键词, 从而提高文本领域知识获取的性能与领域知识本体建立的效果,提高网络资源服务的 质量与效果。

附图说明:

图1是篇频修正法提取关键词程序流程图

图2是词频修正法提取关键词程序流程图。

图3是对比选择法提取关键词程序流程图。

具体实施方式:

本发明的一个优选实施例结合附图详述如下:

现有的关键词提取方法是通过TF-IDF公式计算单篇文本中有意义的实词(动词, 名词)在文本中的权重,通过降序排列权重筛选单篇文本的关键词。

在TF-IDF公式中,绝对词频,即词在文本中出现的频率。相对词频为归一化的 词频(即词的权重),其计算方法是TF-IDF公式,即

W ( t , d ) = tf ( t , d ) × log ( N / n t + 0.01 ) Σ t d [ tf ( t , d ) × log ( N / n t + 0.01 ) ] 2

其中 为词t在文本 中的权重,而 为词t在文本 中的绝 对词频,N为训练文本的总数,即为无关文本的总数,nt为训练文本集中出现t的 文本数,即篇频,分母为归一化因子。

为了提高提取关键词的精度,预先设定了一个“废词”文本,其中包含一些常用 的动词、副词和形容词(如:this,that,is等),这些词都不可能是所需的关键词, 对于关键词而言,它们都是些“废词”。

对于提取单篇文本的关键词,本实施例的篇频修正法具体流程如图1所示,步骤 如下:

S1打开训练文本集中的一篇无关文档;

S2分词、词性标注;

S3通过“废词”表,提取有意义的实词;

S4统计所有实词出现的绝对频率;

S5删除绝对词频为1的实词;

S6用TF-IDF公式计算单篇文本中的所有实词的权重,从中提取一定比例的关键 词。

对于提取同类文本集共同的领域关键词,本实施例的词频修正法具体流程如图2 所示,步骤如下:

S1打开同类文本集中的所有文档;

S2分词、词性标注;

S3通过“废词”表,提取有意义的实词;

S4统计一个实词出现的平均词频;

S5删除超过平均词频一定范围的所在文本中的词频;

S6求和剩余词频;

S7用TF-IDF公式计算同类文本集中的所有实词的权重,从中提取一定比例的领 域关键词。

例如词A在同一类的四篇文章中的词频分别四40,5,10,5,它的平均词频就 是15。定义比例为0.8,那么系统就会对词频在15±15*0.8范围内的词频进行求和, 那么40将被舍去,最终词A的绝对词频就是20,用这个值来计算最后的相对词频, 提取关键词。

对于提取同类文本集共同的领域关键词,本实施例的对比选择法具体流程如图3 所示,步骤如下:

S1打开同类文本集中的所有文档;

S2预处理(分词、词性标注);

S3通过“废词”表,提取有意义的实词;

S4用TF-IDF公式计算同类文本集中的所有实词的权重,从中提取一定比例的关 键词;

S5统计所有实词的共同拥有率;

S6选择共同拥有率高于设定阈值的关键词为领域关键词。

例如,一个领域中有10篇文本,关键词A是其中6篇文本的关键词,那么类共 同拥有率就是6/10=0.6。

高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈