首页 / 专利库 / 软件 / 软件解决方案 / 软件组件 / 规则引擎 / 采用人工智能技术自动产生标题的方法

采用人工智能技术自动产生标题的方法

阅读:0发布:2022-01-15

专利汇可以提供采用人工智能技术自动产生标题的方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种采用 人工智能 技术自动产生标题的方法。方法基于从文本相关的背景知识中产生的单词特征进行 机器学习 而得。首先利用文本到查询的转换技术为文本产生一个查询,然后利用该查询对对维基百科进行全文检索,通过分析获得的维基百科的文章结构去定义新的单词特征,文章体裁也被利用进行定义单词的特征,接下来利用机器学习方法在这些产生的特征上运行,从而从文本中提取候选的标题单词,通过对这些单词聚类产生最后的标题。本发明将维基百科的背景知识引入到候选标题单词的识别过程;充分利用维基百科的各种结构信息;利用文章的体裁信息定义单词的特征。可以由计算机自动产生标题。,下面是采用人工智能技术自动产生标题的方法专利的具体信息内容。

1.一种采用人工智能技术自动产生标题的方法,其过程在于包括以下步骤:
1)文本背景知识的获取,利用一个文本到查询的转换技术产生文本对应的查询语句,检测文本中重要的句子,选出文本中重要的句子,然后除去无意义的单词,并把剩下的词返回原始状态,结果就是生成的查询,全文检索引擎Zettair以这个查询为输入在维基百科检索,返回一个维基百科的文章集合;
2)分析返回的维基百科文章集合,从中提取有价值的信息,对于每一个返回的维基百科文章,分析它的结构,提取导入链接,导出链接,种类和infobox四种不同的结构信息,并且组成相应的集合;
3)利用维基百科的结构信息和文章体裁定义新的单词特征,从三个方面定义单词特征,通过使用维基百科的背景知识产生单词的特征,根据文章的体裁信息产生单词的特征,利用文章本身的信息来产生单词的特征,共同组成一个特征空间;
4)基于上面产生的单词特征空间,使用支持向量机的方法进行机器学习,得到一个训练模型,并使用这个模型从文本中提取候选的标题单词;
5)使用聚类算法把提取的单词连接在一起,对连接产生的标题利用语法规则进行处理,从而达到流利性的要求。
2.根据权利要求1所述的一种采用人工智能技术自动产生标题的方法,其特征在于所述的步骤1)为:
a)把文本中的句子构建一个图,图中的点代表句子,连接点的边代表句子间的联系,边的权重由两个句子的相似程度决定,利用这个图检测文本中的重要句子;
b)通过计算出的每一个关键节点都代表一个关键句,然后根据无意义单词列表除去句子中的无意义单词;
c)把步骤b)处理完的单词返回原始形态,然后利用剩下的单词组成对应于文章的查询;
d)把产生的查询输入到一个全文检索引擎Zettair,该引擎在维基百科上运行,根据与查询的相关程度返回维基百科中的文章,并按照相关程度排序,获得一个维基百科中的相关文章组成的集合。
3.根据权利要求1所述的一种采用人工智能技术自动产生标题的方法,其特征在于所述的步骤2)为:
e)对于集合中的每一个文章,提取出其中的导入链接,产生一个导入链接集合,导入链接把维基百科其它位置的文章链接到当前文章,利用MediaWikiAPI获得某个文章的所有导入链接集合;
f)对于集合中的每一个文章,提取出其中的导出链接,并组成一个导出链接集合,导出链接把当前文章指向维基百科其它位置,导出链接在文章的文本中以超链接的形式存在,通过提取文章中所有的超链接获得该文章的导出链接集合;
g)对每一个文章提取它的种类信息,并组成一个种类集合;
h)对每一个含有infobox的文章提取infobox中的参数值,组成一个infobox参数值集合。同时扔掉infobox种的参数名信息。
4.根据权利要求1所述的一种采用人工智能技术自动产生标题的方法,其特征在于所述的步骤3)为:
i)对于维基百科文章的导入链接结构中的每一个链接,利用WordNet比较它与候选单词的相似程度,同时考虑文章在全文检索引擎的返回得分,计算出这个候选单词的导入链接特征;
j)对于维基百科文章的导出链接结构中的每一个链接,利用WordNet比较它与候选单词的相似程度,同时考虑文章在全文检索引擎的返回得分,得出这个候选单词的导出链接特征;
k)对于维基百科文章的种类集合的每一个元素,利用维基百科的种类图来得它与候选单词之间的相似程度,同时考虑到该文章在全文检索引擎的得分,得出该候选单词的种类特征;
l)对于维基百科文章的infobox参数值集合中的每一个元素,利用WordNet得其与候选单词之间的相似程度,同时考虑到该文章在全文检索引擎的得分,得出该候选单词的infobox特征;
m)提取包括外表特征,字符特征,结构特征在内的文章体裁特征,测量两个文章的题材相似程度;
n)使用一个包含很多体裁文章的文章集合,给定一个文章,从集合中找出体裁相似程度最近的300个文章,提取它们的标题,除去其中无意义的单词,对每一个这样的单词,计算单词的出现次数,并且计算单词与文章的题材相似程度;
o)同时使用一些广泛使用的单词的特征,单词在文章中出现的频率,单词在文章中的位置,单词是否指代特殊的人名或地名,单词长度以及单词是否出现在总结的句子中。
5.根据权利要求1所述的一种采用人工智能技术自动产生标题的方法,其特征在于所述的步骤4)为:
p)关键字提取被看成一个分类问题,使用支持向量机算法在上面产生的文本特征空间上运行,把候选单词分为关键词和非关键词;
q)在使用支持向量机算法进行训练时,出现在标题中的单词作为正面的例子,其它的单词反面的例子,然后训练一个支持向量模型,利用这个模型进行关键字的提取;
r)根据在机器学习中的决定值的大小,利用一个参数靠控制提取关键词的数量,对提取出的关键字进行排序,排序高的候选单词成为关键字的可能性越高。
6.根据权利要求1所述的一种采用人工智能技术自动产生标题的方法,其特征在于所述的步骤5)为:
s)在文本中标出识别出的候选标题单词,用一个小包括它左边和右边的单词,如果两个小块相连,合并组成一个大块;
t)当没有块可以合并时,识别出文本中存在的最大的块,在这个块中的单词被作为标题,如果达不到标题长度要求,识别下一个最大的块,然后加入其中的单词到标题中,直到满足标题长度要求;
u)为了进一步加强标题的可读性,产生一些语法规则优化产生的标题,POS标签也被使用来优化标题,经过两次优化的标题就是最后的标题。

说明书全文

技术领域

发明涉及数据挖掘以及人工智能领域,尤其涉及一种采用人工智能技术自动产生标题的方法

背景技术

已经大量的工作来进行自动产生标题的提取工作。2003年Proceedings of theHLT-NAACL杂志(文章标题”Hedge trimmer:a parse-and-trim approach toheadline generation”)介绍了一种基于语义的方法来进行文章标题的产生。2004年Proceedings of Document Understanding Conference杂志(文章标题”Bbn/umd atduc 2004:Topiary”)介绍利用基于语义的句子压缩技术和基于统计的标题单词共同产生文章的标题。2004年Proceedings of ACL杂志(文章标题”Template-filtered headline summarization”)介绍一种基于模版的方法产生文章标题。2001年Proceedings of the Second International Conference on Computational Linguisticsand Intelligent Text Processing杂志(文章标题“Title generation using a trainingcorpus”)首先利用句子位置模型产生标题文本,然后对生成的标题进行处理获得最后的标题。2007年Information Processing and Management杂志(文章标题”Abstractive headline generation using WIDL-expressions”)介绍利用WIDL表达模型和一些语言模型产生基于统计的知识,然后利用这些统计规律产生标题。
总而言之,我们观察到的相关工作,都是利用文章本身的信息产生一些统计性的规律,基于这些规律去产生标题。

发明内容

本发明的目的是克服现有技术的不足,提供一种采用人工智能技术自动产生标题的方法。
采用人工智能技术自动产生标题的方法包括以下步骤:
1)文本背景知识的获取,利用一个文本到查询的转换技术产生文本对应的查询语句,检测文本中重要的句子,选出文本中重要的句子,然后除去无意义的单词,并把剩下的词返回原始状态,结果就是生成的查询,全文检索引擎Zettair以这个查询为输入在维基百科检索,返回一个维基百科的文章集合;
2)分析返回的维基百科文章集合,从中提取有价值的信息,对于每一个返回的维基百科文章,分析它的结构,提取导入链接,导出链接,种类和infobox四种不同的结构信息,并且组成相应的集合;
3)利用维基百科的结构信息和文章体裁定义新的单词特征,从三个方面定义单词特征,通过使用维基百科的背景知识产生单词的特征,根据文章的体裁信息产生单词的特征,利用文章本身的信息来产生单词的特征,共同组成一个特征空间;
4)基于上面产生的单词特征空间,使用支持向量机的方法进行机器学习,得到一个训练模型,并使用这个模型从文本中提取候选的标题单词;
5)使用聚类算法把提取的单词连接在一起,对连接产生的标题利用语法规则进行处理,从而达到流利性的要求。
所述的步骤1)为:
a)把文本中的句子构建一个图,图中的点代表句子,连接点的边代表句子间的联系,边的权重由两个句子的相似程度决定,利用这个图检测文本中的重要句子;
b)通过计算出的每一个关键节点都代表一个关键句,然后根据无意义单词列表除去句子中的无意义单词;
c)把步骤b)处理完的单词返回原始形态,然后利用剩下的单词组成对应于文章的查询;
d)把产生的查询输入到一个全文检索引擎Zettair,该引擎在维基百科上运行,根据与查询的相关程度返回维基百科中的文章,并按照相关程度排序,获得一个维基百科中的相关文章组成的集合。
所述的步骤2)为:
e)对于集合中的每一个文章,提取出其中的导入链接,产生一个导入链接集合,导入链接把维基百科其它位置的文章链接到当前文章,利用MediaWiki API获得某个文章的所有导入链接集合;
f)对于集合中的每一个文章,提取出其中的导出链接,并组成一个导出链接集合,导出链接把当前文章指向维基百科其它位置,导出链接在文章的文本中以超链接的形式存在,通过提取文章中所有的超链接获得该文章的导出链接集合;
g)对每一个文章提取它的种类信息,并组成一个种类集合;
h)对每一个含有infobox的文章提取infobox中的参数值,组成一个infobox参数值集合。同时扔掉infobox种的参数名信息。
所述的步骤3)为:
i)对于维基百科文章的导入链接结构中的每一个链接,利用WordNet比较它与候选单词的相似程度,同时考虑文章在全文检索引擎的返回得分,计算出这个候选单词的导入链接特征;
j)对于维基百科文章的导出链接结构中的每一个链接,利用WordNet比较它与候选单词的相似程度,同时考虑文章在全文检索引擎的返回得分,得出这个候选单词的导出链接特征;
k)对于维基百科文章的种类集合的每一个元素,利用维基百科的种类图来得出它与候选单词之间的相似程度,同时考虑到该文章在全文检索引擎的得分,得出该候选单词的种类特征;
l)对于维基百科文章的infobox参数值集合中的每一个元素,利用WordNet得到其与候选单词之间的相似程度,同时考虑到该文章在全文检索引擎的得分,得出该候选单词的infobox特征;
m)提取包括外表特征,字符特征,结构特征在内的文章体裁特征,测量两个文章的题材相似程度;
n)使用一个包含很多体裁文章的文章集合,给定一个文章,从集合中找出体裁相似程度最近的300个文章,提取它们的标题,除去其中无意义的单词,对每一个这样的单词,计算单词的出现次数,并且计算单词与文章的题材相似程度;
o)同时使用一些广泛使用的单词的特征,单词在文章中出现的频率,单词在文章中的位置,单词是否指代特殊的人名或地名,单词长度以及单词是否出现在总结的句子中。
所述的步骤4)为:
p)关键字提取被看成一个分类问题,使用支持向量机算法在上面产生的文本特征空间上运行,把候选单词分为关键词和非关键词;
q)在使用支持向量机算法进行训练时,出现在标题中的单词作为正面的例子,其它的单词反面的例子,然后训练一个支持向量模型,利用这个模型进行关键字的提取;
r)根据在机器学习中的决定值的大小,利用一个参数靠控制提取关键词的数量,对提取出的关键字进行排序,排序高的候选单词成为关键字的可能性越高。
所述的步骤5)为:
s)在文本中标出识别出的候选标题单词,用一个小包括它左边和右边的单词,如果两个小块相连,合并组成一个大块;
t)当没有块可以合并时,识别出文本中存在的最大的块,在这个块中的单词被作为标题,如果达不到标题长度要求,识别下一个最大的块,然后加入其中的单词到标题中,直到满足标题长度要求;
u)为了进一步加强标题的可读性,产生一些语法规则优化产生的标题,POS标签也被使用来优化标题,经过两次优化的标题就是最后的标题。
本发明与现有技术相比具有的有益效果:
(1)将维基百科的背景知识引入到候选标题单词的识别过程;
(2)充分利用维基百科的各种结构信息;
(3)利用文章的体裁信息定义单词的特征。
附图说明
图1是采用人工智能技术自动产生标题的方法的软件流程图
图2从维基百科中获取背景知识的流程图;
图3是本发明的从文本中识别出的候选标题单词示意图;
图4是本发明的候选单词的聚类过程流程图;
图5是本发明的自动产生标题的例子示意图。

具体实施方式

采用人工智能技术自动产生标题的方法包括以下步骤:
1)文本背景知识的获取,利用一个文本到查询的转换技术产生文本对应的查询语句,检测文本中重要的句子,选出文本中重要的句子,然后除去无意义的单词,并把剩下的词返回原始状态,结果就是生成的查询,全文检索引擎Zettair以这个查询为输入在维基百科检索,返回一个维基百科的文章集合;
2)分析返回的维基百科文章集合,从中提取有价值的信息,对于每一个返回的维基百科文章,分析它的结构,提取导入链接,导出链接,种类和infobox四种不同的结构信息,并且组成相应的集合;
3)利用维基百科的结构信息和文章体裁定义新的单词特征,从三个方面定义单词特征,通过使用维基百科的背景知识产生单词的特征,根据文章的体裁信息产生单词的特征,利用文章本身的信息来产生单词的特征,共同组成一个特征空间。
4)基于上面产生的单词特征空间,使用支持向量机的方法进行机器学习,得到一个训练模型,并使用这个模型从文本中提取候选的标题单词;
5)使用聚类算法把提取的单词连接在一起,对连接产生的标题利用语法规则进行处理,从而达到流利性的要求。
所述的步骤1)为:
a)把文本中的句子构建一个图,图中的点代表句子,连接点的边代表句子间的联系,边的权重由两个句子的相似程度决定,利用这个图检测文本中的重要句子;
b)通过计算出的每一个关键节点都代表一个关键句,然后根据无意义单词列表除去句子中的无意义单词;
c)把步骤b)处理完的单词返回原始形态,然后利用剩下的单词组成对应于文章的查询;
d)把产生的查询输入到一个全文检索引擎Zettair,该引擎在维基百科上运行,根据与查询的相关程度返回维基百科中的文章,并按照相关程度排序,获得一个维基百科中的相关文章组成的集合。
所述的步骤2)为:
e)对于集合中的每一个文章,提取出其中的导入链接,产生一个导入链接集合,导入链接把维基百科其它位置的文章链接到当前文章,利用MediaWiki API获得某个文章的所有导入链接集合;
f)对于集合中的每一个文章,提取出其中的导出链接,并组成一个导出链接集合,导出链接把当前文章指向维基百科其它位置,导出链接在文章的文本中以超链接的形式存在,通过提取文章中所有的超链接获得该文章的导出链接集合;
g)对每一个文章提取它的种类信息,并组成一个种类集合;
h)对每一个含有infobox的文章提取infobox中的参数值,组成一个infobox参数值集合。同时扔掉infobox种的参数名信息。
所述的步骤3)为:
i)对于维基百科文章的导入链接结构中的每一个链接,利用WordNet比较它与候选单词的相似程度,同时考虑文章在全文检索引擎的返回得分,计算出这个候选单词的导入链接特征;
j)对于维基百科文章的导出链接结构中的每一个链接,利用WordNet比较它与候选单词的相似程度,同时考虑文章在全文检索引擎的返回得分,得出这个候选单词的导出链接特征;
k)对于维基百科文章的种类集合的每一个元素,利用维基百科的种类图来得出它与候选单词之间的相似程度,同时考虑到该文章在全文检索引擎的得分,得出该候选单词的种类特征;
l)对于维基百科文章的infobox参数值集合中的每一个元素,利用WordNet得出其与候选单词之间的相似程度,同时考虑到该文章在全文检索引擎的得分,得出该候选单词的infobox特征;
m)提取包括外表特征,字符特征,结构特征在内的文章体裁特征,测量两个文章的题材相似程度;
n)使用一个包含很多体裁文章的文章集合,给定一个文章,从集合中找出体裁相似程度最近的300个文章,提取它们的标题,除去其中无意义的单词,对每一个这样的单词,计算单词的出现次数,并且计算单词与文章的题材相似程度;
o)同时使用一些广泛使用的单词的特征,单词在文章中出现的频率,单词在文章中的位置,单词是否指代特殊的人名或地名,单词长度以及单词是否出现在总结的句子中。
所述的步骤4)为:
p)关键字提取被看成一个分类问题,使用支持向量机算法在上面产生的文本特征空间上运行,把候选单词分为关键词和非关键词;
q)在使用支持向量机算法进行训练时,出现在标题中的单词作为正面的例子,其它的单词反面的例子,然后训练一个支持向量模型,利用这个模型进行关键字的提取;
r)根据在机器学习中的决定值的大小,利用一个参数靠控制提取关键词的数量,对提取出的关键字进行排序,排序高的候选单词成为关键字的可能性越高。
所述的步骤5)为:
s)在文本中标出识别出的候选标题单词,用一个小块包括它左边和右边的单词,如果两个小块相连,合并组成一个大块;
t)当没有块可以合并时,识别出文本中存在的最大的块,在这个块中的单词被作为标题,如果达不到标题长度要求,识别下一个最大的块,然后加入其中的单词到标题中,直到满足标题长度要求;
u)为了进一步加强标题的可读性,产生一些语法规则优化产生的标题,POS标签也被使用来优化标题,经过两次优化的标题就是最后的标题。
实施例
如图1所示,本发明所述的实施系统的流程包括文章相关背景知识获取101,分析返回维基百科文章结构102,利用维基百科结构和体裁定义新的单词特征103,通过机器学习实现识别候选标题单词104,聚类和优化从而形成最后的标题105。
文章相关背景知识获取101:在本示例中,该部分包括以下步骤:
(A)检测文章中的关键句子,其步骤详述如下:
1)把文章中的句子看成图中的点,从而为一个文章产生一个图,本方法采用了Proceedings of EMNLP杂志在2004年所公布的一个检测关键句算法(“TextRank:Bringing order into texts”,233-242,2004)。
2)这个算法基于句子构建一个由一个图,图中的点代表句子,连接点的边代表句子间的联系,边的权重由两个句子的相似程度决定,句子间的相似程度计算方法基于两个句子中的单词,并且利用WordNet考虑到单词间的相似程度,从而得出句子之间的相似程度,计算两个句子间相似程度的函数如下定义:
Similarity(Si,Sj)=ΣWpSiΣWqSjσ1(Wp,Wq)log(|Si|)+log(|Sj|)
其中S表示句子,W表示句子中的单词,||符号代表句子中包含的单词数目,σ1(Wp,Wq)利用WordNet测量两个单词之间的相似程度。
3)利用WordNet测量单词之间的相似程度,本方法应用了Proceedings ofAAAI杂志于2004年公布的一篇文章(“Wodnet::Similarity-measuring therelatedness of concepts”,Proceedings of the Nineteenth National Conference onArtificial Intelligence,2004)所提出的一种基于WordNet的单词间相似程度计算方法。
(B)对步骤(A)中检测的关键句进行处理,得到相应的查询,其步骤详述如下:
1)对关键句子除去无意义的单词。本方法应用了ACM Forum杂志在1989年所公布的一个无意义单词表(“A stop list for general text”,ACM Forum,24(1-2):19-21,1989)除去句子中无意义的词。
2)对剩下的单词返回其原始形态,利用处理后的结果组成对应于文章的查询。
(C)利用产生的查询对维基百科进行检索,其步骤详述如下:
1)利用产生的查询对维基百科进行全文检索,本方法应用了Proceedings TextRetrieval Conference杂志于2004年公布的一篇文章(“RMIT University at TREC2004”,Proceedings Text Retrieval Conference)所提出的一个全文搜索引擎Zettair对维基百科进行全文检索,返回一系列相关的文章标题。
2)按照与查询的相关程度对返回的结果文章进行排序,并取前N个文章,这样我们获得一个维基百科中的相关文章组成的集合,N的值可以调节。分析返回维基百科文章结构102:在本示例中,该部分包括以下步骤:
(D)从维基百科文章中提取链接结构,包括导入链接和导出链接,其步骤详述如下:
1)导入链接把维基百科其它位置的文章链接到当前文章,本方法应用了Proceedings of ISWC杂志于2006年公布的一篇文章(“Semantic MediaWiki”,Proceedings of 5th International Semantic Web Conference,935-942,2006)所提出的MediaWiki API获得某个文章的所有导入链接集合。
2)导出链接把当前文章指向维基百科其它位置,导出链接在文章的文本中以超链接的形式存在,通过提取文章中所有的超链接获得该文章的导出链接集合。
(E)从维基百科文章中提取种类信息和infobox参数值信息,其步骤详述如下:
1)种类结构是维基百科的重要特征,它把关联的文章放在一起,方便用户阅读。我们对一步对每一个文章提取它的种类信息,并组成一个种类集合。
2)维基百科文章中的infobox是文章中重要信息的一个总结,对每一个含有infobox的文章提取infobox中的参数值,组成一个infobox参数值集合,同时扔掉infobox种的参数名信息。
利用维基百科结构和体裁定义新的单词特征103:在本示例中,该部分包括以下步骤:
(F)利用维基百科文章的结构信息定义新的单词特征,其步骤详述如下:
1)对于维基百科文章的导入链接结构中的每一个链接,利用WordNet比较它与候选单词的相似程度,同时考虑文章在全文检索引擎的返回得分,计算出这个候选单词的导入链接特征,特征值由以下函数计算:
SI(xi,Π)=ΣprΠ[z(pr)·ΣkIT(pr)σ1(xi,k)]ΣprΠz(pr)·|IT(pr)|
其中∏表示前面获得维基百科文章集合,xi表示一个候选单词,pr表示∏中的一个文章,z(pr)表示全文检索引擎Zettair返回的相关程度得分,σ1利用WordNet测量两个单词间的相似程度,||表示集合中的元素数量,IT表示导入链接集合。
2)对于维基百科文章的导出链接结构中的每一个链接,利用WordNet比较它与候选单词的相似程度,同时考虑文章在全文检索引擎的返回得分,计算出这个候选单词的导出链接特征。
SO(xi,Π)=ΣprΠ[z(pr)·ΣkOT(pr)σ1(xi,k)]ΣprΠz(pr)·|OT(pr)|
其中表示OT到处链接集合,其它符号的定义在i)中已经给出。
3)对于维基百科文章的种类集合的每一个元素,利用维基百科的种类图来计算它与候选单词之间的相似程度,同时考虑到该文章在全文检索引擎的得分,计算出该候选单词的种类特征。
SC(xi,Π)=ΣprΠ[z(pr)·ΣcC(pr)σ2(xi,c)]ΣprΠz(pr)·|C(pr)|
其中C表示一个维基百科文章对应的种类集合,σ2利用维基百科种类图计算两个单词之间的相似程度。其它符号的定义在i)中已经给出。
4)对于维基百科文章的infobox参数值集合中的每一个元素,利用WordNet计算它与候选单词之间的相似程度,同时考虑到该文章在全文检索引擎的得分,计算出该候选单词的infobox特征。
SF(xi,Π)=ΣprΠ[z(pr)·ΣkIV(pr)σ1(xi,k)]ΣprΠz(pr)·|IV(pr)|
其中IV代表一个维基百科文章的infobox参数值集合,其它符号的定义已经在i)给出。
(G)利用文章的体裁信息定义新的单词特征,其步骤详述如下:
1)提取文章的体裁特征确定文章的体裁,本方法应用了Proceedings ofHuman Language Technology and Knowledge Management杂志于2001年公布的一篇文章(“The form is the substance:classification of genres in text”,Proceedingsof the workshop on Human Language Technology and Knowledge Management,1-8,2001)所提出的一种利用文章包括结构特征,字符特征,外表特征在内的多项特征确定文章的体裁。
2)测量两个文章的体裁相似度,本方法应用了J.G.Stewart于2008年的一篇博士论文(“Genre Oriented Summarization”)所提出的一种方法测量文章间的体裁相似度。
3)根据单词在文章标题中出现次数来定义单词与文章的题材适应度,本方法使用一个包含很多体裁文章的文章集合,给定一个文章,从集合中找出体裁相似程度最近的300个文章,提取标题,除去标题中无意义的单词,对每一个这样的单词,计算单词的出现次数,并且计算单词与文章的题材相似程度,定义基于体裁的单词权重函数:
WO(wi)=Σk=1nθ(dj,dj,k)
其中θ是2)提出的测量两个文章的题材相似程度的函数,dj,k是与dj体裁相似度最近的300个文章。
4)基于3)的结果进一步提出基于体裁的单词频率函数:
WF(wk)=WO(wk)Σt=1mWO(wt)
其中m是在300文章中的标题中出现的所有单词数目,基于上面两个公式,接下来定义单词的文章体裁适应性特征,该函数如下定义:
γ(wi,dj)=Σk=1mWF(wk)σ1(wk,wi)
(H)使用一些广泛使用的单词特征,其步骤详述如下:
1)利用单词在文章中出现的频率计算单词的频率特征,采用标准化的tf.idf去测量单词的频率,本方法应用了Technical Report杂志于1987年公布的一篇文章(“Term-weighting approaches in automatic text retrieval”,Technical report,1987)所提出的方法计算tf.idf的值。
2)利用单词在文章中出现的位置和次数定义单词的首次出现特征,平均特征和最后一次出现特征;指代特殊人名或者地名的单词也被用来定义特征;此外单词的相对长度也被用来刻画单词的特征;最后与总结性的单词,如”insummary”,“in conclusion”出现在一起的单词,其总结特征被定义为1,否则为0。通过机器学习识别候选标题单词104:使用支持向量机算法在上面产生的文本特征空间上运行,把候选单词分为关键词和非关键词,在使用支持向量机算法进行训练时,出现在标题中的单词作为正面的例子,其它的单词反面的例子,训练集中的数据形式为(F(w1),y1),...,(F(wn,yn)),其中F(wj)指代第j个单词的特征向量,yj是对应于单词的类标签,其取值为1或-1。1代表关键字,-1代表非关键字。然后训练一个支持向量模型,利用这个模型进行关键字的提取,根据在机器学习中的决定值的大小,对提取出的关键字进行排序,排序高的候选单词成为关键字的可能性越高,提取关键词的数量通过参数M控制。
聚类并优化形成标题105:在本示例中,该部分包括以下步骤:
(I)对已经识别出的关键字进行聚类,形成初步标题,其步骤详述如下:
1)对识别出的关键字进行聚类操作,本方法应用了Proceedings ofHLT/NAACL杂志于2003年公布的一篇文章(“Headline Summarization at ISI”,Proceedings of HLT/NAACL workshop on Automatic Summarization/DUC2003,2003)所提出的方法进行关键字的聚类,从而形成一个初步的标题。
2)识别出文本中存在的最大聚类窗口,在这个窗口中的单词被作为标题,如果达不到标题长度要求,我们识别下一个最大的窗口,然后加入其中的单词到标题中,知道满足标题长度要求。
(J)对初步产生的标题进行优化,其步骤详述如下:
1)利用一些语法规则优化标题,加强可读性,本方法应用了HLT/NAACL杂志于2003年公布的一篇文章(“Headline Summarization at ISI”,Proceedings ofHLT/NAACL workshop on Automatic Summarization/DUC2003,2003)所提出的语法规则进行标题的优化操作。
2)利用单词的POS标签优化标题,加强可读性,本方法应用了AI杂志于1997年公布的一篇文章(“Statistical Techniques for Natural Language Parsing”,AIMagazine,18(4):33-44,1997)的方法计算单词的POS标签。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈