首页 / 专利库 / 专利权 / 专利合作条约 / 第I章 / 国际申请 / 摘要 / 一种多文本快速摘要方法

一种多文本快速摘要方法

阅读:1031发布:2020-05-16

专利汇可以提供一种多文本快速摘要方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种多文本快速 摘要 方法,建立基于语句间潜在关联的模型,多篇文档中的语句被该模型建模,模型依据语句间的关联度打分并获得语句的重要度,根据重要度高的语句形成最终的摘要内容。本发明提供的多文本快速摘要方法,将多文本中的每个语句作为一个 节点 并进行单独分析,利用本发明所提出的语句贡献度打分方法,经过若干轮 迭代 打分,确定重要度较高的语句,再根据高重要度语句快速生成最终的摘要内容,兼顾了文本主题的多样性和摘要语句的通顺性,加快了多文本摘要的生成速度,工作效率高,应用前景广阔。,下面是一种多文本快速摘要方法专利的具体信息内容。

1.一种多文本快速摘要方法,其特征在于,建立基于语句间潜在关联的模型,多篇文档中的语句被该模型建模,模型依据语句间的关联度打分,得到重要度高的语句并形成摘要内容,包括以下步骤:
步骤一、建立语料库,建立基于语句间潜在关联的模型,多篇文档中的语句被该模型建模;
步骤二、给定若干个语句,步骤一建模得到的模型对给定的每个语句进行相同的重要度赋值并作为初始值,一个语句为一个节点,通过模型计算获得两个节点之间的边的权重及两个节点对与其相连的边的贡献度;
步骤三、模型对步骤二的边的权重和两个节点的贡献度进行处理得到节点的重要度,边的权重被按比例划分成两份,较大的一份被赋予贡献度大的节点的重要度上,较小的部分被赋予另外一个节点,随后根据新的重要度赋值返回步骤二重新计算边的权重再完成步骤三,经过若干个循环得到重要度高的语句并生成摘要内容。
2.根据权利要求1所述的一种多文本快速摘要方法,其特征在于,步骤一中,所述模型包括T元素、V元素、F元素、E元素、W元素和S元素,分别被定义为:
T={ti|ti是语料库中的一个词},其中,T是一个字典,是词的集合,其中囊括语料库中的所有词汇,同时去除重复的词;
V={vj|vj={tk}},语料库中的每一个语句被表示为一个节点vj,每一个节点vj是有一个tk的集合组成;
F={fij|fij是ti在vj中出现的次数,ti∈T,vj∈V},语句的规约化长度为E={eij|eij是节点vi与vj之间的一条边,vi,vj∈V},eij为连接节点vi与节点vj的边,不具有方向性,eij=eji,节点vi与节点vj分别为语料库中的第i个语句和第j个语句;
W={wij|wij是eij的权重,是关联度的度量值,eij∈E},wij为连接节点vi和节点vj的边eij的权重,关联度是距离度量的一个相反度量,由距离度量函数加上适当取反来测量;
S={si|si是节点vi的重要度度量,vi∈V},重要度si度量节点vi对与其相连的边的权重的贡献度。
3.根据权利要求2所述的一种多文本快速摘要方法,其特征在于,所述权重wij在向量空间中的距离度量采用余弦相似度并采用如下公式定义:
公式一定义了节点vi与节点vj之间的余弦相似度,其最大值为1,最小值为0,wij=wji。
4.根据权利要求2所述的一种多文本快速摘要方法,其特征在于,所述节点的重要度通过迭代式的计算产生,包括如下步骤:
步骤一、拆分连接节点vi和节点vj的边eij的权重wij,计算节点vi的贡献度;
步骤二、总和步骤一中所有节点vi对于与其相连的边eij的贡献度,根据贡献度计算获得重要度,再根据高重要度语句生成摘要内容。
5.根据权利要求2所述的一种多文本快速摘要方法,其特征在于,所述重要度si采用如下公式进行计算:
其中,n表示迭代次数,ci为节点vi的贡献度,si为节点vi的重要度且初始值 为1/|V|,所有语句在迭代开始时被赋予相同的重要度值。
6.根据权利要求5所述的一种多文本快速摘要方法,其特征在于,所述节点的贡献度通过如下公式进行计算:
其中,ci为节点vi的贡献度,tk表示语料库中的词,若节点vi和节点vj有共同项,则权重wij不为0,公式二将wij分为两部分,较大的一份被赋予贡献度大的节点vi的重要度上,较小的部分被赋予另外一个节点vj的重要度上,其中 被分配给节点vi,当fki部分越大时,即词tk在节点vi中出现的次数越多,分配给节点vi的权重越大,节点vi的贡献度越大,节点vi对应的语句的重要度越高。

说明书全文

一种多文本快速摘要方法

技术领域

[0001] 本发明涉及计算机应用技术领域,具体涉及一种多文本快速摘要方法。

背景技术

[0002] 随着互联网的快速发展,以文本形式呈现的在线信息,如网站新闻、微博和微信等,其信息量在近年有巨大的增长。面对如此巨量的文本信息,人们需要一个简便的方法用来快速浏览这些信息,在这方面,计算机辅助文本摘要方法可以帮助人们快速地产生各类文本的摘要条目,在人们在线浏览时,其可以帮助人们通过摘要来辨别是否需要继续浏览新闻全文,从而加快浏览速度。
[0003] 传统的文本摘要方法将文本视为一个没有任何结构的“词袋”,并使用向量空间模型VSM(Vector Space Model)来对“词袋”建模,这一类方法从统计的度计算词的频率并评价词的重要性,其不但产生了大量的计算,拖慢摘要产生的速度,另一方面,由于其忽略了文章语句之间的结构关系,影响到了文本摘要的质量
[0004] 本发明针对当前社会对于快速文本摘要算法的强烈需求,针对传统摘要方法存在的质量平和速度慢等缺点,公开了一种多文本快速摘要方法,可以广泛应用于互联网领域,有利于提升人们获取信息的效率。

发明内容

[0005] 为解决现有技术的问题,本发明提供一种多文本快速摘要方法,建立基于语句间潜在关联的模型,多篇文档中的语句将被该模型建模,模型依据语句间的关联度打分,使得重要的语句获得更高的分数,根据高重要度语句生成最终的摘要内容,辅助人们从多文本中快速获取重要信息,提高提取摘要的工作效率。
[0006] 为实现上述目的,本发明采用的技术方案为:
[0007] 一种多文本快速摘要方法,建立基于语句间潜在关联的模型,多篇文档中的语句被该模型建模,模型依据语句间的边的权重和语句的贡献度计算获得重要度高的语句并形成最终的摘要内容,包括以下步骤:
[0008] 步骤一、建立语料库,建立基于语句间潜在关联的模型,多篇文档中的语句被该模型建模;
[0009] 步骤二、给定若干个语句,步骤一建模得到的模型对给定的每个语句进行相同的重要度赋值并作为初始值,一个语句为一个节点,通过模型计算获得每两个节点之间的边的权重及两个节点对与其相连的边的贡献度;
[0010] 步骤三、模型对步骤二的边的权重和两个节点的贡献度进行处理,边的权重被按比例划分成两份,较大的一份被赋予贡献度大的节点的重要度上,较小的部分被赋予另外一个节点,随后根据得到的重要度赋值返回步骤二计算边的权重再完成步骤三,经过若干个循环得到重要度高的语句并生成摘要内容。
[0011] 进一步的,步骤一中,所述模型包括T元素、V元素、F元素、E元素、W元素和S元素,分别被定义为:
[0012] T={ti|ti是语料库中的一个词),其中,T是一个字典,是词的集合,其中囊括语料库中的所有词汇,同时去除重复的词;
[0013] V={vj|vj={tk}},语料库中的每一个语句被表示为一个节点vj,每一个节点vj是有一个tk的集合组成;
[0014] F={fij|fij是ti在vj中出现的次数,ti∈T,vj∈V},语句的规约化长度为[0015] E={eij|eij是节点vi与vj之间的一条边,vi,vj∈V},eij为连接节点vi与节点vj的边,不具有方向性,eij=eji,节点vi与节点vj分别为语料库中的第i个语句和第j个语句;
[0016] W={wij|wij是eij的权重,是关联度的度量值,eij∈E},wij为连接节点vi和节点vj的边eij的权重,关联度是距离度量的一个相反度量,由具体的距离度量函数加上适当取反来测量;
[0017] S={si|si是节点vi的重要度度量,vi∈V},重要度si度量节点对与其相连的边的权重的贡献度,贡献度越高的节点,其重要度越高,对应的语句在语料库中越重要。
[0018] 进一步的,所述权重wij在向量空间中的距离度量采用余弦相似度并采用如下公式定义:
[0019]
[0020] 公式一定义了节点vi与节点vj之间的余弦相似度,其最大值为1,最小值为0,wij=wji。
[0021] 进一步的,所述节点的重要度通过迭代式的计算产生,包括如下步骤:
[0022] 步骤一、拆分连接节点vi和节点vj的边eij的权重wij,计算节点vi和节点vj的贡献度;
[0023] 步骤二、总和步骤一中所有节点vi对于与其相连的边eij的贡献度,根据贡献度计算获得重要度,进而根据高重要度语句生成摘要内容。
[0024] 进一步的,所述重要度si采用如下公式进行计算:
[0025]
[0026] 其中,n表示迭代次数,ci为节点vi的贡献度,si的初始值 为1/|V|,即所有语句在迭代开始时被赋予同样的重要度值。
[0027] 进一步的,所述节点的贡献度通过如下公式进行计算:
[0028]
[0029] 其中,ci为节点vi的贡献度,tk表示语料库中的词,若节点vi和节点vj有共同项,则权重wij不为0,公式二将wij分为两部分,较大的一份被赋予贡献度大的节点vi的重要度上,较小的部分被赋予另外一个节点vj的重要度上,其中 被分配给节点vi,当fki部分越大时,即词tk在节点vi中出现的次数越多,分配给节点vi的权重越大,节点vi的贡献度越大,则对应语句的重要度越大,获得的重要度分值越高,生成包括该语句的摘要的可能性越大。
[0030] 与现有技术相比,本发明具有以下优点:
[0031] 本发明公开了多文本快速摘要方法,建立基于语句间潜在关联的模型,多篇文档中的语句被该模型建模,模型依据语句间的关联度打分,根据重要度高的语句形成最终的摘要内容。本发明提供的多文本快速摘要方法,将多文本中的每个语句作为一个节点并进行单独分析,利用本发明所提出的语句贡献度打分方法,经过若干轮迭代打分,确定重要度较高的语句,并快速形成最终的文本摘要,兼顾了文本主题的多样性和摘要语句的通顺性,加快了多文本摘要的生成速度,工作效率高,应用前景广阔。附图说明
[0032] 图1是本发明的节点vi与节点vj的边的权重示意图;
[0033] 图2是本发明实施例1的边的权重示意图。

具体实施方式

[0034] 下面结合具体实施例对本发明作更进一步的说明。
[0035] 如图1-2所示,一种多文本快速摘要方法,基于语句间潜在关联的模型,多篇文档中的语句将被该模型建模,通过模型对语句间的关联度进行打分,重要度高的语句获得更高的分数,根据得到的重要度高的语句生成最终的摘要内容。
[0036] 步骤一、建立语料库,语料库中包含文档中的所有语句,建立基于语句间潜在关联的模型,多篇文档中的语句将被该模型建模;
[0037] 步骤二、给定若干个语句,步骤一建模得到的模型将每个语句看成一个节点,同时对给定的每个语句进行相同的重要度赋值并将其作为初始值,每两个节点之间,语句的潜在关联被计算并赋值,该值作为这两个节点间的一条边的权重,对于每一条边的权重,模型将做进一步的细分,判断与这一条边相连的两个节点分别对这一条边贡献了多少权重,进而获取这条边的两个节点分别对这条边贡献的权重数,贡献度越高的节点,其重要度越高,对应的语句在语料库中越重要,生成摘要的可能性越大;
[0038] 步骤三、模型对步骤二的边的权重和两个节点对与其相连的边的权重的贡献度进行处理得到对应节点的重要度,重要度与贡献度的计算方法被定义为抽象函数,在使用具体文本语料库时,可以根据语料库的特性进行具体定义,从而获得更广泛的适用性,根据贡献度大的语句重要度更高的理论,边的权重被按比例划分成两份,较大的一份被赋予贡献度大的节点的重要度上,较小的部分被赋予另外一个节点的重要度上,随后再按照新的重要度赋值返回步骤二重新计算得到边的权重再按照步骤三对边的权重进行分配,经过若干个循环,重要的语句将会获得较高的重要度分值,进而根据重要度高的语句生成摘要内容。
[0039] 步骤一建模得到的模型包括T元素、V元素、F元素、E元素、W元素和S元素,分别被定义为:
[0040] T={ti|ti是语料库中的一个词},T是一个字典,是一个词的集合,其中囊括语料库中的所有词汇,同时去除重复的词;
[0041] V={vj|vj={tk}},语料库中的每一个语句被表示为一个节点vj,每一个vj是有一个tk的集合组成;
[0042] F={fij|fij是ti在vj中出现的次数,ti∈T,vj∈V},语句的规约化长度为[0043] E={eij|eij是节点vi与vj之间的一条边,vi,vj∈V},eij为连接节点vi与节点vj的边,由于此边不具有方向性,所以eij=eji,节点vi与节点vj分别为语料库中的第i个语句和第j个语句;
[0044] W={wij|wij是eij的权重,是关联度的度量值,eij∈E},wij为连接节点vi和节点vj的边eij的权重,关联度为与节点相连的边的权重,关联度是距离的一个相反度量,其可以由具体的距离度量函数加上适当取反来测量,距离度量函数包括曼哈顿距离和欧氏距离等,在模型定义中,关联度函数可以先采用抽象函数,在具体应用于具体语料库时,再采用根据语料库特征确定的具体距离度量作为替换,在信息提取研究领域,使用余弦相似度作为权重wij在向量空间中的距离度量,使用模型的标记,其可被表示为:
[0045]
[0046] 公式一定义了节点vi与节点vj之间的余弦相似度,其最大值为1,最小值为0,因模型是无向图,所以wij=wji:
[0047] S={si|si是节点vi的重要度度量,vi∈V}重要度si度量节点对于关联度(与其相连的边的权重)的贡献度,贡献度越高的节点,其重要度越高,对应的语句在语料库中也越重要。
[0048] 节点vi的重要度si通过迭代式的计算产生,具体步骤如下:
[0049] 1)拆分连接节点vi和节点vj的边eij的权重wij,计算获取节点vi的贡献度ci;
[0050] 2)总和所有节点vi对于与其相连的边的贡献度,进而通过如下公式二和公式三得到节点vi的重要度si,进而根据高重要度语句生成摘要内容;
[0051] 其中,节点vi的贡献度ci的计算方法被定义为抽象函数,在具体应用中,可使用合理的具体函数替换,在迭代过程中,重要度si通过如下公式二计算得到:
[0052]
[0053] 其中,n表示迭代次数,重要度si的初始值 为1/|V|,即,所有语句在迭代开始时被赋予同样的重要度。
[0054] 模型针对一般文本的贡献度ci的计算方法采用如下公式三:
[0055]
[0056] 其中,ci为节点vi的贡献度,tk表示语料库中的词,若节点vi和节点vj有共同项,则权重wij不为0,公式三将权重wij分为两部分,较大的一份被赋予贡献度大的节点vi的重要度上,较小的部分被赋予另外一个节点vj的重要度上,其中, 被分配给节点vi,当fki部分越大时,即词tk在节点vi中出现的次数越多,分配给节点vi的权重越大,节点vi的贡献度越大,则对应语句的重要度越大,获得的重要度分值越高,生成包含该语句的摘要的可能性越大。
[0057] 实施例1
[0058] 如图1-2所示,一种多文本快速摘要方法,基于语句间潜在关联的模型,多篇文档中的语句将被该模型建模,通过模型对语句间的关联度进行打分,重要度高的语句获得更高的分数,根据得到的重要度高的语句生成最终的摘要内容。
[0059] 步骤一、建立语料库,语料库中包含文档中的所有语句,建立基于语句间潜在关联的模型,多篇文档中的语句将被该模型建模;
[0060] 步骤二、给定n个语句,步骤一建模得到的模型将每个语句看成一个节点,同时对给定的每个语句进行相同的重要度赋值并将其作为初始值,每两个节点之间,语句的潜在关联被计算并赋值,该值作为这两个节点间的一条边的权重,对于每一条边的权重,模型将做进一步的细分,判断与这一条边相连的两个节点分别对这一条边贡献了多少权重,进而获取这条边的两个节点分别对这条边贡献的权重数,贡献度越高的节点,其重要度越高,对应的语句在语料库中越重要,生成摘要的可能性越大;
[0061] 步骤三、模型对步骤二的边的权重和两个节点对与其相连的边的权重的贡献度进行处理得到对应节点的重要度,重要度与贡献度的计算方法被定义为抽象函数,在使用具体文本语料库时,可以根据语料库的特性进行具体定义,从而获得更广泛的适用性,根据贡献度大的语句重要度更高的理论,边的权重被按比例划分成两份,较大的一份被赋予贡献度大的节点的重要度上,较小的部分被赋予另外一个节点的重要度上,随后再按照新的重要度赋值返回步骤二重新计算得到边的权重再按照步骤三对边的权重进行分配,经过若干个循环,重要的语句将会获得较高的重要度分值,进而根据重要度高的语句生成摘要内容。
[0062] 步骤一建模得到的模型包括T元素、V元素、F元素、E元素、W元素和S元素,分别被定义为:
[0063] T={ti|ti是语料库中的一个词},T是一个字典,是一个词的集合,其中囊括语料库中的所有词汇,同时去除重复的词;
[0064] V={vj|vj={tk}},语料库中的每一个语句被表示为一个节点vj,每一个vj是有一个tk的集合组成;
[0065] F={fij|fij是ti在vj中出现的次数,ti∈T,vj∈V},语句的规约化长度为[0066] E={eij|eij是节点vi与vj之间的一条边,vi,vj∈V},eij为连接节点vi与节点vj的边,由于此边不具有方向性,所以eij=eji,节点vi与节点vj分别为语料库中的第i个语句和第j个语句;
[0067] W={wij|wij是eij的权重,是关联度的度量值,eij∈E},wij为连接节点vi和节点vj的边eij的权重,关联度为与节点相连的边的权重,关联度是距离的一个相反度量,其可以由具体的距离度量函数加上适当取反来测量,距离度量函数包括曼哈顿距离和欧氏距离等,在模型定义中,关联度函数可以先采用抽象函数,在具体应用于具体语料库时,再采用根据语料库特征确定的具体距离度量作为替换,在信息提取研究领域,使用余弦相似度作为权重wij在向量空间中的距离度量,使用模型的标记,其可被表示为:
[0068]
[0069] 公式一定义了节点vi与节点vj之间的余弦相似度,其最大值为1,最小值为0,因模型是无向图,所以wij=wji:
[0070] S={si|si是节点vi的重要度度量,vi∈V),重要度si度量节点对于关联度(与其相连的边的权重)的贡献度,贡献度越高的节点,其重要度越高,对应的语句在语料库中也越重要。
[0071] 节点vi的重要度si通过迭代式的计算产生,具体步骤如下:
[0072] 1)拆分连接节点vi和节点vj的边eij的权重wij,计算获取节点vi的贡献度Ci;
[0073] 节点vi与n-1个节点之间的边的权重进行逐一计算并得到对应的权重wi1、wi2。。。。。。直至win,如图2所示,再按照步骤1)对得到的这些权重分别进行对应的拆分,获得节点vi相较于n-1个节点的贡献度;
[0074] 2)总和步骤1)中所有节点vi对于与其相连的边的贡献度,进而通过如下公式二和公式三得到节点vi的重要度si,进而根据高重要度语句生成摘要内容;
[0075] 其中,节点vi的贡献度ci的计算方法被定义为抽象函数,在具体应用中,可使用合理的具体函数替换,在迭代过程中,重要度si通过如下公式二计算得到:
[0076]
[0077] 其中,n表示迭代次数,重要度si的初始值 为1/|V|,即,所有语句在迭代开始时被赋予同样的重要度。
[0078] 模型针对一般文本的贡献度ci的计算方法采用如下公式三:
[0079]
[0080] 其中,ci为节点vi的贡献度,tk表示语料库中的词,若节点vi和节点vj有共同项,则权重wij不为0,公式三将权重wij分为两部分,较大的一份被赋予贡献度大的节点vi的重要度上,较小的部分被赋予另外一个节点vj的重要度上,其中, 被分配给节点vi,当fki部分越大时,即词tk在节点vi中出现的次数越多,分配给节点vi的权重越大,节点vi的贡献度越大,则对应语句的重要度越大,获得的重要度分值越高,生成包含该语句的摘要的可能性越大。
[0081] 上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围。
相关专利内容
标题 发布/更新时间 阅读量
平板扫描电子摘要本 2020-05-12 657
实时视频摘要 2020-05-11 512
摘要提取方法以及摘要提取模块 2020-05-11 330
摘要生成方法和装置 2020-05-12 352
一种视频摘要生成方法 2020-05-12 276
一种自动文本摘要方法 2020-05-13 7
一种自动文本摘要方法 2020-05-13 329
摘要生成方法及装置 2020-05-11 545
影像摘要装置 2020-05-11 41
图文摘要的评价方法 2020-05-13 521
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈