首页 / 专利库 / 电脑编程 / 算法 / 一种用户级别的个性化文本摘要生成方法和系统

一种用户级别的个性化文本摘要生成方法和系统

阅读:2发布:2020-12-25

专利汇可以提供一种用户级别的个性化文本摘要生成方法和系统专利检索,专利查询,专利分析的服务。并且本 发明 提供一种用户级别的个性化文本 摘要 生成方法和系统,方法包括:采集用户的基本信息以及用户在阅读至少一个类别的文本时的注意 力 分布原始数据;提取用户的个性化偏好特征,包括用户在不同词性上的注意力分布;将用户的个性化偏好特征和文本输入到个性化摘要 抽取 模 块 ,输出为抽取出来的个性化句子;将个性化句子组合成新的文本输入到后续的抽象生成模型中生成个性化文本摘要;获取新用户的基本信息,计算与已有的用户的相似度,选择最相似的至少两个用户并获取个性化偏好特征的平均值作为新用户的初始化个性偏好特征;根据初始化个性偏好特征获得新用户的个性化文本摘要。通过匹配新用户的基本信息,得到个性化文本摘要,简单且准确。,下面是一种用户级别的个性化文本摘要生成方法和系统专利的具体信息内容。

1.一种用户级别的个性化文本摘要生成方法,其特征在于,包括如下步骤:
S1:采集用户的基本信息以及所述用户在阅读至少一个类别的文本时的注意分布原始数据;
S2:从所述注意力分布原始数据中提取所述用户的个性化偏好特征,所述个性化偏好特征包括所述用户在不同词性上的注意力分布;
S3:将所述用户的个性化偏好特征和所述文本输入到个性化摘要抽取,输出为抽取出来的个性化句子;将所述个性化句子组合成新的文本输入到后续的抽象生成模型中生成个性化文本摘要;
S4:获取新用户的所述基本信息,计算与已有的所述用户的相似度,选择最相似的至少两个用户并获取所述至少两个用户的个性化偏好特征的平均值作为所述新用户的初始化个性偏好特征;
S5:根据所述初始化个性偏好特征获得所述新用户的个性化文本摘要。
2.如权利要求1所述的用户级别的个性化文本摘要生成方法,其特征在于,所述基本信息包括:性别,年龄,学历和专业背景,所述性别包括男性、女性;所述年龄包括15岁以下、
15-25岁、25-35岁、35-45岁、45岁以上;所述学历包括高中在读、大学在读、本科、硕士和博士;所述专业背景包括计算机、环境、生物、人文、历史、电子、机械、英语、法律、金融和高中生。
3.如权利要求1所述的用户级别的个性化文本摘要生成方法,其特征在于,所述类别包括金融、教育、体育、娱乐、科技、军事、汽车、游戏、动漫和文化。
4.如权利要求1所述的用户级别的个性化文本摘要生成方法,其特征在于,所述原始数据包括所述用户在25种词性上的注意力分布百分比,包括形容词、区别词、连词、副词、叹词、方位词、语素、成语、前接成分、简称略语、后接成分、习用语、数词、名词、介词、量词、代词、处所词、时间词、助词、动词、标点符号、非语素字、语气词和状态词。
5.如权利要求1所述的用户级别的个性化文本摘要生成方法,其特征在于,采用眼动仪采集用户在阅读文本时的注意力分布原始数据。
6.如权利要求1所述的用户级别的个性化文本摘要生成方法,其特征在于,抽象生成模型是神经网络模型,包括Pointer Generator端到端的模型。
7.如权利要求1所述的用户级别的个性化文本摘要生成方法,其特征在于,生成个性化文本摘要的方法包括如下步骤:
S31:所述文本输入到个性化摘要抽取模块,执行分句操作,得到句子列表;
S32:采用TextRank算法从内容上对每个所述句子进行评分得到每个所述句子的内容分数;输入所述用户的个性化偏好特征使用多层感知机得到每个所述句子的个性化分数;
S33:使用可训练参数对所述内容分数和所述个性化分数进行融合得到每个所述句子最终的分数;
S34:根据所述最终分数选择分数分数较高的至少三个句子;
S35:将所述至少三个句子作为输入,使用生成式的短文本摘要模型生成所述个性化文本摘要。
8.如权利要求1-7任一所述的个性化文本摘要生成方法,其特征在于,所述新用户的所述初始化个性偏好特征动态更新。
9.一种用户级别的个性化文本摘要生成系统,其特征在于,包括:
第一单元:采集用户的基本信息以及所述用户在阅读至少一个类别的文本时的注意力分布原始数据;
第二单元:从所述注意力分布原始数据中提取所述用户的个性化偏好特征,所述个性化偏好特征包括所述用户在不同词性上的注意力分布;
第三单元:将所述用户的个性化偏好特征和所述文本输入到个性化摘要抽取模块,输出为抽取出来的个性化句子;将所述个性化句子组合成新的文本输入到后续的抽象生成模型中生成个性化文本摘要;
第四单元:获取新用户的基本信息,计算与已有的所述用户的相似度,选择最相似的至少两个用户并获取所述至少两个用户的个性化偏好特征的平均值作为所述新用户的初始化个性偏好特征;
第五单元:根据所述初始化个性偏好特征生成所述新用户的个性化文本摘要。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8任一所述方法的步骤。

说明书全文

一种用户级别的个性化文本摘要生成方法和系统

技术领域

[0001] 本发明涉及文本信息挖掘技术领域,尤其涉及一种用户级别的个性化文本摘要生成方法和系统。

背景技术

[0002] 现有的文本摘要生成技术主要为非个性化文本摘要类型,这类技术对于相同文本不同用户生成的摘要是完全相同的,不能对不同的用户生成个性化的文本摘要。而现存的
个性化文本摘要技术主要存在两个问题:
[0003] 1)前期需要大量与文本本身无关的用户背景信息的采集工作,而在往往实际场景中这些用户背景信息的采集较为困难;
[0004] 2)并未真正做到用户级别的个性化,只是针对不同的主题挑选了更符合选定主题的句子作为个性化摘要的输出。
[0005] 因为无法克服这两个问题,所以现有技术中缺乏一种用户级别的个性化文本摘要方法。

发明内容

[0006] 本发明为了解决现有的问题,提供一种用户级别的个性化文本摘要生成方法和系统。
[0007] 为了解决上述问题,本发明采用的技术方案如下所述:
[0008] 一种用户级别的个性化文本摘要生成方法,包括如下步骤:S1:采集用户的基本信息以及所述用户在阅读至少一个类别的文本时的注意分布原始数据;S2:从所述注意力
分布原始数据中提取所述用户的个性化偏好特征,所述个性化偏好特征包括所述用户在不
同词性上的注意力分布;S3:将所述用户的个性化偏好特征和所述文本输入到个性化摘要
抽取,输出为抽取出来的个性化句子;将所述个性化句子组合成新的文本输入到后续
的抽象生成模型中生成个性化文本摘要;S4:获取新用户的基本信息,计算与已有的所述用
户的相似度,选择最相似的至少两个用户并获取所述至少两个用户的个性化偏好特征的平
均值作为所述新用户的初始化个性偏好特征;S5:根据所述初始化个性偏好特征获得所述
新用户的个性化文本摘要。
[0009] 优选地,所述基本信息包括:性别,年龄,学历和专业背景,所述性别包括男性、女性;所述年龄包括15岁以下、15-25岁、25-35岁、35-45岁、45岁以上;所述学历包括高中在读、大学在读、本科、硕士和博士;所述专业背景包括计算机、环境、生物、人文、历史、电子、机械、英语、法律、金融和高中生。
[0010] 优选地,所述类别包括金融、教育、体育、娱乐、科技、军事、汽车、游戏、动漫和文化。
[0011] 优选地,所述原始数据包括所述用户在25种词性上的注意力分布百分比,包括形容词、区别词、连词、副词、叹词、方位词、语素、成语、前接成分、简称略语、后接成分、习用语、数词、名词、介词、量词、代词、处所词、时间词、助词、动词、标点符号、非语素字、语气词和状态词。
[0012] 优选地,采用眼动仪采集用户在阅读文本时的注意力分布原始数据。
[0013] 优选地,抽象生成模型是神经网络模型,包括Pointer Generator端到端的模型。
[0014] 优选地,生成个性化文本摘要的方法包括如下步骤:S31:所述文本输入到个性化摘要抽取模块,执行分句操作,得到句子列表;S32:采用TextRank算法从内容上对每个所述句子进行评分得到每个所述句子的内容分数;输入所述用户的个性化偏好特征使用多层感
知机得到每个所述句子的个性化分数;S33:使用可训练参数对所述内容分数和所述个性化
分数进行融合得到每个所述句子最终的分数;S34:根据所述最终分数选择分数分数较高的
至少三个句子;S35:将所述至少三个句子作为输入,使用生成式的短文本摘要模型生成所
述个性化文本摘要。
[0015] 优选地,所述新用户的所述初始化个性偏好特征动态更新数据。
[0016] 本发明又提供一种用户级别的个性化文本摘要生成系统,包括:第一单元:采集用户的基本信息以及所述用户在阅读至少一个类别的文本时的注意力分布原始数据;第二单
元:从所述注意力分布原始数据中提取所述用户的个性化偏好特征,所述个性化偏好特征
包括所述用户在不同词性上的注意力分布;第三单元:将所述用户的个性化偏好特征和所
述文本输入到个性化摘要抽取模块,输出为抽取出来的个性化句子;将所述个性化句子组
合成新的文本输入到后续的抽象生成模型中生成个性化文本摘要;第四单元:获取新用户
的基本信息,计算与已有的所述用户的相似度,选择最相似的至少两个用户并获取所述至
少两个用户的个性化偏好特征的平均值作为所述新用户的初始化个性偏好特征;第五单
元:根据所述初始化个性偏好特征生成所述新用户的个性化文本摘要。
[0017] 本发明再提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上任一所述方法的步骤。
[0018] 本发明的有益效果为:提供一种用户级别的个性化文本摘要生成方法和系统,通过获取用户基本信息和注意力分布原始数据,获取个性化特征,同时基于个性化特征偏好
和文本的内容特征,对文本的句子进行重新排名,获取了个性化文本摘要;通过匹配新用户
的基本信息,得到初始化的个性化特征偏好,进而得到个性化文本摘要,获取方式简单且准
确。
附图说明
[0019] 图1是本发明实施例中一种用户级别的个性化文本摘要生成方法的示意图。
[0020] 图2是是本发明实施例中生成个性化文本摘要的方法的示意图。
[0021] 图3是本发明实施例中一种用户级别的个性化文本摘要生成系统的示意图。
[0022] 图4是本发明实施例中一种用户级别的个性化文本摘要生成方法的流程示意图。

具体实施方式

[0023] 为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施
例仅仅用以解释本发明,并不用于限定本发明。
[0024] 需要说明的是,当元件被称为“固定于”或“设置于”另一个元件,它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件,它可以是直接连接到另一个元件或间接连接至该另一个元件上。另外,连接既可以是用于固定
作用也可以是用于电路连通作用。
[0025] 需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0026] 此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。在本发明实施例的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0027] 实施例1
[0028] 如图1所示,本发明提供一种用户级别的个性化文本摘要生成方法,包括如下步骤:
[0029] S1:采集用户的基本信息以及所述用户在阅读至少一个类别的文本时的注意力分布原始数据;
[0030] S2:从所述注意力分布原始数据中提取所述用户的个性化偏好特征,所述个性化偏好特征包括所述用户在不同词性上的注意力分布;
[0031] 具体的,获取用户在同一篇文章的不同词性上的注意力分布时长占文本阅读总时长的百分比,并将用户在所有文本上的注意力分布百分比的平均值作为所述个性化偏好特
征。
[0032] S3:将所述用户的个性化偏好特征和所述文本输入到个性化摘要抽取模块,输出为抽取出来的个性化句子;将所述个性化句子组合成新的文本输入到后续的抽象生成模型
中生成个性化文本摘要;
[0033] 具体的,个性化摘要抽取模块使用TextRank算法从内容上对文本中的句子打分并使用神经网络多层感知机(MLP)从个性化度根据所述用户的个性化偏好特征对文本中的
句子进行打分,然后使用可训练融合参数将每个句子的内容分数和个性化分数融合得到最
终的分数,个性化摘要抽取模块输出位抽取出来的分数较高的个性化句子;将个性化句子
按照出现的先后顺序重新组合成新的文本输入到后续的抽象生成模型中生成个性化文本
摘要,抽象生成模型是端到端的神经网络模型,如Pointer Generator使用双向循环神经网
编码器对输入文本进行编码得到隐含层表示,使用注意力机制在解码阶段计算得到当前
词表和输入文本中所有单词的概率,挑选概率最高的单词作为当前生成的单词,直到生成
终止符号完成最终摘要的生成。
[0034] 在本发明的一种实施例中,抽象生成模型是神经网络模型,包括Pointer-generator端到端的模型。
[0035] S4:获取新用户的基本信息,计算与已有的所述用户的相似度,选择最相似的至少两个用户并获取所述至少两个用户的个性化偏好特征的平均值作为所述新用户的初始化
个性偏好特征;
[0036] S5:根据所述初始化个性偏好特征获得所述新用户的个性化文本摘要。
[0037] 在后续用户使用系统的过程中,可以不断加入新的注意力分布数据来完善新用户的个性化偏好特征,新用户的所述初始化个性偏好特征动态更新数据。
[0038] 基本信息包括:性别,年龄,学历和专业背景,所述性别包括男性、女性;所述年龄包括15岁以下、15-25岁、25-35岁、35-45岁、45岁以上;所述学历包括高中在读、大学在读、本科、硕士和博士;所述专业背景包括计算机、环境、生物、人文、历史、电子、机械、英语、法律、金融和高中生。
[0039] 文本的类别包括金融、教育、体育、娱乐、科技、军事、汽车、游戏、动漫和文化,这仅仅是示例性的,可以理解的是,这个分类可以根据实际情况按照不同的标准分类。用户去阅读不同类别的文本,引入眼动仪采集用户阅读文章时的注意力分布原始数据,从注意力分
布原始数据中提取用户的个性化偏好特征,个性化偏好特征包括用户在不同词性上的注意
力分布,具体的是用户在25种词性上的注意力分布百分比,包括形容词、区别词、连词、副
词、叹词、方位词、语素、成语、前接成分、简称略语、后接成分、习用语、数词、名词、介词、量词、代词、处所词、时间词、助词、动词、标点符号、非语素字、语气词和状态词。
[0040] 引入了外部设备眼动仪采集用户阅读时的注意力分布,并从中提取有效的用户特征,提出了更为便捷、高效的用户特征提取流程。
[0041] 本发明还设计了新的句子排序模块,综合考虑从注意力分布中提取的用户特征以及文章本身的内容特征,使用神经网络模型对文章句子进行重排名。
[0042] 本发明的用户特征的采集提取过程是一个高效、可持续的过程,真正做到了用户级别的个性化文本摘要生成。
[0043] 在现有技术中,对于新用户,传统的解决办法需要消耗大量的时间去采集模型所需的相关特征,在这个采集过程中就会影响用户的使用体验。而本发明的解决方案只需要
采集用户的基本背景信息,如学历、性别、学术背景等,使用这些背景信息构建用户的基本
画像。这样对于新用户,只需要计算已有用户与当前用户之间的画像相似度,选择最为相似
的n个用户的个性化偏好特征来拟合当前用户的个性化偏好特征。这样的方法相较于传统
方法需要采集的数据更少,且会随着用户对系统的使用可以不断加入新的注意力分布数据
来修正当前用户的个性化偏好特征。
[0044] 如图2所示,生成个性化文本摘要的方法包括如下步骤:
[0045] S31:所述文本输入到个性化摘要抽取模块,执行分句操作,得到句子列表;
[0046] S32:采用TextRank算法从内容上对每个所述句子进行评分得到每个所述句子的内容分数;输入所述用户的个性化偏好特征使用多层感知机得到每个所述句子的个性化分
数;
[0047] S33:使用可训练参数对所述内容分数和所述个性化分数进行融合得到每个所述句子最终的分数;
[0048] S34:根据所述最终分数选择分数分数较高的至少三个句子;
[0049] S35:将所述至少三个句子作为输入,使用生成式的短文本摘要模型生成所述个性化文本摘要。
[0050] 具体的,可以将第i个句子对应的内容分数记为 统计得到所述句子的不同词性的频率分布比率,记为 对于所述用户j,其个性化特征为 将二者连接
输入到后续的神经网络多层感知机中得到每个句子的个性化分数,记为 使用可学习参
数α,计算得到每个所述句子最终的分数,第i个句子的最终得分为: 根据所
述最终得分,选择分数较高的至少三个句子;将所述至少三个句子作为输入,使用生成式的
短文本摘要模型生成所述个性化文本摘要。
[0051] 如图3所示,本发明还提供一种用户级别的个性化文本摘要生成系统,包括:
[0052] 第一单元:采集用户的基本信息以及所述用户在阅读至少一个类别的文本时的注意力分布原始数据;
[0053] 第二单元:从所述注意力分布原始数据中提取所述用户的个性化偏好特征,所述个性化偏好特征包括所述用户在不同词性上的注意力分布;
[0054] 第三单元:将所述用户的个性化偏好特征和所述文本输入到个性化摘要抽取模块,输出为抽取出来的个性化句子;将所述个性化句子组合成新的文本输入到后续的抽象
生成模型中生成个性化文本摘要;
[0055] 第四单元:获取新用户的基本信息,计算与已有的所述用户的相似度,选择最相似的至少两个用户并获取所述至少两个用户的个性化偏好特征的平均值作为所述新用户的
初始化个性偏好特征;
[0056] 第五单元:根据所述初始化个性偏好特征生成所述新用户的个性化文本摘要。
[0057] 如图4所示,是本发明实施例中一种用户级别的个性化文本摘要生成方法的流程示意图,其中k1和k2的值根据实际情况选取合适的值。
[0058] 本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序
在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机
程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间
形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、
记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器只读存储器(ROM,Read-Only 
Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件
分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法
专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机
可读介质不包括电载波信号和电信信号。
[0059] 采用本发明的方法和系统可以具体使用在如下场景:
[0060] 1.新闻标题撰写。对于相同的新闻,不同人对新闻内容的关注点会不一样,根据不同用户的兴趣偏好,生成不同的新闻标题,可以更有效地抓住用户的痛点,提高文章的阅读
率和阅读时间的高效性。
[0061] 具体的,可以用于新闻标题的撰写。用户之前在当前平台阅读其他新闻时会被眼动仪采集到其阅读时的注意力分布,特征提取模块会从注意力分布数据中提取出当前用户
的个性化偏好特征,这样对于不同的用户就会有不同的个性化偏好特征。对于一篇新的文
章,文章内容和当前用户的个性化偏好特征会被输入到系统模型中用于生成个性化的新闻
标题。整个生成过程实际上是一个两阶段的过程。第一阶段句子选择模块PRank会根据输入
的句子内容和用户的个性化偏好从中抽取出更符合当前用户偏好的句子。这些挑选出来的
句子会在下一阶段重新组合在一起输入到抽象生成模型生成最终的个性化标题。这样对于
不同的用户,相同的新闻会以不同的更符合当前用户偏好的标题呈现在用户面前,从而更
有效地抓住用户的痛点,提高了文章的阅读转化率。
[0062] 2.阅读笔记的生成。对于相同的知识点,由于不同的读者有着不同的学习生活背景,根据不同用户的兴趣偏好,对相同的知识进行不同的浓缩,可以节约读者的阅读学习时
间,提高效率。
[0063] 采用本发明的方法和系统,进行实际的实验,具体如下:
[0064] 1、招揽用户:
[0065] 一共招揽了50个用户,其中25个男性,25个女性;年龄分布在14岁到44岁;学历有高中在读、大学在读、本科、硕士和博士;专业背景包括计算机、环境、生物、人文、历史、电子、机械、英语、法律、金融和高中生。
[0066] 2、选取文本:
[0067] 从腾讯新闻和网易新闻网站上采集了100篇文章,包括金融、教育、体育、娱乐、科技、军事、汽车、游戏、动漫和文化一共10个类别,每个类别的文章有10篇,每篇文章的字数不低于100个汉字,平均汉字数量在500字左右。
[0068] 3、采集注意力分布原始数据采:
[0069] 借助于眼动仪设备,采集了50个用户阅读100篇文章时的注意力分布。具体采集过程为:用户先根据设备指引做校准,然后用户会被要求按照自己的阅读习惯看完整篇文章,
然后给出自己觉得更符合自己认知的文本摘要。每个用户总体采集时间大概为一个半小
时。所采集到的注意力分布的数据形式为每一个数据采样点用户注意力落在文章上的位
置,眼动仪数据采样频率在10ms左右一次。
[0070] 4、提取用户的个性化特征:
[0071] 统计了每个用户在25种主要词性上的注意力分布百分比,包括名词、动词、形容词、副词、连词等。将这种统计得到的注意力分布作为每个用户的个性化特征(对于用户j其
个性化特征记为 ),并用于后续个性化文本摘要的生成。
[0072] 5、生成个性化文本摘要:
[0073] (1)对于输入的原始文章,首先执行分句操作,得到句子列表。
[0074] (2)使用PRank算法对每个句子进行个性化打分:
[0075] a)使用TextRank算法从内容的角度对每个句子进行评分,第i个句子对应的内容分数记为
[0076] b)对于每个句子,统计得到当前句子的不同词性的频率分布比率,记为 对于当前用户j,其个性化特征为 将二者连接 输入到后续的神经网络MLP(多
层感知机)中得到每个句子的个性化分数,记为
[0077] c)使用可学习参数α,计算得到每个句子最终的分数,例如当前第i个句子的最终得分为:
[0078] d)根据最终的打分,选择分数较高的2个或3个句子。这里选择3个句子是因为后续的模型输入一般为3个句子的短文本。
[0079] (3)将前一步中挑选出来的句子作为输入,使用生成式的短文本摘要模。
[0080] 如:Pointer Generator,生成最终的个性化文本摘要。
[0081] 6、示例说明:
[0082]
[0083]
[0084] 原始文本较长,为了方便说明使用省略号省去了部分文字。可以看出来,对于示例文本,三个用户所关注的地方有着很大的差别,所给的文本摘要也是完全不相同的,而本发
明的方法生成的个性化文本摘要与用户所给摘要吻合度较高。而现有模型所给结果单一,
不能个性化地覆盖所有人的关注点。
[0085] 7、模型结果整体对比:
[0086] 为了更好的说明和现有模型的性能对比,使用了国际通用的ROUGE评价指标对结果做了量化的比较。
[0087] 所使用的对比模型有:
[0088] (1)Lead-1:文章的第一个句子作为摘要;
[0089] (2)Lead-2:文章的前两个句子作为摘要;
[0090] (3)TextRank-1:使用TextRank对句子进行打分,选择分数最高的句子作为摘要;
[0091] (4)TextRank-2:使用TextRank对句子进行打分,选择分数最高的两个句子作为摘要;
[0092] (5)PGN:现有的Pointer Generator生成式摘要生成模型;
[0093] (6)TextRank-PGN:将TextRank打分最高的三个句子输入到Pointer Generator得到最终的摘要;
[0094] 模型对比如下:
[0095] 表1模型对比结果
[0096]
[0097]
[0098] ROUGE-1、ROUGE-2和ROUGE-L分数越高表示模型生成摘要和真实摘要之间的吻合度更高。PRank+PGN为本发明所提出的模型。
[0099] 以上内容是结合具体的优选实施方式对本发明所做的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱
离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应
当视为属于本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈