首页 / 专利库 / 专利权 / 第I章 / 国际申请 / 摘要 / 一种文本摘要生成方法和装置

一种文本摘要生成方法和装置

阅读:834发布:2020-05-14

专利汇可以提供一种文本摘要生成方法和装置专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种文本 摘要 生成方法和装置,其中,该方法包括:获取文档的文本内容,从所述文档的文本内容中提取多个文本 片段 形成所述文档的候选摘要文本;提取所述候选摘要文本中各字符的 特征向量 ;根据提出的所述候选摘要文本中各字符的特征向量,对所述候选摘要文本进行修正,生成所述文档的文本摘要。通过本发明 实施例 提供的文本摘要生成方法和装置,可以降低生成文本摘要时的人工成本,并提高了生成文本摘要的效率。,下面是一种文本摘要生成方法和装置专利的具体信息内容。

1.一种文本摘要生成方法,其特征在于,包括:
获取文档的文本内容,从所述文档的文本内容中提取多个文本片段形成所述文档的候选摘要文本;
提取所述候选摘要文本中各字符的特征向量
根据提出的所述候选摘要文本中各字符的特征向量,对所述候选摘要文本进行修正,生成所述文档的文本摘要。
2.根据权利要求1所述的方法,其特征在于,从所述文档的文本内容中提取多个文本片段形成所述文档的候选摘要文本,包括:
从所述文档的文本内容中提取多个文本片段;
对所述多个文本片段中的各文本片段和所述文档的文本内容分别进行处理,得到各文本片段的第一表示向量和所述文档的文本内容的第二表示向量;
保留所述多个文本片段中第一表示向量与第二表示向量点积为非负数的文本片段;
根据保留的所述文本片段在所述文档中的相对位置,对保留的所述文本片段进行拼接操作,形成所述文档的候选摘要文本。
3.根据权利要求1所述的方法,其特征在于,根据提出的所述候选摘要文本中各字符的特征向量,对所述候选摘要文本进行修正,生成所述文档的文本摘要,包括:
根据所述候选摘要文本中各字符的特征向量,确定当前所述候选摘要文本中各字符的操作标签;所述操作标签,包括:删除标签、插入标签、替换标签或者保留标签;
根据当前所述候选摘要文本中各字符的操作标签对应的修正方式对所述候选摘要文本中各字符进行修正,得到修正后的候选摘要文本;
对修正操作次数进行增量操作,当所述修正操作次数达到修正操作阈值时,将所述修正后的候选摘要文本确定为生成的所述文档的文本摘要。
4.根据权利要求3所述的方法,其特征在于,所述根据提出的所述候选摘要文本中各字符的特征向量,对所述候选摘要文本进行修正,生成所述文档的文本摘要,还包括:
当所述修正操作次数未达到修正操作次数时,通过语言模型对修正后的候选摘要文本进行处理,得到修正后的候选摘要文本的分数;
当所述分数大于等于分数阈值时,将所述修正后的候选摘要文本确定为生成的所述文档的文本摘要;
当所述分数小于分数阈值时,利用所述修正后的候选摘要文本对所述候选摘要文本进行更新,并返回所述根据所述候选摘要文本中各字符的特征向量,确定当前所述候选摘要文本中各字符的操作标签步骤。
5.根据权利要求3所述的方法,其特征在于,在所述根据当前所述候选摘要文本中各字符的操作标签对应的修正方式对所述候选摘要文本中各字符进行修正,得到修正后的候选摘要文本步骤之前,所述根据提出的所述候选摘要文本中各字符的特征向量,对所述候选摘要文本进行修正,生成所述文档的文本摘要,还包括:
当确定当前所述候选摘要文本中各字符的操作标签都是保留标签时,将所述候选摘要文本确定为生成的所述文档的文本摘要;
当确定当前对所述候选摘要文本中各字符的操作标签中存在除所述保留标签外的其他操作标签时,继续执行所述根据当前所述候选摘要文本中各字符的操作标签对应的修正方式对所述候选摘要文本中各字符进行修正,得到修正后的候选摘要文本步骤。
6.一种文本摘要生成装置,其特征在于,包括:
获取模,用于获取文档的文本内容,从所述文档的文本内容中提取多个文本片段形成所述文档的候选摘要文本;
提取模块,用于提取所述候选摘要文本中各字符的特征向量;
生成模块,用于根据提出的所述候选摘要文本中各字符的特征向量,对所述候选摘要文本进行修正,生成所述文档的文本摘要。
7.根据权利要求6所述的装置,其特征在于,所述获取模块,具体用于:
从所述文档的文本内容中提取多个文本片段;
对所述多个文本片段中的各文本片段和所述文档的文本内容分别进行处理,得到各文本片段的第一表示向量和所述文档的文本内容的第二表示向量;
保留所述多个文本片段中第一表示向量与第二表示向量点积为非负数的文本片段;
根据保留的所述文本片段在所述文档中的相对位置,对保留的所述文本片段进行拼接操作,形成所述文档的候选摘要文本。
8.根据权利要求6所述的装置,其特征在于,所述生成模块,具体用于:
根据所述候选摘要文本中各字符的特征向量,确定当前所述候选摘要文本中各字符的操作标签;所述操作标签,包括:删除标签、插入标签、替换标签或者保留标签;
根据当前所述候选摘要文本中各字符的操作标签对应的修正方式对所述候选摘要文本中各字符进行修正,得到修正后的候选摘要文本;
对修正操作次数进行增量操作,当所述修正操作次数达到修正操作阈值时,将所述修正后的候选摘要文本确定为生成的所述文档的文本摘要。
9.根据权利要求8所述的装置,其特征在于,所述生成模块,还具体用于:
当所述修正操作次数未达到修正操作次数时,通过语言模型对修正后的候选摘要文本进行处理,得到修正后的候选摘要文本的分数;
当所述分数大于等于分数阈值时,将所述修正后的候选摘要文本确定为生成的所述文档的文本摘要;
当所述分数小于分数阈值时,利用所述修正后的候选摘要文本对所述候选摘要文本进行更新,并返回所述根据所述候选摘要文本中各字符的特征向量,确定当前所述候选摘要文本中各字符的操作标签步骤。
10.根据权利要求8所述的装置,其特征在于,所述生成模块,还具体用于:
当确定当前所述候选摘要文本中各字符的操作标签都是保留标签时,将所述候选摘要文本确定为生成的所述文档的文本摘要;
当确定当前对所述候选摘要文本中各字符的操作标签中存在除所述保留标签外的其他操作标签时,继续执行所述根据当前所述候选摘要文本中各字符的操作标签对应的修正方式对所述候选摘要文本中各字符进行修正,得到修正后的候选摘要文本步骤。

说明书全文

一种文本摘要生成方法和装置

技术领域

[0001] 本发明涉及计算机技术领域,具体而言,涉及一种文本摘要生成方法和装置。

背景技术

[0002] 目前,随着近几年文本信息的爆发式增长,人们每天都能够接触到海量的文档,如新闻、博客、论文、微博、聊天等,从大量文档信息中提取重要的内容,成为一个迫切需求。生成文本摘要便是一种高效的解决手段,文本摘要旨在文档基础上得到包含文档关键信息的文本摘要。用户通过阅读文本摘要就可以快速了解文档内容。
[0003] 为了生成文档的文本摘要,可以先将文档输入摘要生成模型中,由摘要生成模型抽取文档中的句子形成文档的待评测文本摘要;然后由人工阅读该文档,总结该文档的中心思想,并以此对文档的上述待评测文本摘要进行修订,最终生成文档的文本摘要。
[0004] 生成文档的文本摘要过程需要人工参与,具有成本高且效率低的缺陷

发明内容

[0005] 为解决上述问题,本发明实施例的目的在于提供一种文本摘要生成方法和装置。
[0006] 第一方面,本发明实施例提供了一种文本摘要生成方法,包括:
[0007] 获取文档的文本内容,从所述文档的文本内容中提取多个文本片段形成所述文档的候选摘要文本;
[0008] 提取所述候选摘要文本中各字符的特征向量
[0009] 根据提出的所述候选摘要文本中各字符的特征向量,对所述候选摘要文本进行修正,生成所述文档的文本摘要。
[0010] 第二方面,本发明实施例还提供了一种文本摘要生成装置,包括:
[0011] 获取模,用于获取文档的文本内容,从所述文档的文本内容中提取多个文本片段形成所述文档的候选摘要文本;
[0012] 提取模块,用于提取所述候选摘要文本中各字符的特征向量;
[0013] 生成模块,用于根据提出的所述候选摘要文本中各字符的特征向量,对所述候选摘要文本进行修正,生成所述文档的文本摘要。
[0014] 本发明实施例上述第一方面至第二方面提供的方案中,通过从文档的文本内容中提取多个文本片段形成所述文档的候选摘要文本,并根据候选摘要文本中各字符的特征向量,对所述候选摘要文本进行修正,生成所述文档的文本摘要,与相关技术中生成文档的文本摘要过程需要人工参与的方式相比,可以先通过从文档中提取的多个文本片段形成所述文档的候选摘要文本,然后根据候选摘要文本中各字符的特征向量对候选摘要文本进行修正生成文档的文本摘要,生成文本摘要的过程无需人工参与,降低了生成文本摘要时的人工成本,并提高了生成文本摘要的效率。
[0015] 为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

[0016] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017] 图1示出了本发明实施例1所提供的一种文本摘要生成方法的流程图
[0018] 图2示出了本发明实施例2所提供的一种文本摘要生成装置的结构示意图。

具体实施方式

[0019] 目前,随着近几年文本信息的爆发式增长,人们每天都能够接触到海量的文档,如新闻、博客、论文、微博、聊天等,从大量文档信息中提取重要的内容,成为一个迫切需求。生成文本摘要便是一种高效的解决手段,文本摘要旨在文档基础上得到包含文档关键信息的文本摘要。用户通过阅读文本摘要就可以快速了解文档内容。
[0020] 为了生成文档的文本摘要,可以先将文档输入摘要生成模型中,由摘要生成模型抽取文档中的句子形成文档的待评测文本摘要;由于抽取后得到的待评测文本摘要忽略了关键词句之间的联系以及更高层级的归纳总结,所以通过摘要生成模型抽取后得到的待评测文本摘要容易忽略文档关键词句之间的联系以及更高层级的归纳总结,导致抽取后得到的待评测文本摘要并不能准确表达文档的含义;所以,需要由人工阅读该文档,总结该文档的中心思想,并根据文档的中心思想对待评测文本摘要进行修订,最终生成文档的文本摘要。生成文档的文本摘要过程需要人工参与,具有成本高且效率低的缺陷。
[0021] 基于此,本实施例提出一种文本摘要生成方法和装置,先通过从文档中提取的多个文本片段形成所述文档的候选摘要文本,然后根据候选摘要文本中各字符的特征向量对候选摘要文本进行修正生成文档的文本摘要,生成文本摘要的过程无需人工参与,降低了生成文本摘要时使用的人工成本,并提高了生成文本摘要的效率。
[0022] 为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请做进一步详细的说明。
[0023] 实施例1
[0024] 本实施例提出一种文本摘要生成方法,执行主体是服务器
[0025] 所述服务器,可以采用现有技术中任何可以生成文档的文本摘要的计算设备,这里不再一一赘述。
[0026] 参见图1所示的一种文本摘要生成方法的流程图,本实施例提出一种文本摘要生成方法,包括以下具体步骤:
[0027] 步骤100、获取文档的文本内容,从所述文档的文本内容中提取多个文本片段形成所述文档的候选摘要文本。
[0028] 在上述步骤100中,服务器获取到文档的文本内容后,可以将文档的文本内容输入到运行在服务器自身的候选文本提取器中,通过候选文本提取器从文档的文本内容中提取出文档的关键词句。
[0029] 这里,所述文本候选提取器可以是一个多层双向长短时记忆模型(比如: BiLSTMs),也可以是一个T注意力变换模型。
[0030] 所述文本候选提取器,从文档的文本内容中提取出文档的关键词句的过程是现有技术,这里不再赘述。
[0031] 所述候选文本提取器提取出的关键词句,是文本中的多个相互不重叠的文本片段。
[0032] 在一个实施方式中,所述候选文本提取器可以看作是一个序列标注模型,即该序列标注模型可以使用BIEO(B、I、E、O分别表示关键词句的开始位置 B、关键词句的中间位置I、关键词句的结束位置E、以及不在任何一个关键词句内O)标签。
[0033] 该序列标注模型接收到文档的文本内容后,可以对文档的文本内容进行编码操作,对文档中的每个字符打上B、I、E、O中的一个标签,这样就可以得到多个表示文档关键词句的文本片段。
[0034] 比如,所述候选文本提取器对句子“李明撰写一件专利申请”进行编码操作后,对该句子中每个字符打上BIEO的标签的结果是“李/B明/E撰/B写/E 一/O件/O专/B利/I申/I请/E”,那么服务器提取出的关键词句包括:“李明”、“撰写”、“专利申请”;注意这里,提取关键词句的过程还需要去判定标注的合法性。所谓合法标注,就是在任何一对“B……E”标签之间,不能出现除了标签“I”之外的其他标签,比如“BOE”标签、“BBE”标签都是不合法的。换句话说,一个合法的标注必须满足“BI……IE”标签的形式,其中,标签“I”的个数大于等于0。
[0035] 所述字符,可以是但不限于:字、词组、以及短语。
[0036] 为了过滤掉提取出的多个文本片段中与文档含义不相关的文本片段,上述步骤100,可以执行以下步骤(1)至步骤(4):
[0037] (1)从所述文档的文本内容中提取多个文本片段;
[0038] (2)对所述多个文本片段中的各文本片段和所述文档的文本内容分别进行处理,得到各文本片段的第一表示向量和所述文档的文本内容的第二表示向量;
[0039] (3)保留所述多个文本片段中第一表示向量与第二表示向量点积为非负数的文本片段;
[0040] (4)根据保留的所述文本片段在所述文档中的相对位置,对保留的所述文本片段进行拼接操作,形成所述文档的候选摘要文本。
[0041] 在上述步骤(1)中,通过候选文本提取器从文档的文本内容中提取出多个文本片段。具体的提取过程如前所述,这里不再赘述。
[0042] 在提取出多个文本片段后,将多个文本片段中的各文本片段分别输入到服务器中运行的双向长短时记忆模型(BiLSTMs)中,分别训练好各文本片段的编码模型。然后将所述文档的文本内容也输入到上述BiLSTMs中,训练得到所述文档的文本内容的编码模型。
[0043] 在上述步骤(2)至步骤(3)中,服务器可以使用服务器自身运行的候选文本过滤器,将提取出的多个文本片段中的每个文本片段与文档的文本内容进行比较,并根据比较结果从多个文本片段中确定出与文档含义不相关的文本片段。
[0044] 在上述步骤(2)中,具体地,所述候选文本过滤器可以使用句对匹配模型,如BiMPM等。所述候选文本过滤器先将多个文本片段中的各文本片段分别发送到各文本片段预先训练好的编码模型中,得到每个文本片段的第一表示向量,并将文档的文本内容发送到文档的文本内容预先训练好的所述文档的文本内容的编码模型中,得到所述文档的文本内容的第二表示向量。
[0045] 在上述步骤(3)中,具体地,为了将提取出的多个文本片段中的每个文本片段分别与文档的文本内容进行比较,候选文本过滤器获取各文本片段的第一表示向量和所述文档的文本内容的第二表示向量,并进行各文本片段的第一表示向量分别和所述文档的文本内容的第二表示向量的点积计算,将多个文本片段中第一表示向量与第二表示向量点积小于零的文本片段确定为与文档含义不相关的文本片段,从而将多个文本片段中与文档含义不相关的文本片段删除,并保留各文本片段中第一表示向量与第二表示向量点积为非负数(即点积大于等于零)的文本片段。
[0046] 在上述步骤(4)中,服务器可以采用现有技术中任何的抽象式摘要生成算法,根据保留的所述文本片段在所述文档中的相对位置,对保留的所述文本片段进行拼接操作,形成所述文档的候选摘要文本,这里不再赘述。
[0047] 通过以上步骤(1)至步骤(4)的内容可以看出,在抽取文档的多个文本片段的基础上,结合使用抽象式摘要生成算法对抽取出的多个文本片段中保留的所述文本片段进行拼接操作,形成所述文档的候选摘要文本,从而可以按照文档的语义,对抽取出的多个文本片段中保留的所述文本片段进行概括,提高自动生成文本摘要的准确率。
[0048] 步骤102、提取所述候选摘要文本中各字符的特征向量。
[0049] 在上述步骤102中,可以利用上述BiLSTMs,提取出所述候选摘要文本中各字符的特征向量,具体过程为现有技术,这里不再赘述。
[0050] 步骤104、根据提出的所述候选摘要文本中各字符的特征向量,对所述候选摘要文本进行修正,生成所述文档的文本摘要。
[0051] 具体地,为了对所述候选摘要文本进行修正,上述步骤104可以执行以下步骤(1)至步骤(7):
[0052] (1)根据所述候选摘要文本中各字符的特征向量,确定当前所述候选摘要文本中各字符的操作标签;所述操作标签,包括:删除标签、插入标签、替换标签或者保留标签;
[0053] (2)当确定当前所述候选摘要文本中各字符的操作标签都是保留标签时,将所述候选摘要文本确定为生成的所述文档的文本摘要;
[0054] (3)当确定当前对所述候选摘要文本中各字符的操作标签中存在除所述保留标签外的其他操作标签时,根据当前所述候选摘要文本中各字符的操作标签对应的修正方式对所述候选摘要文本中各字符进行修正,得到修正后的候选摘要文本;
[0055] (4)对修正操作次数进行增量操作,当所述修正操作次数达到修正操作阈值时,将所述修正后的候选摘要文本确定为生成的所述文档的文本摘要;
[0056] (5)当所述修正操作次数未达到修正操作次数时,通过语言模型对修正后的候选摘要文本进行处理,得到修正后的候选摘要文本的分数;
[0057] (6)当所述分数大于等于分数阈值时,将所述修正后的候选摘要文本确定为生成的所述文档的文本摘要;
[0058] (7)当所述分数小于分数阈值时,利用所述修正后的候选摘要文本对所述候选摘要文本进行更新,并返回所述步骤(1)。
[0059] 在上述步骤(1)中,所述删除标签,用于指示服务器将所述候选摘要文本中具有删除标签的字或词删除。
[0060] 所述插入标签,用于指示服务器在所述候选摘要文本中具有插入标签的字符之前插入其他的字和/或者词。
[0061] 所述替换标签,用于指示服务器将所述候选摘要文本中具有替换标签的字符替换成其他的字符。
[0062] 所述保留标签,用于指示服务器不对所述候选摘要文本中具有保留标签的字符进行任何操作。
[0063] 针对所述候选摘要文本中的一个字符来说,将所述候选摘要文本中该字符的特征向量输入解码器中,解码器先把该字符的特征向量输入一个四元分类器中,该四元分类器的输出结果就是该字符的操作标签。
[0064] 具体地,所述四元分类器根据输入的该字符的特征向量,可以先得到该字符执行各操作的处理概率,然后取处理概率最大的操作标签作为当前该字符的操作标签。具体过程是现有技术,这里不再赘述。
[0065] 如:所述四元分类器得到该字符执行各操作的处理概率如下:删除操作概率=0.2,插入操作概率=0.2,替换操作概率=0.1,保留操作概率=0.5,那么所述四元分类器就可以确定当前该字符的操作标签为保留标签。
[0066] 当该字符的操作标签是插入标签时,解码器将该字符的语义表示和插入标签输入在服务器中运行的另一个分类器中,就可以得到在该字符之前需要插入的字符。
[0067] 当该字符的操作标签是替换标签时,解码器将该字符的语义表示和替换标签输入另一个分类器中,就可以得到替换该字符使用的字符。
[0068] 当该字符的操作标签是删除标签时,解码器向服务器反馈该字符需要删除,对该字符进行删除操作。
[0069] 当该字符的操作标签是保留标签时,解码器向服务器反馈该字符需要保留,当前不应进行任何操作。
[0070] 上述另一个分类器根据解码器输入的字符和各种操作标签,在操作标签是插入标签时得到在该字符之前需要插入的字符的过程以及在操作标签是替换标签时得到替换该字符使用的字符的过程,均为现有技术,这里不再赘述。
[0071] 在上述步骤(2)中,当前对所述候选摘要文本中各字符的操作标签中都是保留标签,说明无需再对所述候选摘要文本进行修正,可以将所述候选摘要文本确定为生成的所述文档的文本摘要。
[0072] 在上述步骤(4)中,所述修正操作次数和所述修正操作阈值,都缓存在服务器中。
[0073] 对修正操作次数进行增量操作,就是对当前的所述修正操作次数进行加一操作。
[0074] 在上述步骤(5)中,在一个实施方式中,所述语言模型,可以采用注意力变换模型。
[0075] 所述分数,用于表示修正后的候选摘要文本的阅读通顺程度。所述分数越高,说明修正后的候选摘要文本的阅读通顺程度越好。
[0076] 所述分数阈值,缓存在所述服务器中,用于表示修正后的候选摘要文本阅读起来比较通顺的情况下,候选摘要文本得到的分数。
[0077] 通过语言模型对修正后的候选摘要文本进行处理,得到修正后的候选摘要文本的分数的过程为现有技术,这里不再赘述。
[0078] 而且,在对所述候选摘要文本进行修正的过程中,可以通过具体的学习策略去控制字符修正的顺序,比如可以控制服务器先生成主语,再生成谓语;当然也可以让服务器自动学习迭代修正的顺序。再者,因为服务器自动学习修正的顺序就是服务器自身认为最容易学习的顺序,因此可以将服务器的修正顺序解释为“最优”顺序,体现了服务器自动学习迭代修正的顺序的可解释性。
[0079] 而且,上述步骤(1)至步骤(7)描述的对所述候选摘要文本进行修正的流程,还可以进一步应用到机器翻译和语法纠错等过程中。
[0080] 综上所述,本实施例提出的一种文本摘要生成方法,通过从文档的文本内容中提取多个文本片段形成所述文档的候选摘要文本,并根据候选摘要文本中各字符的特征向量,对所述候选摘要文本进行修正,生成所述文档的文本摘要,与相关技术中生成文档的文本摘要过程需要人工参与的方式相比,可以先通过从文档中提取的多个文本片段形成所述文档的候选摘要文本,然后根据候选摘要文本中各字符的特征向量对候选摘要文本进行修正生成文档的文本摘要,生成文本摘要的过程无需人工参与,降低了生成文本摘要时的人工成本,并提高了生成文本摘要的效率。
[0081] 实施例2
[0082] 本实施例提出一种文本摘要生成装置,用于执行上述实施例1提出的文本摘要生成方法。
[0083] 参见图2所示的一种文本摘要生成装置的结构示意图,本实施例提出一种文本摘要生成装置,包括:
[0084] 获取模块200,用于获取文档的文本内容,从所述文档的文本内容中提取多个文本片段形成所述文档的候选摘要文本;
[0085] 提取模块202,用于提取所述候选摘要文本中各字符的特征向量;
[0086] 生成模块204,用于根据提出的所述候选摘要文本中各字符的特征向量,对所述候选摘要文本进行修正,生成所述文档的文本摘要。
[0087] 所述获取模块200,具体用于:
[0088] 从所述文档的文本内容中提取多个文本片段;
[0089] 对所述多个文本片段中的各文本片段和所述文档的文本内容分别进行处理,得到各文本片段的第一表示向量和所述文档的文本内容的第二表示向量;
[0090] 保留所述多个文本片段中第一表示向量与第二表示向量点积为非负数的文本片段;
[0091] 根据保留的所述文本片段在所述文档中的相对位置,对保留的所述文本片段进行拼接操作,形成所述文档的候选摘要文本。
[0092] 所述生成模块204,具体用于:
[0093] 根据所述候选摘要文本中各字符的特征向量,确定当前所述候选摘要文本中各字符的操作标签;所述操作标签,包括:删除标签、插入标签、替换标签或者保留标签;
[0094] 根据当前所述候选摘要文本中各字符的操作标签对应的修正方式对所述候选摘要文本中各字符进行修正,得到修正后的候选摘要文本;
[0095] 对修正操作次数进行增量操作,当所述修正操作次数达到修正操作阈值时,将所述修正后的候选摘要文本确定为生成的所述文档的文本摘要。
[0096] 所述生成模块204,还具体用于:
[0097] 当所述修正操作次数未达到修正操作次数时,通过语言模型对修正后的候选摘要文本进行处理,得到修正后的候选摘要文本的分数;
[0098] 当所述分数大于等于分数阈值时,将所述修正后的候选摘要文本确定为生成的所述文档的文本摘要;
[0099] 当所述分数小于分数阈值时,利用所述修正后的候选摘要文本对所述候选摘要文本进行更新,并返回所述根据所述候选摘要文本中各字符的特征向量,确定当前所述候选摘要文本中各字符的操作标签步骤。
[0100] 所述生成模块204,还具体用于:
[0101] 当确定当前所述候选摘要文本中各字符的操作标签都是保留标签时,将所述候选摘要文本确定为生成的所述文档的文本摘要;
[0102] 当确定当前对所述候选摘要文本中各字符的操作标签中存在除所述保留标签外的其他操作标签时,继续执行所述根据当前所述候选摘要文本中各字符的操作标签对应的修正方式对所述候选摘要文本中各字符进行修正,得到修正后的候选摘要文本步骤。
[0103] 综上所述,本实施例提出的一种文本摘要生成装置,通过从文档的文本内容中提取多个文本片段形成所述文档的候选摘要文本,并根据候选摘要文本中各字符的特征向量,对所述候选摘要文本进行修正,生成所述文档的文本摘要,与相关技术中生成文档的文本摘要过程需要人工参与的方式相比,可以先通过从文档中提取的多个文本片段形成所述文档的候选摘要文本,然后根据候选摘要文本中各字符的特征向量对候选摘要文本进行修正生成文档的文本摘要,生成文本摘要的过程无需人工参与,降低了生成文本摘要时的人工成本,并提高了生成文本摘要的效率。
[0104] 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
相关专利内容
标题 发布/更新时间 阅读量
摘要生成方法及装置 2020-05-12 623
一种视频摘要生成方法 2020-05-12 284
音乐摘要自动生成方法 2020-05-12 198
生成视频摘要的方法 2020-05-12 959
摘要评估装置和方法 2020-05-13 211
单文档摘要生成方法 2020-05-12 689
一种文本摘要生成方法 2020-05-12 430
内容摘要验证接口方法 2020-05-12 707
多功能摘要书籍 2020-05-11 632
视频摘要系统 2020-05-11 269
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈