首页 / 专利库 / 专利权 / 申请 / 国际申请 / 摘要 / 摘要生成方法及装置

摘要生成方法及装置

阅读:328发布:2020-05-11

专利汇可以提供摘要生成方法及装置专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种 摘要 生成方法及装置,可以获得待提取摘要的文本,识别所述待提取摘要的文本的文本类型,确定与所识别的文本类型匹配的摘要提取方式,使用确定的摘要提取方式从所述待提取摘要的文本中提取文本内容,根据提取的文本内容,生成所述待提取摘要的文本的摘要。由于本发明可以识别文本的文本类型并使用与文本类型匹配的摘要提取方式从文本中提取摘要,因此本发明提取得到的摘要的准确性更高。,下面是摘要生成方法及装置专利的具体信息内容。

1.一种摘要生成方法,其特征在于,包括:
获得待提取摘要的文本;
识别所述待提取摘要的文本的文本类型;
确定与所识别的文本类型匹配的摘要提取方式,使用确定的摘要提取方式从所述待提取摘要的文本中提取文本内容;
根据提取的文本内容,生成所述待提取摘要的文本的摘要。
2.根据权利要求1所述的方法,其特征在于,
所述识别所述待提取摘要的文本的文本类型,包括:
根据预设的文本特征提取方式,从所述待提取摘要的文本中提取至少一个文本特征;
根据文本特征与文本类型的预设对应关系,将与提取的所述文本特征对应的文本类型确定为所述待提取摘要的文本的文本类型;
或者,所述识别所述待提取摘要的文本的文本类型,包括:
确定所述待提取摘要的文本的标题和正文;
根据预设的文本特征提取方式,分别从所述待提取摘要的文本的标题和正文中提取至少一个文本特征;
根据文本特征与文本类型的预设对应关系,将与提取的所述文本特征对应的文本类型确定为所述待提取摘要的文本的文本类型。
3.根据权利要求1所述的方法,其特征在于,所述识别所述待提取摘要的文本的文本类型,包括:
将所述待提取摘要的文本输入文本分类模型中,所述文本分类模型通过标识有文本类型的训练文本进行分类训练得到,所述文本分类模型用于对接收的文本的文本类型进行分类;
确定所述文本分类模型是否输出了分类结果,如果是,则将所述分类结果中的文本类型确定为所述待提取摘要的文本的文本类型。
4.根据权利要求3所述的方法,其特征在于,所述获得待提取摘要的文本,包括:从网页中获得待提取摘要的文本;
所述方法还包括:
在所述文本分类模型未输出分类结果时,获得所述待提取摘要的文本在所述网页中所属的栏目的标识;
根据获得的栏目的标识确定所述待提取摘要的文本的文本类型。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所识别的文本类型包括理论文章类、媒体报道类、领导讲话类、法律法规类和研究报告类中的至少一种,所述摘要提取方式包括:方式一至方式六中的至少一种;
方式一为:根据摘要提示词进行摘要提取;
方式二为:根据标题进行摘要提取;
方式三为:根据问题所对应的答案进行摘要提取;
方式四为:根据介绍内容进行摘要提取;
方式五为:根据顺序提示词进行摘要提取;
方式六为:根据总结提示词进行摘要提取。
6.根据权利要求5所述的方法,其特征在于,通过以下摘要提取方式中的至少一种,对识别后的不同文本类型对应的文本进行摘要提取:
通过方式一和方式二中的至少一种,对所述理论文章类对应的文本进行摘要提取;
通过方式一至方式四中的至少一种,对所述媒体报道类对应的文本进行摘要提取;
通过方式二、方式五、方式六中的至少一种,对所述领导讲话类对应的文本进行摘要提取;
通过方式二和方式五中的至少一种,对所述法律法规类对应的文本进行摘要提取;
通过方式一和方式二中的至少一种,对所述研究报告类对应的文本进行摘要提取。
7.一种摘要生成装置,其特征在于,包括:文本获得单元、类型识别单元、内容提取单元和摘要生成单元,
所述文本获得单元,用于获得待提取摘要的文本;
所述类型识别单元,用于识别所述待提取摘要的文本的文本类型;
所述内容提取单元,用于确定与所识别的文本类型匹配的摘要提取方式,使用确定的摘要提取方式从所述待提取摘要的文本中提取文本内容;
所述摘要生成单元,用于根据提取的文本内容,生成所述待提取摘要的文本的摘要。
8.根据权利要求7所述的装置,其特征在于,所述内容提取单元所识别的文本类型包括理论文章类、媒体报道类、领导讲话类、法律法规类和研究报告类中的至少一种,所述内容提取单元确定的摘要提取方式包括:方式一至方式六中的至少一种;
方式一为:根据摘要提示词进行摘要提取;
方式二为:根据标题进行摘要提取;
方式三为:根据问题所对应的答案进行摘要提取;
方式四为:根据介绍内容进行摘要提取;
方式五为:根据顺序提示词进行摘要提取;
方式六为:根据总结提示词进行摘要提取。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在的设备执行如权利要求1至6中任一项所述的摘要生成方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行如权利要求1至6中任一项所述的摘要生成方法。

说明书全文

摘要生成方法及装置

技术领域

[0001] 本发明涉及文本处理领域,尤其涉及一种摘要生成方法及装置。

背景技术

[0002] 随着生活节奏的加快,人们可用于阅读文字的时间越来越短,一篇完整的文字已无法满足用户的需求。
[0003] 为了解决这个问题,技术人员研发了文本摘要自动生成技术。通过该技术可以自动根据文本生成摘要,由于摘要更加简短,因此满足了用户对快速阅读从而在较短时间内了解信息的需求。现有的文本摘要往往将文本的首段文字作为摘要,这种方式适用于将重点放置于首段文字的文本,但对于其他情况(如重点分布在文中许多位置)则不适用。
[0004] 可见,现有的摘要生成技术会导致生成的摘要遗漏文本中的许多重点信息,即:现有的摘要生成技术生成的摘要的准确性较低。

发明内容

[0005] 鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种摘要生成方法及装置,方案如下:
[0006] 一种摘要生成方法,包括:
[0007] 获得待提取摘要的文本;
[0008] 识别所述待提取摘要的文本的文本类型;
[0009] 确定与所识别的文本类型匹配的摘要提取方式,使用确定的摘要提取方式从所述待提取摘要的文本中提取文本内容;
[0010] 根据提取的文本内容,生成所述待提取摘要的文本的摘要。
[0011] 可选的,所述识别所述待提取摘要的文本的文本类型,包括:
[0012] 根据预设的文本特征提取方式,从所述待提取摘要的文本中提取至少一个文本特征;
[0013] 根据文本特征与文本类型的预设对应关系,将与提取的所述文本特征对应的文本类型确定为所述待提取摘要的文本的文本类型;
[0014] 或者,所述识别所述待提取摘要的文本的文本类型,包括:
[0015] 确定所述待提取摘要的文本的标题和正文;
[0016] 根据预设的文本特征提取方式,分别从所述待提取摘要的文本的标题和正文中提取至少一个文本特征;
[0017] 根据文本特征与文本类型的预设对应关系,将与提取的所述文本特征对应的文本类型确定为所述待提取摘要的文本的文本类型。
[0018] 可选的,所述识别所述待提取摘要的文本的文本类型,包括:
[0019] 将所述待提取摘要的文本输入文本分类模型中,所述文本分类模型通过标识有文本类型的训练文本进行分类训练得到,所述文本分类模型用于对接收的文本的文本类型进行分类;
[0020] 确定所述文本分类模型是否输出了分类结果,如果是,则将所述分类结果中的文本类型确定为所述待提取摘要的文本的文本类型。
[0021] 可选的,所述获得待提取摘要的文本,包括:从网页中获得待提取摘要的文本;
[0022] 所述方法还包括:
[0023] 在所述文本分类模型未输出分类结果时,获得所述待提取摘要的文本在所述网页中所属的栏目的标识;
[0024] 根据获得的栏目的标识确定所述待提取摘要的文本的文本类型。
[0025] 可选的,所识别的文本类型包括理论文章类、媒体报道类、领导讲话类、法律法规类和研究报告类中的至少一种,所述摘要提取方式包括:方式一至方式六中的至少一种;
[0026] 方式一为:根据摘要提示词进行摘要提取;
[0027] 方式二为:根据标题进行摘要提取;
[0028] 方式三为:根据问题所对应的答案进行摘要提取;
[0029] 方式四为:根据介绍内容进行摘要提取;
[0030] 方式五为:根据顺序提示词进行摘要提取;
[0031] 方式六为:根据总结提示词进行摘要提取。
[0032] 可选的,通过以下摘要提取方式中的至少一种,对识别后的不同文本类型对应的文本进行摘要提取:
[0033] 通过方式一和方式二中的至少一种,对所述理论文章类对应的文本进行摘要提取;
[0034] 通过方式一至方式四中的至少一种,对所述媒体报道类对应的文本进行摘要提取;
[0035] 通过方式二、方式五、方式六中的至少一种,对所述领导讲话类对应的文本进行摘要提取;
[0036] 通过方式二和方式五中的至少一种,对所述法律法规类对应的文本进行摘要提取;
[0037] 通过方式一和方式二中的至少一种,对所述研究报告类对应的文本进行摘要提取。
[0038] 一种摘要生成装置,包括:文本获得单元、类型识别单元、内容提取单元和摘要生成单元,
[0039] 所述文本获得单元,用于获得待提取摘要的文本;
[0040] 所述类型识别单元,用于识别所述待提取摘要的文本的文本类型;
[0041] 所述内容提取单元,用于确定与所识别的文本类型匹配的摘要提取方式,使用确定的摘要提取方式从所述待提取摘要的文本中提取文本内容;
[0042] 所述摘要生成单元,用于根据提取的文本内容,生成所述待提取摘要的文本的摘要。
[0043] 可选的,所述内容提取单元所识别的文本类型包括理论文章类、媒体报道类、领导讲话类、法律法规类和研究报告类中的至少一种,
[0044] 所述内容提取单元确定的摘要提取方式包括:方式一至方式六中的至少一种;
[0045] 方式一为:根据摘要提示词进行摘要提取;
[0046] 方式二为:根据标题进行摘要提取;
[0047] 方式三为:根据问题所对应的答案进行摘要提取;
[0048] 方式四为:根据介绍内容进行摘要提取;
[0049] 方式五为:根据顺序提示词进行摘要提取;
[0050] 方式六为:根据总结提示词进行摘要提取。
[0051] 可选的,通过以下摘要提取方式中的至少一种,对识别后的不同文本类型对应的文本进行摘要提取:
[0052] 通过方式一和方式二中的至少一种,对所述理论文章类对应的文本进行摘要提取;
[0053] 通过方式一至方式四中的至少一种,对所述媒体报道类对应的文本进行摘要提取;
[0054] 通过方式二、方式五、方式六中的至少一种,对所述领导讲话类对应的文本进行摘要提取;
[0055] 通过方式二和方式五中的至少一种,对所述法律法规类对应的文本进行摘要提取;
[0056] 通过方式一和方式二中的至少一种,对所述研究报告类对应的文本进行摘要提取。
[0057] 一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在的设备执行上述的任一种摘要生成方法。
[0058] 一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述的任一种摘要生成方法。
[0059] 借由上述技术方案,本发明提供的一种摘要生成方法及装置,可以获得待提取摘要的文本,识别所述待提取摘要的文本的文本类型,确定与所识别的文本类型匹配的摘要提取方式,使用确定的摘要提取方式从所述待提取摘要的文本中提取文本内容,根据提取的文本内容,生成所述待提取摘要的文本的摘要。由于本发明可以识别文本的文本类型并使用与文本类型匹配的摘要提取方式从文本中提取摘要,因此本发明提取得到的摘要的准确性更高。
[0060] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。附图说明
[0061] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0062] 图1示出了本发明实施例提供的一种摘要生成方法的流程图
[0063] 图2示出了本发明实施例提供的另一种摘要生成方法的流程图;
[0064] 图3示出了本发明实施例提供的另一种摘要生成方法的流程图;
[0065] 图4示出了本发明实施例提供的另一种摘要生成方法的流程图;
[0066] 图5示出了本发明实施例提供的一种摘要生成装置的结构示意图。

具体实施方式

[0067] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0068] 如图1所示,本发明实施例提供的一种摘要生成方法,可以包括:
[0069] S100、获得待提取摘要的文本;
[0070] 其中,图1所示方法可以应用于服务器中。
[0071] 可选的,待提取摘要的文本的获得方式可以有多种,如:从网页中获得或从某终端中获得,当然,待提取摘要的文本也可以由用户上传至服务器中。
[0072] S200、识别所述待提取摘要的文本的文本类型;
[0073] 本发明可以对多种文本类型进行识别、分类,其中,所识别的文本类型可以为预先设置的,可以根据需要设置粒度较大或较小的文本类型。例如:预先设置的文本类型包括:论文类、研究报告类、新闻类、人物访谈类等。此时,本发明识别的文本类型的粒度较小。再如:预先设置的文本类型包括:理论文章类、媒体报道类等,则本发明识别的文本类型的粒度较大。其中,理论文章类可以包括:论文类和研究报告类。媒体报道类可以包括:新闻类和人物访谈类。
[0074] 其中,步骤S200的具体执行方式可以有多种:例如:在待提取摘要的文本为网页中的文本时,可以根据待提取摘要的文本在网页中所属的栏目的标识确定待提取摘要的文本的文本类型。例如:当待提取摘要的文本在网页中所属的栏目的名称为:“国内新闻”时,则可以确定待提取摘要的文本的文本类型为新闻类。当待提取摘要的文本在网页中所属的栏目的名称为:“博士论文”时,则可以确定待提取摘要的文本的文本类型为论文类。
[0075] 当然,如图2所示,本发明的步骤S200也可以包括:
[0076] S210、根据预设的文本特征提取方式,从所述待提取摘要的文本中提取至少一个文本特征;
[0077] 其中,所述预设的文本特征提取方式可以有多种,如:包括如下的第一文本特征提取方式和第二文本特征提取方式。第一文本特征提取方式为:统计预设的多个词汇组中各词汇在待提取摘要的文本中出现的次数;第二文本特征提取方式为:获得预设的多个词汇组中各词汇在待提取摘要的文本中出现的位置等。
[0078] 其中,文本特征与文本类型可以具有预设对应关系,例如上述预设的多个词汇组可以分别与不同的文本类型对应,这样,通过第一文本特征提取方式提取的文本特征确定文本类型时,可以根据各词汇组中各词汇在待提取摘要的文本中出现的次数确定待提取摘要的文本的文本类型,例如:某词汇组中各词汇在待提取摘要的文本中出现的次数之和最大,则将该词汇组对应的文本类型确定为待提取摘要的文本的文本类型。
[0079] 假设:共有三个词汇组,分别为第一词汇组至第三词汇组,每个词汇组中均有三个词汇。待提取摘要的文本中出现第一词汇组中词汇的次数为10次,出现第二词汇组中词汇的次数为3次,出现第三词汇组中词汇的次数为1次。则本发明可以确定待提取摘要的文本的文本类型为第一词汇组对应的文本类型。
[0080] 其中,文本特征可以包括如下特征中的至少一个:
[0081] 预设的词汇组中各词汇在所述待提取摘要的文本中出现的次数;
[0082] 预设的词汇组中各词汇在所述待提取摘要的文本中出现的位置。
[0083] 由于一般文本由标题和正文构成,而标题和正文的语言组织有较大差别,因此图2所示实施例中步骤S200还可以包括:确定所述待提取摘要的文本的标题和正文。这样,步骤S210就可以具体包括:
[0084] 根据预设的文本特征提取方式,分别从所述待提取摘要的文本的标题和正文中提取至少一个文本特征。
[0085] 具体的,本发明可以通过分段情况、文字数量、文字对齐方式、文字样式(如加粗、文字大小等)等确定标题,进而将其余部分确定为正文。
[0086] 通过区分正文和标题,本发明可以有效提高文本类型的识别准确率。
[0087] S220、根据文本特征与文本类型的预设对应关系,将与提取的所述文本特征对应的文本类型确定为所述待提取摘要的文本的文本类型。
[0088] 其中,本发明可以根据提取的部分或全部文本特征确定待提取摘要的文本的文本类型。对于不同的文本特征,本发明可以为其设置不同的权重,首先根据权重最大的文本特征确定文本类型。
[0089] 在本发明其他实施例中,步骤S200也可以将所述待提取摘要的文本输入文本分类模型中,将该文本分类模型的分类结果确定为待提取摘要的文本的文本类型。
[0090] 在实际应用中,可以首先对文本分类模型进行训练,具体的:本发明可以采集第一数量的文本,然后对采集的文本添加相应的文本类型标识,将添加了文本类型标识的文本输入到文本分类模型中进行训练。
[0091] 为了保证识别准确率,本发明还可以向训练后的文本分类模型中输入第二数量的文本,根据得到的分类结果确定训练后的文本分类模型的识别准确率。当确定的识别准确率不满足要求时,可以继续对文本分类模型进行训练,直至满足要求。
[0092] 可选的,本发明在采集到第一数量的文本后,可以首先对采集的文本进行筛选处理,将完整性不足,错误较多,排版混乱的文本删除。
[0093] 可选的,上述文本分类模型可以通过词频-逆向文件频率(TF-IDF,term frequency–inverse document frequency)统计方法以及支持向量机(SVM,Support Vector Machine)、随机森林(Random forest)等分类器对文本进行分类。
[0094] S300、确定与所识别的文本类型匹配的摘要提取方式,使用确定的摘要提取方式从所述待提取摘要的文本中提取文本内容。
[0095] 其中,所提取的文本内容可以包括:文字、数字、图片、符号等。
[0096] S400、根据提取的文本内容,生成所述待提取摘要的文本的摘要。
[0097] 其中,不同的文本类型可以与相同或不同的摘要提取方式匹配。
[0098] 为方便理解,下面举例说明:
[0099] 在本发明的一个可选实施例中,步骤S200所识别的文本类型可以包括理论文章类、媒体报道类、领导讲话类、法律法规类和研究报告类中的至少一种,相应的,步骤S300所使用的摘要提取方式可以包括:方式一至方式六中的至少一种:
[0100] 方式一为:根据摘要提示词进行摘要提取;
[0101] 其中,摘要提示词可以包括:摘要、内容提要、内容简要说明、简述、综述等。
[0102] 可选的,本发明在文本中存在摘要提示词时,可以确定所述文本中的摘要提示词所在的段落是否存在不低于第一数目的文字,如果是,则将所述文本中的摘要提示词所在的段落确定为所述文本的摘要,否则,将所述文本中的摘要提示词所在的段落的下一段落确定为所述文本的摘要。
[0103] 其中,方式一对于理论文章类(如论文)、媒体报道类和研究报告类文本较为适用。可以理解的是,不同文本类型可以对应有相同或不同的摘要提示词。
[0104] 方式二为:根据标题进行摘要提取;
[0105] 可选的,在文本中存在一级标题和二级标题时,本发明可以根据一级标题和二级标题确定文本的摘要,例如:将一级标题和二级标题作为文本的摘要,或者,将首个一级标题前方的所有内容、各一级标题和至少一个段落的首句一起作为文本的摘要。
[0106] 其中,上述至少一个段落可以包括各一级标题下方的首个段落。
[0107] 可以理解的是,标题一般为文本的架构,因此可以将其作为摘要。
[0108] 进一步,在文本中存在一级标题,但不存在二级标题时,本发明可以将首个一级标题前方的所有内容、各一级标题和二级标题一起作为文本的摘要。
[0109] 在实际应用中,可以根据文本是否存在摘要提示词、是否存在一级标题、是否存在二级标题来选择相应的摘要提取方式进行摘要提取。
[0110] 例如:将文本首个段落的部分或全部内容以及至少一个标题一起作为文本的摘要。或者,将文本首个段落的部分或全部内容、最后一个段落的部分或全部内容及至少一个标题一起作为文本的摘要。
[0111] 其中,在选取段落的部分内容作为摘要的一部分时,本发明可以选取段落的首句作为摘要的一部分。
[0112] 其中,方式二对于理论文章类、媒体报道类、领导讲话类、法律法规类和研究报告类的文本均较为适用。
[0113] 方式三为:根据问题所对应的答案进行摘要提取;
[0114] 具体的,当识别到文本的正文中各段的段首词汇为人名或职业称谓(如记者、王老师)时,可以确定该文本为问答形式。本发明可以根据人名、职业称谓或段落中的标点(如是否包含问号)来确定正文中的回答并将回答的部分或全部作为摘要。
[0115] 其中,方式三对于媒体报道类的文本较为适用。
[0116] 方式四为:根据介绍内容进行摘要提取;
[0117] 在许多文本中可能存在介绍内容,介绍内容可以作为摘要。例如:一篇对某次会议进行报道的媒体报道类文本中可能会存在对本次会议的简介,则该简介即可作为摘要。具体的,本发明可以通过介绍提示词(如简介等)确定介绍内容所在段落。
[0118] 方式五为:根据顺序提示词进行摘要提取;
[0119] 其中,顺序提示词可以包括:多种形式的序号、首先、其次等。
[0120] 可选的,本发明可以识别文本中的序号,然后将序号后的一句或多句确定为摘要的一部分。
[0121] 其中,方式五对领导讲话类和法律法规类的文本较为适用。
[0122] 由于法律法规多是以“条”、“章”为单位的序号以及标题作为文本结构,因此本发明可以根据标题和/或序号进行摘要提取。例如:将各序号后的第一句和/或各标题作为摘要。
[0123] 当然,在本发明其他实施例中,由于部分法律法规的第一条为总则,因此本发明也可以将总则的全部或部分内容作为摘要的一部分或全部。
[0124] 方式六为:根据总结提示词进行摘要提取。
[0125] 其中,总结提示词可以包括:我建议、我提议、最后、总述、总结、综上所述等词汇。
[0126] 本发明可以识别文中的总结提示词,将总结提示词后的一句或多句作为摘要的一部分。
[0127] 在一个实施例中,通过以下摘要提取方式中的至少一种,对识别后的不同文本类型对应的文本进行摘要提取:
[0128] 通过方式一和方式二中的至少一种,对所述理论文章类对应的文本进行摘要提取;
[0129] 通过方式一至方式四中的至少一种,对所述媒体报道类对应的文本进行摘要提取;
[0130] 通过方式二、方式五、方式六中的至少一种,对所述领导讲话类对应的文本进行摘要提取;
[0131] 通过方式二和方式五中的至少一种,对所述法律法规类对应的文本进行摘要提取;
[0132] 通过方式一和方式二中的至少一种,对所述研究报告类对应的文本进行摘要提取。
[0133] 具体的,在所述摘要提取方式至少包括:方式一和方式二时,所述理论文章类对应的文本的摘要提取方式可以包括:方式一和方式二中的至少一种。
[0134] 在所述摘要提取方式至少包括:方式一至方式四时,所述媒体报道类对应的文本的摘要提取方式可以包括:方式一至方式四中的至少一种。
[0135] 在所述摘要提取方式至少包括:方式二、方式五和方式六时,所述领导讲话类对应的文本的摘要提取方式可以包括:方式二、方式五、方式六中的至少一种。
[0136] 在所述摘要提取方式至少包括:方式二和方式五时,所述法律法规类对应的文本的摘要提取方式可以包括:方式二和方式五中的至少一种。
[0137] 在所述摘要提取方式至少包括:方式一和方式二时,所述研究报告类对应的文本的摘要提取方式可以包括:方式一和方式二中的至少一种。
[0138] 在另外一个实施例中,所识别的文本类型包括理论文章类、媒体报道类、领导讲话类、法律法规类和研究报告类,摘要提取方式包括:方式一至方式六,则:理论文章类的对应的文本的摘要提取方式包括:方式一和方式二中的至少一种;媒体报道类对应的文本的摘要提取方式包括:方式一至方式四中的至少一种;领导讲话类对应的文本的摘要提取方式包括:方式二、方式五、方式六中的至少一种;法律法规类对应的文本的摘要提取方式包括:方式二和方式五中的至少一种;研究报告类对应的文本的摘要提取方式包括:方式一和方式二中的至少一种。
[0139] 当然,在实际应用中,各种摘要提取方式可以具有分别与文本类型对应的优先级,当待提取摘要的文本为A文本类型时,本发明可以首先选择与A文本类型对应的各摘要提取方式中优先级最高的摘要提取方式从待提取摘要的文本中提取摘要,如果提取得到摘要,则本发明可以不再使用其他摘要提取方式进行摘要提取。如果优先级最高的摘要提取方式无法提取得到摘要,则选择优先级次高的摘要提取方式进行摘要提取,以此类推。
[0140] 其中,所述摘要提取方式可以由至少一个正则表达式构成。
[0141] 本发明实施例提供的一种摘要生成方法,可以获得待提取摘要的文本,识别所述待提取摘要的文本的文本类型,确定与所识别的文本类型匹配的摘要提取方式,使用确定的摘要提取方式从所述待提取摘要的文本中提取文本内容,根据提取的文本内容,生成所述待提取摘要的文本的摘要。由于本发明可以识别文本的文本类型并使用与文本类型匹配的摘要提取方式从文本中提取摘要,因此本发明提取得到的摘要的准确性更高。
[0142] 如图3所示,本发明实施例提供的另一种摘要生成方法,可以包括:
[0143] S100、获得待提取摘要的文本;
[0144] S201、将所述待提取摘要的文本输入文本分类模型中,所述文本分类模型通过标识有文本类型的训练文本进行分类训练得到,所述文本分类模型用于对接收的文本的文本类型进行分类;
[0145] S202、确定所述文本分类模型是否输出了分类结果,如果是,则执行步骤S203;否则结束本发明的执行。
[0146] S203、将所述分类结果中的文本类型确定为所述待提取摘要的文本的文本类型。
[0147] S300、确定与所识别的文本类型匹配的摘要提取方式,使用确定的摘要提取方式从所述待提取摘要的文本中提取文本内容。
[0148] S400、根据提取的文本内容,生成所述待提取摘要的文本的摘要。
[0149] 如图4所示,本发明实施例提供的另一种摘要生成方法,可以包括:
[0150] S110、从网页中获得待提取摘要的文本;
[0151] S201、将所述待提取摘要的文本输入文本分类模型中,所述文本分类模型通过标识有文本类型的训练文本进行分类训练得到,所述文本分类模型用于对接收的文本的文本类型进行分类;
[0152] S202、确定所述文本分类模型是否输出了分类结果,如果是,则执行步骤S203;否则执行步骤S204;
[0153] S203、将所述分类结果中的文本类型确定为所述待提取摘要的文本的文本类型。
[0154] S204、获得所述待提取摘要的文本在所述网页中所属的栏目的标识;
[0155] S205、根据获得的栏目的标识确定所述待提取摘要的文本的文本类型。
[0156] S300、确定与所识别的文本类型匹配的摘要提取方式,使用确定的摘要提取方式从所述待提取摘要的文本中提取文本内容;
[0157] S400、根据提取的文本内容,生成所述待提取摘要的文本的摘要。
[0158] 与上述方法实施例相对应,本发明还提供了一种摘要生成装置。
[0159] 如图5所示,本发明实施例提供的一种摘要生成装置,可以包括:文本获得单元100、类型识别单元200、内容提取单元300和摘要生成单元400,
[0160] 所述文本获得单元100,用于获得待提取摘要的文本;
[0161] 所述类型识别单元200,用于识别所述待提取摘要的文本的文本类型;
[0162] 其中,所述类型识别单元200,可以包括:第一特征提取子单元和类型确定子单元;或者,所述类型识别单元200可以包括:结构确定子单元、第二特征提取子单元和所述第一类型确定子单元,
[0163] 所述第一特征提取子单元,用于根据预设的文本特征提取方式,从所述待提取摘要的文本中提取至少一个文本特征;
[0164] 所述第一类型确定子单元,用于根据文本特征与文本类型的预设对应关系,将与提取的所述文本特征对应的文本类型确定为所述待提取摘要的文本的文本类型;
[0165] 所述结构确定子单元,用于确定所述待提取摘要的文本的标题和正文;
[0166] 所述第二特征提取子单元,用于根据预设的文本特征提取方式,分别从所述待提取摘要的文本的标题和正文中提取至少一个文本特征。
[0167] 在本发明其他实施例中,所述类型识别单元200可以包括:文本输入子单元、结果确定子单元和第二类型确定子单元,
[0168] 所述文本输入子单元,用于将所述待提取摘要的文本输入文本分类模型中,所述文本分类模型通过标识有文本类型的训练文本进行分类训练得到,所述文本分类模型用于对接收的文本的文本类型进行分类;
[0169] 所述结果确定子单元,用于确定所述文本分类模型是否输出了分类结果,如果是,则触发所述第二类型确定子单元;
[0170] 所述第二类型确定子单元,用于将所述分类结果中的文本类型确定为所述待提取摘要的文本的文本类型。
[0171] 进一步,本发明实施例提供的另一种摘要生成装置中文本获得单元可以具体用于:从网页中获得待提取摘要的文本;该摘要生成装置还可以包括:标识获得单元和类型确定单元,
[0172] 所述标识获得单元,用于在所述文本分类模型未输出分类结果时,获得所述待提取摘要的文本在所述网页中所属的栏目的标识;
[0173] 所述类型确定单元,用于根据获得的栏目的标识确定所述待提取摘要的文本的文本类型。
[0174] 所述内容提取单元300,用于确定与所识别的文本类型匹配的摘要提取方式,使用确定的摘要提取方式从所述待提取摘要的文本中提取文本内容;
[0175] 所述摘要生成单元400,用于根据提取的文本内容,生成所述待提取摘要的文本的摘要。
[0176] 其中,所述内容提取单元300所识别的文本类型可以包括理论文章类、媒体报道类、领导讲话类、法律法规类和研究报告类中的至少一种。
[0177] 所述内容提取单元400确定的摘要提取方式可以包括:方式一至方式六中的至少一种。
[0178] 方式一为:根据摘要提示词进行摘要提取;
[0179] 方式二为:根据标题进行摘要提取;
[0180] 方式三为:根据问题所对应的答案进行摘要提取;
[0181] 方式四为:根据介绍内容进行摘要提取;
[0182] 方式五为:根据顺序提示词进行摘要提取;
[0183] 方式六为:根据总结提示词进行摘要提取。
[0184] 可选的,通过以下摘要提取方式中的至少一种,对识别后的不同文本类型对应的文本进行摘要提取:
[0185] 通过方式一和方式二中的至少一种,对所述理论文章类对应的文本进行摘要提取;
[0186] 通过方式一至方式四中的至少一种,对所述媒体报道类对应的文本进行摘要提取;
[0187] 通过方式二、方式五、方式六中的至少一种,对所述领导讲话类对应的文本进行摘要提取;
[0188] 通过方式二和方式五中的至少一种,对所述法律法规类对应的文本进行摘要提取;
[0189] 通过方式一和方式二中的至少一种,对所述研究报告类对应的文本进行摘要提取。
[0190] 在另外一个实施例中,所识别的文本类型包括理论文章类、媒体报道类、领导讲话类、法律法规类和研究报告类,摘要提取方式包括:方式一至方式六,则:理论文章类的对应的文本的摘要提取方式包括:方式一和方式二中的至少一种;媒体报道类对应的文本的摘要提取方式包括:方式一至方式四中的至少一种;领导讲话类对应的文本的摘要提取方式包括:方式二、方式五、方式六中的至少一种;法律法规类对应的文本的摘要提取方式包括:方式二和方式五中的至少一种;研究报告类对应的文本的摘要提取方式包括:方式一和方式二中的至少一种。
[0191] 本发明实施例提供的一种摘要生成装置,可以获得待提取摘要的文本,识别所述待提取摘要的文本的文本类型,确定与所识别的文本类型匹配的摘要提取方式,使用确定的摘要提取方式从所述待提取摘要的文本中提取文本内容,根据提取的文本内容,生成所述待提取摘要的文本的摘要。由于本发明可以识别文本的文本类型并使用与文本类型匹配的摘要提取方式从文本中提取摘要,因此本发明提取得到的摘要的准确性更高。
[0192] 所述摘要生成装置包括处理器和存储器,上述文本获得单元、类型识别单元、内容提取单元和摘要生成单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
[0193] 处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来生成摘要。
[0194] 存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
[0195] 本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述摘要生成方法。
[0196] 本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述摘要生成方法。
[0197] 本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
[0198] 一种摘要生成方法,包括:
[0199] 获得待提取摘要的文本;
[0200] 识别所述待提取摘要的文本的文本类型;
[0201] 确定与所识别的文本类型匹配的摘要提取方式,使用确定的摘要提取方式从所述待提取摘要的文本中提取文本内容;
[0202] 根据提取的文本内容,生成所述待提取摘要的文本的摘要。
[0203] 可选的,所述识别所述待提取摘要的文本的文本类型,包括:
[0204] 根据预设的文本特征提取方式,从所述待提取摘要的文本中提取至少一个文本特征;
[0205] 根据文本特征与文本类型的预设对应关系,将与提取的所述文本特征对应的文本类型确定为所述待提取摘要的文本的文本类型;
[0206] 或者,所述识别所述待提取摘要的文本的文本类型,包括:
[0207] 确定所述待提取摘要的文本的标题和正文;
[0208] 根据预设的文本特征提取方式,分别从所述待提取摘要的文本的标题和正文中提取至少一个文本特征;
[0209] 根据文本特征与文本类型的预设对应关系,将与提取的所述文本特征对应的文本类型确定为所述待提取摘要的文本的文本类型。
[0210] 可选的,所述识别所述待提取摘要的文本的文本类型,包括:
[0211] 将所述待提取摘要的文本输入文本分类模型中,所述文本分类模型通过标识有文本类型的训练文本进行分类训练得到,所述文本分类模型用于对接收的文本的文本类型进行分类;
[0212] 确定所述文本分类模型是否输出了分类结果,如果是,则将所述分类结果中的文本类型确定为所述待提取摘要的文本的文本类型。
[0213] 可选的,所述获得待提取摘要的文本,包括:从网页中获得待提取摘要的文本;
[0214] 所述方法还包括:
[0215] 在所述文本分类模型未输出分类结果时,获得所述待提取摘要的文本在所述网页中所属的栏目的标识;
[0216] 根据获得的栏目的标识确定所述待提取摘要的文本的文本类型。
[0217] 可选的,所识别的文本类型包括理论文章类、媒体报道类、领导讲话类、法律法规类和研究报告类中的至少一种,所述摘要提取方式包括:方式一至方式六中的至少一种;
[0218] 方式一为:根据摘要提示词进行摘要提取;
[0219] 方式二为:根据标题进行摘要提取;
[0220] 方式三为:根据问题所对应的答案进行摘要提取;
[0221] 方式四为:根据介绍内容进行摘要提取;
[0222] 方式五为:根据顺序提示词进行摘要提取;
[0223] 方式六为:根据总结提示词进行摘要提取。
[0224] 可选的,通过以下摘要提取方式中的至少一种,对识别后的不同文本类型对应的文本进行摘要提取:
[0225] 通过方式一和方式二中的至少一种,对所述理论文章类对应的文本进行摘要提取;
[0226] 通过方式一至方式四中的至少一种,对所述媒体报道类对应的文本进行摘要提取;
[0227] 通过方式二、方式五、方式六中的至少一种,对所述领导讲话类对应的文本进行摘要提取;
[0228] 通过方式二和方式五中的至少一种,对所述法律法规类对应的文本进行摘要提取;
[0229] 通过方式一和方式二中的至少一种,对所述研究报告类对应的文本进行摘要提取。
[0230] 本文中的设备可以是服务器、PC、PAD、手机等。
[0231] 本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
[0232] 一种摘要生成方法,包括:
[0233] 获得待提取摘要的文本;
[0234] 识别所述待提取摘要的文本的文本类型;
[0235] 确定与所识别的文本类型匹配的摘要提取方式,使用确定的摘要提取方式从所述待提取摘要的文本中提取文本内容;
[0236] 根据提取的文本内容,生成所述待提取摘要的文本的摘要。
[0237] 可选的,所述识别所述待提取摘要的文本的文本类型,包括:
[0238] 根据预设的文本特征提取方式,从所述待提取摘要的文本中提取至少一个文本特征;
[0239] 根据文本特征与文本类型的预设对应关系,将与提取的所述文本特征对应的文本类型确定为所述待提取摘要的文本的文本类型;
[0240] 或者,所述识别所述待提取摘要的文本的文本类型,包括:
[0241] 确定所述待提取摘要的文本的标题和正文;
[0242] 根据预设的文本特征提取方式,分别从所述待提取摘要的文本的标题和正文中提取至少一个文本特征;
[0243] 根据文本特征与文本类型的预设对应关系,将与提取的所述文本特征对应的文本类型确定为所述待提取摘要的文本的文本类型。
[0244] 可选的,所述识别所述待提取摘要的文本的文本类型,包括:
[0245] 将所述待提取摘要的文本输入文本分类模型中,所述文本分类模型通过标识有文本类型的训练文本进行分类训练得到,所述文本分类模型用于对接收的文本的文本类型进行分类;
[0246] 确定所述文本分类模型是否输出了分类结果,如果是,则将所述分类结果中的文本类型确定为所述待提取摘要的文本的文本类型。
[0247] 可选的,所述获得待提取摘要的文本,包括:从网页中获得待提取摘要的文本;
[0248] 所述方法还包括:
[0249] 在所述文本分类模型未输出分类结果时,获得所述待提取摘要的文本在所述网页中所属的栏目的标识;
[0250] 根据获得的栏目的标识确定所述待提取摘要的文本的文本类型。
[0251] 可选的,所识别的文本类型包括理论文章类、媒体报道类、领导讲话类、法律法规类和研究报告类中的至少一种,所述摘要提取方式包括:方式一至方式六中的至少一种;
[0252] 方式一为:根据摘要提示词进行摘要提取;
[0253] 方式二为:根据标题进行摘要提取;
[0254] 方式三为:根据问题所对应的答案进行摘要提取;
[0255] 方式四为:根据介绍内容进行摘要提取;
[0256] 方式五为:根据顺序提示词进行摘要提取;
[0257] 方式六为:根据总结提示词进行摘要提取。
[0258] 可选的,通过以下摘要提取方式中的至少一种,对识别后的不同文本类型对应的文本进行摘要提取:
[0259] 通过方式一和方式二中的至少一种,对所述理论文章类对应的文本进行摘要提取;
[0260] 通过方式一至方式四中的至少一种,对所述媒体报道类对应的文本进行摘要提取;
[0261] 通过方式二、方式五、方式六中的至少一种,对所述领导讲话类对应的文本进行摘要提取;
[0262] 通过方式二和方式五中的至少一种,对所述法律法规类对应的文本进行摘要提取;
[0263] 通过方式一和方式二中的至少一种,对所述研究报告类对应的文本进行摘要提取。
[0264] 本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0265] 本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0266] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0267] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0268] 在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
[0269] 存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
[0270] 计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0271] 还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0272] 本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0273] 以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈