首页 / 专利库 / 专利权 / 专利合作条约 / 第I章 / 国际申请 / 摘要 / 中文文件自动摘要方法

中文文件自动摘要方法

阅读:452发布:2020-05-13

专利汇可以提供中文文件自动摘要方法专利检索,专利查询,专利分析的服务。并且一种中文文件自动 摘要 方法,适用于建立一个目标文件的摘要。首先设定摘要搜寻范围,并将此摘要搜寻范围分成多个句子;接着在此摘要搜寻范围找出多个关键词;然后根据这些关键词的词性分别给予任意一个关键词相对应的关键词分数;然后根据这些句子中所包含的关键词所对应的关键词分数、句长及词频,决定每一个句子所分别对应的一个句子分数;最后依照这些句子分数排列这些句子作为摘要的优先级。,下面是中文文件自动摘要方法专利的具体信息内容。

1.一种中文文件自动摘要方法,适用于建立一个目标文件的摘要, 包括:
设定一个摘要搜寻范围,并将该摘要搜寻范围分成多个句子;
在该摘要搜寻范围找出多个关键词;
根据这些关键词的词性分别给予任意一个这些关键词相对应的关键 词分数;
根据这些句子中所包含的关键词所对应的关键词分数、句长及词频, 决定每一这些句子所分别对应的一个句子分数;以及
依这些句子分数排列这些句子作为摘要的优先级。
2.如权利要求1所述的中文文件自动摘要方法,其中设定该摘要搜 寻范围的步骤更包括:
取出该目标文件中的纯文字部分;以及
以所取出的纯文字部分为该摘要搜寻范围。
3.如权利要求1所述的中文文件自动摘要方法,其中根据该些句子 中所包含的关键词所对应的关键词分数、句长及词频,决定每一这些句 子所分别对应的该句子分数的步骤包括:
以该句子中所包含的每一个关键词所对应的关键词分数与词频的倒 数相乘而分别得到一个相乘值;
将该句子中包含的所有关键词的相乘值相加,得到一个相加总和;
以该句子的句长对该相加总和做正规化操作;以及
以正规化所得的结果为该句子分数;
其中,该词频为介于0与1之间的实数,且词频越高的代表出现频 率也越高。
4.如权利要求1所述的中文文件自动摘要方法,其中根据这些关键 词的词性分别给予任一这些关键词相对应的关键词分数的步骤,包括:
提供一个词库以规定一个词汇、与该词汇相对应的词性及与该词汇 相对应的词频;
提供一个词性得分表以规定每一个词性所相对应的分数;以及
根据该词库与该词性得分表以计算这些关键词所对应的关键词分 数。
5.如权利要求1所述的中文文件自动摘要方法,其中将该摘要搜寻 范围分成多个句子的步骤是根据分隔符来进行。
6.如权利要求1所述的中文文件自动摘要方法,其中依这些句子分 数排列这些句子作为摘要的优先级的步骤,包括:
由高至低排列这些句子分数;以及
依这些句子分数的排列顺序,依序取得相对应的任一这些句子,直 到符合一个预设停止条件为止。
7.如权利要求6所述的中文文件自动摘要方法,其中该预设停止条 件为特定字数。
8.如权利要求6所述的中文文件自动摘要方法,其中该预设停止条 件为特定句数。
9.如权利要求6所述的中文文件自动摘要方法,更包括:
以这些句子在该摘要搜寻范围的前后出现顺序作为摘要的输出顺 序。

说明书全文

技术领域

发明是有关于一种摘要方法,且特别是有关于一种中文文件自动 摘要方法。

背景技术

随着时代的进步,知识经济的时代也已经来临,在这知识爆炸的时 代中,如何从茫茫的知识中迅速搜寻取得对自己有用的信息则是刻不容 缓的课题。
于是我们将文章的内容写成摘要,提供使用者快速的了解文章的大 意。让使用者透过阅读摘要的方式,来决定是否阅读整篇文章,进而达 到节省时间以及迅速掌握文章内容的目的。
习知技术中,利用人工的方式来阅读每一篇文章来做成摘要,但是 此方法不但费时且费。另外一种方法则是使用微软的word软件,此软 件会选取文章中的第一句来当作摘要,但此方法并不是很准确。

发明内容

因此本发明的目的就是在提供一种中文文件自动摘要方法,其可将 任意一篇文章,取出若干句子作为此篇文章的摘要。
本发明提出一种中文文件自动摘要方法,此中文文件自动摘要方法 的步骤依序为:首先设定摘要搜寻范围,并将此摘要搜寻范围分成多个 句子;接着在此摘要搜寻范围找出多个关键词,并根据这些关键词的词 性分别给予任意一个关键词相对应的关键词分数;然后根据这些句子中 所包含的关键词所对应的关键词分数、句长及词频,决定每一句子所分 别对应的一个句子分数;最后依句子分数排列这些句子作为摘要的优先 级。
在本发明的一个较佳实施例中,依句子分数排列这些句子作为摘要 的优先级的步骤依序为:首先由高至低排列句子分数;最后依这些句子 分数的排列顺序,依序取得相对应的句子,直到符合预设停止条件为止。
在本发明的一个较佳实施例中,根据这些关键词的词性分别给予这 些关键词相对应的关键词分数的步骤依序为:首先提供词库,而此词库 则是用以规定词汇、与此词汇相对应的词性及词频;接着提供词性得分 表以规定每一个词性所相对应的分数;最后根据此词库与此词性得分表 以计算这些关键词所对应的关键词分数。
在本发明的一个较佳实施例中,根据这些句子中所包含的关键词所 对应的关键词分数、句长及词频,决定这些句子所分别对应的句子分数 的步骤依序为:首先以此句子中所包含的每一个关键词所对应的关键词 分数与词频的倒数相乘而分别得到一个相乘值;接着将此句子中包含的 所有关键词的相乘值相加,得到一个相加总和;然后以此句子的句长对 此相加总和做正规化操作;最后以正规化所得的结果为此句子分数。上 述关键词所对应的词频为介于0与1之间的实数,且词频越高的代表出 现频率也越高。
本发明借由设定关键词的得分,然后依据关键词所对应的关键词分 数、句长、及词频决定句子的分数,最后根据句子分数的高低顺序来达 到决定摘要的内容。
为让本发明的上述和其它目的、特征和优点能更明显易懂,下文特 举一个较佳实施例,并配合所附图式,作详细说明如下。

附图说明

图1绘示根据本发明一个较佳实施例的中文文件自动摘要方法的流 程图。
图2绘示根据本发明一个较佳实施例的中文文件自动摘要方法的决 定关键词分数的流程图
图3A绘示根据本发明一个较佳实施例的中文文件自动摘要方法的 词库。
图3B绘示根据本发明一个较佳实施例的中文文件自动摘要方法的 词性得分表。
图4绘示根据本发明一个较佳实施例的中文文件自动摘要方法的决 定句子分数的流程图。
符号说明
S102:设定摘要搜寻范围,并将此摘要搜寻范围分成多个句子;
S104:在摘要搜寻范围找出多个关键词;
S106:根据关键词的词性分别给予任意一个关键词相对应的关键词 分数;
S108:决定每一个句子所分别对应的句子分数;
S110:根据分数排列句子并作为摘要的优先级;
S202:提供词库以规定词汇、与此词汇相对应的词性及与此词汇相 对应的词频;
S204:提供词性得分表以规定每一个词性所相对应的分数;
S206:根据词库与词性得分表计算关键词所对应的关键词分数;
S402:以句子中所包含的每一个关键词分数语词频的倒数相乘而分 别得到相乘值;
S404:将句子中包含所有的关键词的相乘值相加,得到相加总和;
S406:以此句的句长对此相加总和做正规化操作;
S408:所得结果为此句子分数

具体实施方式

图1绘示根据本发明一个较佳实施例的中文文件自动摘要方法的流 程图。请参照图1,首先,设定摘要搜寻范围,并将此摘要搜寻范围分成 多个句子(如步骤S102)。必须注意的是,在一篇文章、电子邮件、或在 行动电话系统所使用的短词(包括多媒体短讯、MMS)中,通常会同时 包括有文字部分与其它的多媒体部分,在这种情况下,就需先取出在此 文件中的纯文字部分,并将所取出的纯文字部分的全部或其中某些部分 作为摘要搜寻范围。再者,熟习此技艺者可利用分隔符,如“,”、“。”、 “:”与“;”等符号而将搜寻部份分成多个句子。然此并非本发明的必要实 施方式,熟习此技艺者可视当下情况所需而选用适当的断句方式。接着, 在此摘要搜寻范围找出多个关键词(如步骤S104),随后,根据这些关键 词的词性分别给予任意一个关键词相对应的关键词分数(如步骤S106)。 然后,根据这些句子中所包含的关键词所对应的关键词分数、句长及词 频,决定每一个句子所分别对应的句子分数(如步骤S108)。最后,依照 这些句子分数排列这些句子作为摘要的优先级(如步骤S110)。
在目前,已经有多种可以执行如步骤S104所述『找出关键词』的操 作的技术文献存在,因此在此处并不多做叙述。然而,必须注意的是, 由于本发明的技术是根据各关键词所对应的关键词分数、句长及词频等 特征而对句子进行评分,因此前述的这些特征对于句子分数而言显然将 会造成极大的影响。但是,正如熟习此技艺者所知,事先定义好的关键 词分数、句长及词频等仅能针对已知或已条列出的词汇做最佳化的排序, 却不能针对新发生或未条列出的词汇而给予相应的关键词分数及词频。 因此,为了使本发明所带来的效果能更加突出,如何解决新词所带来的 问题显然是一个可以着重研究的问题点。
为了解决新词所带来的问题,一个方式是不断的更新用以定义或条 列关键词的词库。然而,此种方式必须耗费较多的人力及资源,而且并 没有办法完全解决新词出现的问题。在本发明的一个实施例中,用来解 决新词问题的方式是给予每一个新词一个相对应的预设关键词分数及词 频等特征参数。举例来说,基于新词一般可能是该篇文件的撰写者为了 表达其意念而新定义出,且对此篇文件而言应为最重要的词汇之一的假 设,在此实施例中是将新词的关键词分数设定为一般关键词所能取得的 最高分数的两倍,并将其词频设定为某一个固定的默认值。借由此种方 式,将可以使得本发明得以在不更新词库的情况下仍然具有相当的处理 弹性。
如熟习此技艺者可知,判断是否为新词的方式可以如上述般直接对 词库做比较,举凡是不在词库中的词汇就可判定为新词。在另一方面, 借由目前已经存在的新词学习方法,也可以达到相同的目的。再者,以 各种方式所取得的新词可以进一步依照各人喜好而加入词库之中,并给 予对应的分数与词频等特征参数。
图2绘示根据本发明一个较佳实施例的中文文件自动摘要方法的决 定关键词分数的流程图。请参照图2,在上述实施例中的步骤S106,根 据这些关键词的词性分别给予任一这些关键词相对应的关键词分数,其 中更详细的步骤如下。首先,提供词库,而此词库则是用以规定词汇、 与此词汇相对应的词性及与此词汇相对应的词频(如步骤S202)。接着, 提供词性得分表以规定每一个词性所相对应的分数(如步骤S204)。最后, 则是根据此词库与此词性得分表来计算这些关键词所对应的关键词分数 (如步骤S206)。
图3A绘示根据本发明一个较佳实施例的中文文件自动摘要方法的 词库。图3B绘示根据本发明一个较佳实施例的中文文件自动摘要方法的 词性得分表。请同时参照图3A以及图3B,在上述实施例中,例如在一 个目标文章中,找出关键词“我”总共出现5次,所以可以从词库中找出 此词汇“我”的词性为代名词,词频为0.9。接着参照词性得分表,则可以 对照出代名词所应得到的分数,在此实施例中,代名词可得到的分数为 36分,因此就以36分为关键词“我”所对应的关键词分数。上述关键词所 对应的词频为介于0与1之间的实数,且词频越高的代表出现频率也越 高。
然而,如熟习此技艺者所知,关键词分数不一定必须与此关键词所 对应的词性同分,而且词频也不一定仅能介于0与1之间。
图4绘示根据本发明一个较佳实施例的中文文件自动摘要方法的决 定句子分数的流程图。请参考图4,在上述实施例中,步骤S108中根据 这些句子中所包含的关键词所对应的关键词分数、句长及词频,决定每 一这些句子所分别对应的句子分数,其中更详细的步骤如下。首先,以 此句子中所包含的每一个关键词所对应的关键词分数与词频的倒数相乘 而分别得到一个相乘值(如步骤S402)。接着,将此句子中包含的所有关 键词的相乘值相加,得到一个相加总和(如步骤S404)。然后,以此句子 的句长对此相加总和做正规化操作(如步骤S406)。最后,则是以正规化 所得的结果为此句子分数(如步骤S408)。
在上述实施例中,例如词汇“我”的关键词分数为36分,接着将此关 键词“我”所对应的关键词分数36分与其词频的倒数相乘,而根据词库可 得知“我”的词频为0.9,所以将36分乘以0.9的倒数,进而得到40这个 相乘值。接着将此句子中所有关键词的相乘值相加,可以得到一个相加 总和。随后,根据句子的句长对此相加总和作正规化操作,也即将此句 子的句长的1n值开根号。最后正规化的结果便是此句子的分数。
如上所述,接着依照文章中句子分数的高低,由高至低排列,并依 照这些句子分数的排列顺序,依序取得相对应的任一这些句子,直到符 合一个预设停止条件为止,最后将依序所取得的句子,依照在文章中所 出现的前后出现顺序作为摘要的输出顺序。例如依照句子分数对应取得 分数高的前5句,但这前5句实际在摘要中出现的顺序,则是以在文章 中的前后出现顺序作为摘要的出现顺序。上述的预设停止条件可以为特 定字数或者是特定句数。
虽然本发明已经以一个较佳实施例披露如上,然其并非用以限定本 发明,任何熟习此技艺者,在不脱离本发明的精神和范围内,当可作些 少许的更动与润饰,因此本发明的保护范围当视上述的权利要求所界定 的范围为准。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈