首页 / 专利库 / 专利权 / 专利合作条约 / 第I章 / 国际申请 / 摘要 / 摘要提取方法以及摘要提取模块

摘要提取方法以及摘要提取模

阅读:664发布:2020-05-11

专利汇可以提供摘要提取方法以及摘要提取模专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种 摘要 提取方法,该方法包括:在文档中以设定步长滑动窗口的过程中,从文档中提取与当前窗口对应的当前窗口内容,根据关键词计算当前窗口内容的权重,并保存当前窗口内容及对应的权重;在滑动结束后,根据所保存的窗口内容及对应的权重,取出与较高权重对应的一个或多个窗口内容作为摘要。本发明还公开了一种摘要提取模 块 ,该模块包括存储单元、滑动单元、计算单元以及摘要形成单元。由于本发明在窗口滑动过程中根据关键词计算窗口内容的权重,最后取出与较高权重对应的一个或多个窗口内容作为摘要,从而取出能够最佳反应与关键词关系的摘要内容,将与用户输入的关键词最贴近的内容作为摘要提供给用户。,下面是摘要提取方法以及摘要提取模专利的具体信息内容。

1、一种摘要提取方法,其特征在于,该方法包括:
在文档中以设定步长滑动窗口的过程中,从文档中提取与当前窗口对应 的当前窗口内容,根据关键词计算当前窗口内容的权重,并保存当前窗口 内容及对应的权重;
在滑动结束后,根据所保存的窗口内容及对应的权重,取出与较高权重 对应的一个或多个窗口内容作为摘要。
2、根据权利要求1所述的方法,其特征在于,所述设定步长为文档内 容中的最小单位。
3、根据权利要求1所述的方法,其特征在于,在根据关键词计算当前 窗口内容的权重之前进一步包括判断当前窗口内容中是否包含关键词的步 骤,并在是的情况下计算当前窗口内容的权重。
4、根据权利要求1所述的方法,其特征在于,所述根据关键词计算当 前窗口内容的权重的步骤包括:对每个关键词的权重求和作为当前窗口内容 的权重。
5、根据权利要求4所述的方法,其特征在于,该方法进一步包括:
根据各关键词的重要性,为各关键词的权重分别乘以一个系数,其中所 述系数随重要性的增加而增大;和/或,
为当前窗口内容的权重乘以或加上一个系数,该系数在当前窗口内容中 关键词出现的次序与输入的关键词的次序越接近时和/或在当前窗口内容中 关键词之间的距离越短时越大。
6、根据权利要求1所述的方法,其特征在于,在保存当前窗口内容及 对应的权重之前进一步包括判断当前窗口内容的权重是否大于与当前窗口 重叠的窗口内容的权重,并在是的情况下保存当前窗口内容及对应的权重。
7、根据权利要求1所述的方法,其特征在于,所述取出与较高权重对 应的一个或多个窗口内容作为摘要的步骤包括:
根据权重对对应的窗口内容排序;
根据摘要的大小,按照权重从大到小的顺序取出一个或多个窗口内容作 为摘要。
8、一种摘要提取模,其特征在于,该摘要提取模块包括存储单元、 滑动单元、计算单元以及摘要形成单元,其中:
所述存储单元用于存储文档、窗口内容及对应的权重;
所述滑动单元用于在文档中以设定步长滑动窗口,并在滑动的过程中, 从文档中提取与当前窗口对应的当前窗口内容提供给计算单元;
所述计算单元用于根据关键词计算当前窗口内容的权重,并在存储单元 中保存当前窗口内容及对应的权重;
所述摘要形成单元用于在滑动结束后从所述存储单元取出与较高权重 对应的一个或多个窗口内容作为摘要。
9、根据权利要求8所述的摘要提取模块,其特征在于,该摘要提取模 块进一步包括:
设置单元,用于为滑动单元设置窗口大小和滑动步长;和/或,
排序模块,用于根据权重对存储单元中对应的窗口内容排序,以便所述 摘要生成单元顺序取出与较高权重对应的一个或多个窗口内容作为摘要。
10、根据权利要求8所述的摘要提取模块,其特征在于,所述计算单元 进一步用于判断当前窗口内容中是否包含关键词,并在是的情况下计算当前 窗口内容的权重;和/或,进一步用于判断当前窗口内容的权重是否大于与当前窗口重叠的窗口 内容的权重,并在是的情况下保存当前窗口内容及对应的权重。

说明书全文

技术领域

发明涉及根据关键词从文档中提取摘要的技术领域,特别是摘要提取 方法和摘要提取模

背景技术

搜索引擎是目前互联网上常见的一种工具。通常,搜索引擎利用爬虫从 网络上的站点或者本地计算机上获取数据,并形成多个文档。当用户使用搜 索引擎进行搜索时,搜索引擎根据用户提交的关键词匹配到一个或多个文 档。接着,搜索引擎中的摘要提取模块根据用户提交的关键词,从所匹配到 的文档中提取与关键词相关的内容作为摘要,该摘要应该能够最大限度地包 含与关键词相关的信息,然后搜索引擎通过页面将各个文档的摘要显示给用 户。
目前,摘要提取模块在文档中通过关键词进行位置匹配,然后将文档中 关键词周围的内容作为摘要。例如,当关键词为三个时,这些关键词在文档 中出现了10次、12次、18次,现有的摘要提取模块将这30处关键词中的 一部分关键词及其附近的内容作为摘要。
但是,当文档中有4个包括全部关键词的句子时,说明这4个句子与关 键词非常相关,但是上述现有技术并不能得知这一情况,从而提取出这4个 句子作为摘要的一部分。换言之,现有的摘要提取方法提取出的摘要与关键 词的关联程度较低,并不能将文档中与关键词高度相关的内容体现出来。

发明内容

有鉴于此,本发明提出了一种摘要提取方法,用以将与关键词高度匹配 的内容提取出来作为摘要。本发明还提出了一种摘要提取模块。
本发明提供了一种摘要提取方法,该方法包括:
在文档中以设定步长滑动窗口的过程中,从文档中提取与当前窗口对应 的当前窗口内容,根据关键词计算当前窗口内容的权重,并保存当前窗口内 容及对应的权重;
在滑动结束后,根据所保存的窗口内容及对应的权重,取出与较高权重 对应的一个或多个窗口内容作为摘要。
所述设定步长为文档内容中的最小单位。
在根据关键词计算当前窗口内容的权重之前进一步包括判断当前窗口 内容中是否包含关键词的步骤,并在是的情况下计算当前窗口内容的权重。
所述根据关键词计算当前窗口内容的权重的步骤包括:对每个关键词的 权重求和作为当前窗口内容的权重。
该方法进一步包括:根据各关键词的重要性,为各关键词的权重分别乘 以一个系数,其中所述系数随重要性的增加而增大;和/或,为当前窗口内 容的权重乘以或加上一个系数,该系数在当前窗口内容中关键词出现的次序 与输入的关键词的次序越接近时和/或在当前窗口内容中关键词之间的距离 越短时越大。
在保存当前窗口内容及对应的权重之前进一步包括判断当前窗口内容 的权重是否大于与当前窗口重叠的窗口内容的权重,并在是的情况下保存当 前窗口内容及对应的权重。
所述取出与较高权重对应的一个或多个窗口内容作为摘要的步骤包括: 根据权重对对应的窗口内容排序;根据摘要的大小,按照权重从大到小的顺 序取出一个或多个窗口内容作为摘要。
本发明还提供了一种摘要提取模块,该模块包括存储单元、滑动单元、 计算单元以及摘要形成单元,其中:
所述存储单元用于存储文档、窗口内容及对应的权重;
所述滑动单元用于在文档中以设定步长滑动窗口,并在滑动的过程中, 从文档中提取与当前窗口对应的当前窗口内容提供给计算单元;
所述计算单元用于根据关键词计算当前窗口内容的权重,并在存储单元 中保存当前窗口内容及对应的权重;
所述摘要形成单元用于在滑动结束后从所述存储单元取出与较高权重 对应的一个或多个窗口内容作为摘要。
该摘要提取模块进一步包括:设置单元,用于为滑动单元设置窗口大小 和滑动步长;和/或,排序模块,用于根据权重对存储单元中对应的窗口内 容排序,以便所述摘要生成单元顺序取出与较高权重对应的一个或多个窗口 内容作为摘要。
所述计算单元进一步用于判断当前窗口内容中是否包含关键词,并在是 的情况下计算当前窗口内容的权重;和/或,进一步用于判断当前窗口内容 的权重是否大于与当前窗口重叠的窗口内容的权重,并在是的情况下保存当 前窗口内容及对应的权重。
从上述方案中可以看出,由于本发明在窗口滑动过程中根据关键词计算 窗口内容的权重,最后取出与较高权重对应的一个或多个窗口内容作为摘 要,从而取出能够最佳反应与关键词关系的摘要内容,将与用户输入的关键 词最贴近的内容作为摘要提供给用户。
附图说明
图1为根据本发明实施例的摘要提取方法的流程示意图;
图2为根据本发明实施例的摘要提取系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,以下举实施例对本发明 进一步详细说明。
图1为根据本发明实施例的摘要提取方法的流程示意图。如图1所示, 本发明实施例的摘要提取方法包括以下步骤:
步骤101,预先设定窗口大小以及滑动步长。这里的窗口是指在文档中 提取内容的基本单元,通常包括多个字词。一般来说步长要小于等于窗口的 大小,否则就不能覆盖到文档的全部内容。
优选地,将步长设为文档中内容的最小单位,例如一个汉字、一个英文 单词、一个数字等。
步骤102,以设定的步长向前滑动窗口,并提取当前窗口所对应的内容。 在这里将窗口所对应的内容的称为窗口内容,将当前窗口所对应的内容称为 当前窗口内容。
步骤103,判断当前窗口中是否包含关键词,如果包含关键词,则执行 步骤104及其后续步骤;否则,执行步骤107及其后续步骤。
当然,也可以不进行步骤103的判断而直接执行步骤104及其后续步骤, 因为不包含关键词的情况下当前窗口的权重会被计算为零,从而不会被用作 摘要。
步骤104,根据关键词计算当前窗口内容的权重。
这里以关键词为多个的情况进行描述。当关键词为单个时,可以看成是 多个关键词的简化特例。
简单来说,窗口内容的权重等于对每个关键词的权重求和。简便起见, 以两个关键词为例进行描述。假设用户输入的关键词是“摘要提取”两个 词,那么,窗口内容的权重就等于“摘要”的权重加上“提取”的权重。而 每个关键词的权重与这个关键词在当前窗口内容中出现的次数相关,出现的 次数越多,关键词的权重越大。从上面的描述可以看出,窗口内容的权重与 其中出现的关键词的个数以及各个关键词出现的次数相关。当关键词为单个 时,只需要按照上述方法将关键词的权重作为当前窗口内容的权重即可,并 不涉及下面的内容。
进一步,由于每个关键词的重要性是不一样的,可以在求和之前为每个 关键词的权重乘以一个系数。例如,在文档中“摘要”出现了784次,而“提 取”出现了98次,在文档中出现次数多的关键词的重要性一般小于在文档 中出现次数少,所以在求和之前为“摘要”的权重乘以一个较小的系数,而 为“提取”的乘以一个较大的系数,从而区分出两者的重要性。
更进一步,在计算窗口内容的权重时,还可以根据窗口内容中多个关键 词的相关程度,对窗口内容的权重进行修正,例如加一个系数和/或乘以一 个系数。举例来说,当窗口内容中的“摘要”、“提取”出现的次序与用户 输入的顺序一致或者越接近时,加上一个较大的系数和/或乘以一个较大的 系数;当窗口内容中的“摘要”、“提取”出现的次序与用户输入的顺序不 一致或者越不接近时,加上一个较小的系数和/或乘以一个较小的系数;当 窗口内容中的“摘要”和“提取”的距离较短时,加上一个较大的系数和/ 或乘以一个较大的系数;当窗口内容中的“摘要”和“提取”的距离较大时, 加上一个较小的系数和/或乘以一个较小的系数。
步骤105,判断当前窗口内容的权重是否大于与当前窗口重叠的窗口内 容的权重,如果是,则执行步骤106及其后续步骤;否则,丢弃当前窗口内 容,然后执行步骤107及其后续步骤。
步骤106,保存当前窗口内容以及对应的权重。
另外,也可以不执行步骤105的判断,直接保存当前窗口内容以及对应 的权重。
步骤107,判断滑动是否结束,即是否达到文档末尾,如果是,则执行 步骤108及其后续步骤;如果不是,则执行步骤102及其后续步骤。
步骤108,对保存的窗口内容按照权重进行排序,不妨假设按照与其对 应的权重从大到小排列。
步骤109,根据摘要长度的要求,按照步骤108中的排序,从排列的窗 口内容中依照圈中从大到小的次序取出一个或多个窗口内容,从而形成摘 要。
另外,在本发明实施例的方法中,也可以不执行步骤108的排序,而是 在步骤109中,根据所保存的窗口内容及对应的权重,取出与较高权重对应 的一个或多个窗口内容作为摘要。
该流程至此结束。
图2是根据本发明实施例的摘要提取模块的结构示意图。参照图2,该 摘要提取装置包括存储单元、滑动单元、计算单元以及摘要形成单元。
其中,存储单元用于存储文档、窗口内容及对应的权重。
滑动单元用于在文档中以设定步长滑动窗口,并且在滑动的过程中,从 文档中提取与当前窗口对应的当前窗口内容,然后将当前窗口内容提供给计 算单元。
计算单元用于根据关键词计算当前窗口内容的权重,并在存储单元中保 存当前窗口内容及对应的权重。计算单元可以通过对每个关键词的权重求和 作为当前窗口内容的权重。进一步,计算单元还可以根据各关键词的重要性, 为各关键词的权重分别乘以一个系数,其中所述系数随重要性的增加而增 大。另外,计算单元还可以为当前窗口内容的权重乘以或加上一个系数,该 系数在当前窗口中关键词出现的次序与输入的关键词的次序越接近时和/或 在当前窗口中关键词之间的距离越短时越大。
另外,计算单元可以进一步在收到当前窗口内容并且未计算当前窗口的 权重时,判断当前窗口内容中是否包含关键词,并在是的情况下计算当前窗 口内容的权重,如果当前窗口内容中不包含关键词,则不计算当前窗口内容 的权重,从滑动单元接收并处理下一个当前窗口内容。
另外,计算单元可以进一步在保存当前窗口内容及对应的权重时,判断 当前窗口内容的权重是否大于与当前窗口重叠的窗口内容的权重,并在是的 情况下保存当前窗口内容及对应的权重,如果当前窗口内容的权重不大于与 当前窗口重叠的窗口内容的权重,则丢弃当前窗口内容。
摘要形成单元用于在滑动结束后从存储单元取出与较高权重对应的一 个或多个窗口内容作为摘要。
继续参照图2,本发明实施例的摘要提取模块还可以进一步包括设置单 元,该设置单元用于为滑动单元设置窗口大小和滑动步长。
本发明实施例的摘要提取模块还可以进一步包括排序单元,该排序单元 用于根据权重对存储单元中对应的窗口内容排序,以便摘要生成单元顺序取 出与较高权重对应的一个或多个窗口内容作为摘要。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本 发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在 本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈