首页 / 专利库 / 专利权 / 第I章 / 国际申请 / 摘要 / 摘要评估装置和方法

摘要评估装置和方法

阅读:211发布:2020-05-13

专利汇可以提供摘要评估装置和方法专利检索,专利查询,专利分析的服务。并且按照本 发明 的装置在解决方案数据存储单元中存储由文章段、文章段的 摘要 和对摘要的评估构成的例子。从所存储的例子中 抽取 解决方案和特征的集合的组,并用 机器学习 技术学习在哪种情况下哪种解决方案是最直截了当的,学习的结果被存储在学习结果数据存储单元中。然后,从输入的摘要中抽取特征的集,推断就所抽取的特征集合而言哪种解决方案是容易得到成功的,并将其作为评估输出。,下面是摘要评估装置和方法专利的具体信息内容。

1.一种采用计算机的摘要评估方法,包含以下步骤:
访问用于存储解决方案数据的解决方案数据存储装置,其中解决 方案数据由一个组构成,该组包括:由文章段及其摘要构成的一个问 题、以及由摘要的评估构成的一个解决方案;
从解决方案数据存储装置获得解决方案数据;
从解决方案数据的问题中抽取特征并建立解决方案和特征的集合 的组;
用有监督的机器学习方法,从解决方案和特征的集合的组中学习 在哪种特征时哪种解决方案是最容易的,并存储该学习的结果;
从输入的文本抽取特征的集合;和
根据学习的结果,推断对于从输入的文本中抽取的特征的集合, 哪种解决方案是最容易得到成功的。
2.按照权利要求1的摘要评估方法,其中,解决方案由两个类别 组成:机器处理的摘要、及人制作的摘要。
3.一种摘要评估装置,包含:
用于存储解决方案数据的解决方案数据存储装置,其中解决方案 数据由一个组构成,该组包括:由文章段及其摘要构成的一个问题、 以及由该摘要的评估构成的一个解决方案;
解决方案/特征对抽取装置,用于从解决方案数据存储装置获得解 决方案数据、从该解决方案数据的问题中抽取特征并建立解决方案和 特征的集合的组;
机器学习装置,用于用有监督的机器学习方法,从解决方案和特 征的集合的组中学习在哪种特征时哪种解决方案是最容易的,并存储 该学习的结果;
特征抽取装置,用于从输入的文本抽取特征的集合;和
评估推断装置,用于根据学习的结果,推断对于从输入的文本中 抽取的特征的集合,哪种解决方案是最客易得到成功的。
4.按照权利要求3的摘要评估装置,其中,解决方案由两个类别 组成:机器处理的摘要、及人制作的摘要。

说明书全文

发明领域

本发明涉及利用计算机评估文章段的摘要的技术。更具体来说, 本发明涉及利用有监督的机器学习方法自动地进行文章段的摘要的 评估处理的技术。

发明背景

近年来,利用计算机自动地概括文章段的处理,随着信息技术的 发展已经变得更加普遍。这意味着对用各种自动概括处理方法得到 的摘要的正确评估也已经变得越来越重要。
摘要处理主要可化分为两种类型:通过从目标文章段抽取重要句 子进行概括;和通过以目标文章段的内容为根据自由地生成句子进 行概括。在通过抽取重要句子进行概括的处理中,按照规定的概括 比率(rate)抽取目标文章段中出现的句子,以构成摘要。在通过 自由地生成句子进行概括的处理中,人根据目标文章段的内容自由 地生成句子。
作为评估通过抽取重要句子进行概括的一种方法,有可能通过利 用应当从文章某段中抽取哪些句子的信息的自动处理进行评估。例 如,将一个表示当到达某个程度时该句子就应当被抽取作为摘要的 重要度预先分配给文章段中的每个句子,然后通过把每个被抽取句 子的重要度相加来评估该摘要。
另一方面,自动评估自由构成的摘要是困难的。这是因为,可能 应当获得一个文章段的多个合适的摘要,因此为所有合适的摘要准 备正确信息是非常困难的。
于是,在有关技术中,就根据个人的知识和经验手工地进行对自 由构成的摘要的评估。在下面引用的文献1中所示的方法,就是在 相关技术中存在的一种自动评估摘要的方法。在引用文献1的处理 方法中,利用再调用比(recall ratio)、相关比(relevance ratio)、 基于计算机处理所抽取的句子与人事先选择的重要句子之间的一致 性的F值,进行摘要评估。
也可以通过利用字的频率向量(frequency vector of words) 确定自由生成的(freely made)摘要与人事先准备好的正确摘要之间 的相似度(degree of similarity)而认识自由生成的摘要的评估。 “引用文献1:Shu Nobata等,集成多个评估标准的重要句子抽取系 统,第七届语言处理学会年会论文集,pp301-304,2001。
在引用文献1中所示的评估自由制作的摘要的处理中,利用字频 率向量确定目标摘要与准备好的正确摘要之间的相似度。因此有这样 的趋势,即如果表示摘要的内容的关键字的分布类似于被认为是正确 的摘要的关键字的分布,则摘要的评估值变高。就是说,如果某摘要 包括某些在正确摘要中存在的字,该摘要将获得一个确定的好评估, 即使该摘要的形式作为一段文章来说是极其难读的。因此,这种摘要 获得好摘要的评估是有问题的。
在相关技术中,专家评估手工构成的摘要。然而毫无疑问,专家 的评估取决于评估者的经验和技巧。因此,有的时候,对同一个摘要 的评估可能因评估者的不同而不同,有的时候,即使在评估者相同时 也因评估的时间不同而有不同的评估。因此,如果像相关技术中那样, 根据专家的经验和技巧来评估手工构成的摘要,则不但没有摘要的评 估的可重复性,而且要做到公平地评估摘要也很困难。
需要不受评估者的主观影响并且可重复的客观评估的、对包括自 由构造的摘要在内的摘要的自动评估处理。
现在考察对由计算机自动生成的摘要的评估与由专家自由构成的 摘要的评估的比较。计算机生成的摘要在概括内容和句子流畅的适当 性方面的概括精确度一般比由人制作的摘要低。因此许多情况下,由 计算机生成的摘要,其逼真度达不到与人工摘要相同的程度。
假设“好摘要”具有这样的逼真度,该逼真度达到使得难以区分 该摘要与手工摘要的程度,这个“好摘要”使得由计算机生成的该摘 要的句子结构和摘要内容达到与由人工生成的摘要相似的程度。因此 应当明白,按“计算机摘要”和“手工摘要”划分类别可用作为摘要 的评估。

发明内容

因此本发明的目的是提供一种自动执行不仅评估通过抽取重要句 子作出的摘要而且也评估利用计算机自由地生成的摘要的处理的方 法。
本发明的另一个目的是提供一种实现这个处理方法的装置。
本发明的另一个目的是提供一种其中记录有用于在计算机上执行 这个自动摘要评估处理的程序的计算机可读的记录媒体。
本发明的另一个目的是提供一种把各种用于获得摘要的处理装置 分成类别(classification)并执行自动评估利用这些类别的装置获得 的摘要的处理方法,提供一种用于实现这个处理的装置和在计算机上 执行这个处理的程序。
因此,本发明提供的摘要评估方法包含下述步骤:访问用于存储 解决方案(solution)数据的解决方案数据存储装置,其中解决方案数 据由一个组构成,该组包括:由文章段及其摘要构成的一个问题、以 及由该摘要的评估构成的解决方案;从解决方案数据存储装置中获取 解决方案数据;从解决方案数据的问题中抽取特征并建立解决方案和 特征的集合的组;用有监督的机器学习方法,从解决方案和特征的集 合的组中学习在哪种特征时哪种解决方案是最容易的,并存储该学习 的结果;从输入的文本抽取特征的集合;和根据学习的结果,推断在 从特征抽取步骤中获得的特征而抽取了集合的情况下,哪种解决方案 是最容易得到成功的。
因此,本发明提供的摘要评估装置包含:用于存储解决方案数据 的解决方案数据存储装置,其中解决方案数据由一个组构成,该组包 括:由文章段及其摘要构成的一个问题、以及由该摘要的评估构成的 解决方案;解决方案/特征对抽取装置,用于获得解决方案数据、从解 决方案数据的问题中抽取特征并建立解决方案和特征的集合的组;机 器学习装置,用于用有监督的机器学习方法,从解决方案和特征的集 合的组中学习在哪种特征时哪种解决方案是最容易的,并存储该学习 的结果;特征抽取装置,用于从输入的文本抽取特征的集合;和评估 推断装置,用于根据学习的结果,推断在从特征抽取装置获得的特征 而抽取了的集合的情况下,哪种解决方案是最容易得到成功的。
本发明提供一种其中记录有使计算机执行这个摘要评估方法的各 步骤的摘要评估程序的计算机可读的记录媒体。
本发明中,事先准备大量的由例子构成的解决方案数据,各个例 子被分配由对每个由机器生成的摘要和每个由人建立的摘要的摘要评 估构成的解决方案。对于每个例子,抽取解决方案和特征的集合的组, 并用机器学习技术从所抽取的解决方案和特征的集合的组中学习在哪 种特征时哪种解决方案(摘要评估)是最容易获得成功的。之后,当构 成某主题的摘要被输入时,从所输入的摘要中抽取特征的集合,然后 通过参考机器学习的结果,通过推断就哪种特征的集合而言哪种解决 方案是容易得到成功的。
这样就有可能提供一种可重复的、无偏见的评估,而不受评估者 的经验和技巧的影响。
例如,表示摘要是用计算机生成的“机器摘要”和表示摘要是由 人制作的的“手工摘要”这两种类别可用作分配给解决方案数据的解 决方案。在这种情况下,在本发明中,要对输入的摘要是“机器摘要” 还是“手工摘要”作出判定。这两种类别可以利用处理计算机由机器 处理来作分配,以便从作为解决方案数据准备的摘要本身中自动地获 得。在通过机器处理分配类别时,在分配解决方案中所涉及的处理负 荷能得到减轻。在考虑解决方案数据的精确性时,用方案是由专家分 配的解决方案数据也是可能的。在这种情况下,也可能按照评估分配 三个或五个类别,以便执行多阶段评估,诸如三个阶段、五个阶段的 评估,等等。
在计算机上实现本发明的装置、功能或元件的程序,可以存储在 适当的计算机可读的记录媒体上,诸如便携式存储媒体、半导体存储 器或硬盘等中,可以通过在这种记录媒体上的记录而提供,或者通过 利用通过通信接口的通信网络的交换而提供。
附图说明
图1是表示本发明的装置的配置的例子的图;
图2是表示本发明的一个处理流程的图。

具体实施方式

以下是本发明的优选实施例的说明。图1是表示本发明的装置的 配置的例子的图示。自动摘要评估处理装置1包含一个解决方案数据 存储单元11,一个解决方案/特征对抽取单元12,一个机器学习单元 13,一个学习结果数据存储单元14,一个特征抽取单元15,一个评估 推断单元16。
解决方案数据存储单元11是用于存储构成用于机器学习过程中的 有监督的数据的数据(解决方案数据)的装置。由问题和解决方案的 集构成的例子作为解决方案数据被存储在解决方案数据存储单元11 中。问题包括概括之前的一个文章段和一个摘要本身。摘要既可以由 计算机制作,也可以由人制作。解决方案是对摘要的评估,有两个类 别:“由计算机产生的摘要(计算机摘要)”和“由人产生的摘要(手工 摘要)”。这两个类别可以根据一种用于生成摘要的处理技术自动地分 配,或者可以由人分配。使用“计算机摘要”和“手工摘要”这两种 类别作为解决方案的理由是,为了能根据生成摘要的处理装置机械地 分配类别。就是说,“计算机摘要”的解决方案(类别)被自动地分 配给计算机自动地生成的摘要。被分配以解决方案“手工摘要”的解 决方案数据,被用于由人制作的摘要。这就减轻了在分配解决方案中 所牵涉到的处理负荷。此外,在解决方案的准确性重要时,可以由专 家把解决方案分配给每个例子。
解决方案/特征对抽取单元12,是用于从存储在解决方案数据存储 单元11中的每个例子中抽取解决方案和特征的集的组的装置。可以抽 取一个特征,作为(1)指示句子是否流畅的信息,(2)指示内容是 否被适当表达的信息,(3)用于自动概括的特征信息,等等。
(1)作为指示句子流畅性的信息,可以抽取k语法形态序列(k- gram morph sequence)的出现的百分率或者以主体(corpus)的形式 实现的解决方案数据存储单元11中的修饰从句之间的语义一致的程 度。
(2)作为指示该文章段的内容是否被适当表达的信息,在作概括 之前该文章段中存在的关键短语(key-phrases)的包含率被抽取。
此外,(3)抽取句子的位置、关于句子是否是起始句子的信息、 TF/IDF(Term Frequency/Inversed Document Frequency-术语频率/ 逆文件频率)、句子长度、或者诸如特征表达/连接词/功能字之类的关 键表达的存在,作为用于自动概括的特征信息。
机器学习单元13是用于用有监督的机器学习方法从由解决方案/ 特征对抽取单元12抽取的解决方案和特征的集合的组中学习在哪种特 征时哪种解决方案是最直截了当的装置。这个学习的结果然后被存储 在学习结果数据存储单元14中。如果机器学习单元13用有监督的机 器学习方法学习,则可以用这种方法执行处理。这种技术例如可以是 判定树技术、支持向量技术、参数调整技术、简单贝叶斯(Baysian) 技术、最大熵(entropy)技术或判定表技术。
特征抽取单元15是用于从评估目标的摘要2中抽取一组特征并把 所抽取的该组特征传送给评估推断单元16的装置。
评估推断单元16是用于参考学习结果数据存储单元14的学习结 果数据并在特征集合被从特征抽取单元15传送过来时推断对其来说某 解决方案(评估)是最直截了当的结果、然后输出一个由该推断结果 构成的评估3的装置。
图2表示本发明的一个处理流程图。在自动摘要评估处理装置1 的解决方案数据存储单元11中存储着大量的例子作为解决方案数据, 其中将解决方案信息分配给多种语言的数据。例如,在下面的示例1 中表示了取作为输入的文本的一个例子。
示例1


首先,在解决方案/特征对抽取单元12,从解决方案数据存储单元 11为每个例子抽取一解决方案和特征的集的一组(步骤S1)。例如, 抽取以下作为特征:
特征e1:主体中k语法形态序列的出现;
特征e2:修饰从句之间的语义一致的程度;
特征e3:在概括之后具有大的TF/IDF值的“自然语言用词”的 包含率;
特征e4:对输入文章段的第一个句子是否在被使用的确定;
特征e5:输出摘要的长度;和
特征e6:确定在摘要被抽取的位置之前是否有连接词“tsumari(换 言之)”。
解决方案/特征对抽取单元12检查对于每个例子来说,是否在主 体中出现一个k语法形态序列,作为特征e1,如果存在,就抽取之。k 语法形态序列例如是一个三语法词素的“动词を(doushi-wo)<|>する (suru)(其中<|>表示一个分割)”,这是从“动词を(doushi-wo)<|> 省略(syouryaku)<|>する(suru)”中省略“省略(syouryaku)”得出 的。如果形态序列“动词を(doushi-wo)<|>する(suru)”不在主体 中出现,就推断是因为该表达作为句子看起来不流畅。k语法形态序列 在主体中的出现,可以被用作特征e1,以便确定摘要的流畅性。
解决方案/特征对抽取单元12通过检查例如是否在从“动词を (doushi-wo)<|>省略(syouryaku)<|>する(suru)”中省略“省略 (syouryaku)”得出的“动词を(doushi-wo)<|>する(suru)”的主 体中存在修饰“する(suru)”从句的从句“动词を(doushi-wo)”, 抽取修饰从句之间的一致程度作为特征e2。如果在“动词を (doushi-wo)”和“する(suru)”之间没有修饰(modification), 则可以推断该表达不是一个流畅的句子。
解决方案/特征对抽取单元12抽取例如一个关于是否在概括之前 的文章段中出现的关键短语(自然语言的短语的字)被包含在摘要中 的关键短语包含率,作为特征e3。如果这些短语被尽可能多地包含在 摘要中,则可以确定该摘要是个准确表达这个文章段(文本)的内容 的好摘要。
TF/IDF技术主要可以用于关键短语自动抽取处理。TF是一个表示 某字在某文章段中的出现次数或频率的值。IDF是已经具有的某字在其 中出现的一组大量的文件(documents)的文件数的倒数。通常,其TF 与IDF之和的值大的字适合作为关键短语。假设“自然言语(shizen gengo)(自然语言)”、“动词(doushi)(动词)”、“省略 (syouyaku)(omission)”、“复元(fukugen)(恢复)”、“表层 の表现(hyousou-no-hyougen)(表面情况表示)(surface case representation)”和“用例(yourei)(例子)”对应于图3中所示的 文章段中的短语。这些字在表达这个文本的内容时是重要字,因此希 望在摘要中出现这些字。
解决方案/特征对抽取单元12利用例如TF/IDF技术来抽取构成前 面所述的那种关键短语的字。它然后检查TF或IDF的值是否高,以及 这些字是否被包含在摘要中,然后抽取这些字的包含率,作为特征e3。
解决方案/特征对抽取单元12然后抽取对输入文本中的第一个句 子是否被使用的确定,作为特征e4。重要句子出现在一个文章段的开 头一般是非常普遍的。因此可以确定,如果采用靠近文件的开头的句 子作为摘要则能得到好的摘要。
解决方案/特征对抽取单元12也检查摘要的长度并抽取这个长 度,作为特征e5。摘要的目标一般是要短句子。因此可以确定,短摘 要是好摘要。
解决方案/特征对抽取单元12也抽取对是否在被作为摘要抽取的 位置之前有“つまり(tsumari)(换言之)”之类的连接词的确定,作为 特征e6。还存在着一些关键的表达,例如:连接词、功能字,它们指 示希望作为摘要来抽取的句子和位置。例如,当存在“tsumari”之类 的连接词时,在这个连接词“tsumari”的后面就存在概括这个文本的 内容的表达。这意味着,如果这部分被抽取,则可以确定是好摘要。
机器学习单元13然后用机器学习方法从由解决方案/特征对抽取 单元12抽取解决方案和特征的集的组学习在哪种特征时哪种解决方案 是最容易的(例如“机器摘要”、或“手工摘要”)(步骤S2)。机 器学习单元13例如采用简单贝叶斯方法、判定表技术、最大熵方法或 支持向量机器方法等等作为有监督的机器学习方法。
简单贝叶斯方法是根据贝叶斯定理推断每个类别的概率的方法, 该方法将概率值最高的类别作为要采用的类别。
判定表技术定义由特征和类别组成的各组,用于在一个有预定优 先级的表中存储。当要被提交作检查的输入然后被提供时,用该表从 最高优先级开始按顺序比较该输入数据和所定义的特征。如果特征匹 配,则所定义的类别被作为输入类别。
在最大熵方法中,当采用预定集合的特征fj(1≤j≤k)作为F 集合时,获得在满足规定约束条件的同时某个表达何时意味着熵最大 的概率分布,然后按照这个概率分布获得的每个类别的概率,获得概 率值较大的类别。
支持向量机器方法是一种将空间划分成超平面对两个类别中的数 据分类的方法。
判定表技术和最大熵方法在下文引用的参考文献2中有说明,支 持向量机器方法在下文引用的参考文献3和4中有说明。
“引用参考文献2:Society for language analysis in electronic information communication studies and communications(电子信息 通信研究和通信中的语言分析学会),NCL2001-2,(2001),Ambiguity resolution trials employing various machine learning techniques(采用各种机器学习方法的歧义解析试验)(村田真樹、内山 将夫、内元清貴、馬青、井佐原均、種の機械学習法を用いた多義解消実験、電子情報通 信学会言語理解とコミユニケ一シヨン研究会)”
“引用参考文献3:Nello Cristianini和John Shawe-Taylor: An Introduction to Support Vector Machines and other kernel-based learning methods(Cambridge University Press, 2000)(支持向量机和其它基于内核的学习方法的介绍,剑桥大学出版 社,2000年)”
“引用参考文献4:Taku Kudoh,Tinysvm:Support Vector Machines(支持向量机)(http://cl.aist-nara.ac.jp/taku- ku//software/TinySVM/index.html,2000)”。
之后,将希望评估的摘要2输入到特征抽取单元15(步骤S3)。
特征抽取单元15采用与解决方案/特征对抽取单元12的基本相同 的处理从输入的摘要2中抽取一组特征,并把这些特征传送给评估推 断单元16(步骤S4)。
评估推断单元16根据在学习结果数据存储单元14中的学习结果 收集在到传送过来的特征时推断哪种解决方案是最直截了当的,然后 输出该推断解即评估3(步骤S5)。例如,评估推断单元16如果推断, 作为根据从摘要2中抽取的特征集用机器学习技术执行处理的结果, 摘要2的解决方案是“手工摘要”,则可以输出一个“手工摘要”或 “好摘要”的评估3。评估推断单元16在推断出摘要2的解决方案是 “机器摘要”时,也可以输出一个“机器摘要”或“坏摘要”的评估3。
以上给出了本发明的实际实现的说明,但是在本发明的范围内可 以有各种修改。例如,在举例说明的本发明的一个实施例中,将“机 器摘要”和“手工摘要”这两个类别作为存储在解决方案数据存储单 元11中的解决方案数据,但是也可以采用三种或更多的类别作为解决 方案。
按照本发明,将原始文本和摘要作为问题,为摘要生成装置准备 大量的解决方案数据,作为“人工的”或“机器的”解决方案。然后 根据利用这个解决方案数据的机器学习得出的结果,对作为处理对象 的摘要推断出是“机器摘要”还是“手工摘要”的评估。因此,即使 处理的对象是自由建立的摘要,也有可能对这个评估进行自动处理。 因此即使对自由制作的摘要也能进行可重复的、无偏见的评估。
按照本发明,对于同一个摘要总是输出等同的评估。因此可以对 相同的摘要多次重复进行相同的评估处理,当把执行本发明的处理系 统调整得性能优异时,则能直截了当地获得关于这个处理系统的评 估。
按照本发明,有可能对相同的摘要重复相同的评估,能共享摘要 处理方法的评估。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈