首页 / 专利库 / 人工智能 / 词性标注 / 利用结构信息进行实体关系提取的方法和系统

利用结构信息进行实体关系提取的方法和系统

阅读:471发布:2021-08-14

专利汇可以提供利用结构信息进行实体关系提取的方法和系统专利检索,专利查询,专利分析的服务。并且本 发明 提供了利用结构信息进行实体关系提取的方法和系统。所述方法包括:获取文集,所述文集包括多个已标注了关系的句子;获取与所述文集中的句子结构相关的一组依存树模式;参考所述依存树模式提取所述文集中的每个句子的特征,所述特征包含该句子的结构特征;收集提取出的所述特征来训练关系标注模型;以及将所述关系标注模型应用到未经标注的句子以提取出关系实例。另外,本发明还提出了用于自动提取依存树模式的过程。与 现有技术 相比,本发明的关系提取系统和方法能够实现更好的性能。,下面是利用结构信息进行实体关系提取的方法和系统专利的具体信息内容。

1.一种用于关系提取的方法,包括:
获取文集,所述文集包括多个已标注了关系的句子;
获取与所述文集中的句子结构相关的一组依存树模式;
参考所述依存树模式提取所述文集中的每个句子的特征,所述特征包含该句子的结构特征;
收集提取出的所述特征来训练关系标注模型;以及
将所述关系标注模型应用到未经标注的句子以提取出关系实例。
2.如权利要求1所述的方法,还包括:
从所述文集中自动提取出所述依存树模式。
3.如权利要求2所述的方法,其中所述提取依存树模式的步骤包括:
解析所述文集中已标注了关系的每个句子以生成相应的依存树;
将生成的所述多个依存树聚类成不同群组,其中同一群组中的依存树在结构上相似;
提取出一个或多个闭合依存树模式,其中一依存树模式p被称为闭合依存树模式,如果不存在另一依存树模式p′,使得该依存树模式p′包含所述依存树模式p并与所述依存树模式p具有相同的支持度;以及
收集并存储提取出的所述闭合依存树模式。
4.如权利要求3所述的方法,其中同一群组中的依存树具有结构相同的最小嵌入子树模式(LEST),所述最小嵌入子树模式包含一对关系节点以及这对关系节点的所有交叉节点,所述一对关系节点之间具有已知关系。
5.如权利要求4所述的方法,其中所述提取出一个或多个闭合依存树模式的步骤包括:
(a)收集每个群组的所述LEST,作为种子模式的初始集合;
(b)向每个所述种子模式添加一个额外节点,以生成新的候选种子模式的集合;
(c)按如下方式对所述候选种子模式的集合进行调整:
如果一种子模式产生的所有候选种子模式的支持度都小于该种子模式的支持度,则将该种子模式作为闭合依存树模式输出,并且对于该种子模式所产生的每个候选种子模式:
若该候选种子模式的支持度小于一指定阈值,则删除该候选种子模式,
若该候选种子模式的支持度大于等于所述指定阈值,则保留该候选种子模式;否则
如果一候选种子模式的支持度等于生成该候选种子模式的种子模式的支持度,则保留该候选种子模式,并且对于该种子模式所产生的每个其它候选种子模式:
若该候选种子模式的支持度小于所述指定阈值,则删除该候选种子模式,
若该候选种子模式的支持度大于等于所述指定阈值,则保留该候选种子模式;以及
(d)以所保留的候选种子模式作为新的种子模式,重复上述步骤(b)和(c),直到种子模式的集合为空。
6.如权利要求5所述的方法,还包括:
将每个候选种子模式与除了生成该候选种子模式的种子模式之外的其他种子模式相比较,如果所述其他种子模式之一被所述候选种子模式所包含并且两者具有相同的支持度,则删除该其他种子模式以及由其所生成的所有候选种子模式。
7.如权利要求2所述的方法,其中所述提取特征的步骤包括:
提取每个句子的上下文特征;
提取每个句子的依存树特征;以及
存储所述上下文特征和所述依存树特征。
8.如权利要求7所述的方法,其中提取所述上下文特征的步骤包括:
利用词性标签标注所述文集中的每个句子;以及
通过分析标注了词性的句子来提取出该句子的上下文特征。
9.如权利要求7所述的方法,其中提取所述依存树特征的步骤包括:
解析所述文集中的每个句子,以得到相关的依存树;
获取已提取出的所有依存树模式;以及
通过比较所述相关依存树和所述依存树模式来构造针对该句子的依存树特征。
10.如权利要求9所述的方法,其中针对每个句子的所述依存树特征由一n×m矩阵构成,其中m是所述提取出的依存树模式的数目,n是该句子的相关依存树所包含的节点的数目,并且对于每种依存树模式,如果该句子的相关依存树满足该依存树模式,则在所述n×m矩阵中与该依存树模式相对应的列中,与该依存树模式的每个节点相对应的矩阵元素被设置为1,其它元素被设置为0。
11.一种用于关系提取的系统,包括:
文集获取装置,用于获取文集,所述文集包括多个已标注了关系的句子;
依存树模式获取装置,用于获取与所述文集中的句子结构相关的一组依存树模式;
特征提取装置,用于参考提取出的所述依存树模式提取所述文集中的每个句子的特征,所述特征包含该句子的结构特征;
关系标注模型训练装置,用于收集所述特征提取装置提取出的所述特征来训练关系标注模型;以及
模型应用装置,用于将所述关系标注模型应用到未经标注的句子以提取出关系实例。
12.如权利要求11所述的系统,还包括:
依存树模式提取装置,用于从所述文集中自动提取出所述依存树模式。
13.如权利要求12所述的系统,其中所述依存树模式提取装置包括:
解析单元,用于解析所述文集中已标注了关系的每个句子以生成相应的依存树;
聚类单元,用于将生成的所述多个依存树聚类成不同群组,其中同一群组中的依存树在结构上相似;以及
依存树模式提取单元,用于提取出一个或多个闭合依存树模式,其中一依存树模式p被称为闭合依存树模式,如果不存在另一依存树模式p′,使得该依存树模式p′包含所述依存树模式p并与所述依存树模式p具有相同的支持度。
14.如权利要求13所述的系统,其中同一群组中的依存树具有结构相同的最小嵌入子树模式(LEST),所述最小嵌入子树模式包含一对关系节点以及这对关系节点的所有交叉节点,所述一对关系节点之间具有已知关系。
15.如权利要求14所述的系统,其中所述依存树模式提取单元包括:
种子模式收集器,用于收集每个群组的所述LEST,作为种子模式的初始集合;
候选种子模式生成器,用于向每个所述种子模式添加一个额外节点,以生成新的候选种子模式的集合;以及
种子模式裁剪器,用于按如下方式对所述候选种子模式的集合进行调整:
如果一种子模式产生的所有候选种子模式的支持度都小于该种子模式的支持度,则将该种子模式作为闭合依存树模式输出到依存树模式存储器,并且对于该种子模式所产生的每个候选种子模式:
若该候选种子模式的支持度小于指定阈值,则删除该候选种子模式,
若该候选种子模式的支持度大于等于所述指定阈值,则保留该候选种子模式;否则
如果一候选种子模式的支持度等于生成该候选种子模式的种子模式的支持度,则保留该候选种子模式,并且对于该种子模式所产生的每个其它候选种子模式:
若该候选种子模式的支持度小于所述指定阈值,则删除该候选种子模式,
若该候选种子模式的支持度大于等于所述指定阈值,则保留该候选种子模式,并且
其中所述候选种子模式生成器和所述种子模式裁剪器以迭代方式工作,在每次迭代中所保留的候选种子模式作为新的种子模式集合被用于下次迭代,直到种子模式的集合为空。
16.如权利要求15所述的系统,其中所述种子模式裁剪器还被配置用于:
将每个候选种子模式与除了生成该候选种子模式的种子模式之外的其他种子模式相比较,如果所述其他种子模式之一被所述候选种子模式所包含并且两者具有相同的支持度,则删除该其他种子模式以及由其所生成的所有候选种子模式。
17.如权利要求12所述的系统,其中所述特征提取装置包括:
上下文特征提取单元,用于提取每个句子的上下文特征;
依存树特征提取单元,用于提取每个句子的依存树特征;以及
特征存储单元,用于存储所述上下文特征和所述依存树特征。
18.如权利要求17所述的系统,其中所述上下文特征提取单元包括:
词性标注单元,用于利用词性标签标注所述文集中的每个句子;以及
上下文特征提取器,用于分析标注了词性的句子以提取出该句子的上下文特征。
19.如权利要求17所述的系统,其中所述依存树特征提取单元包括:
解析单元,用于解析所述文集中的每个句子,以得到相关的依存树;以及
依存树特征提取器,用于通过比较所述相关依存树和所述已提取出的依存树模式来构造针对该句子的依存树特征。
20.如权利要求11所述的系统,其中所述模型应用装置包括:
句子输入单元,用于输入未经标注的句子;
解析单元,用于解析所述未经标注的句子,以得到与其相关的依存树;
依存树模式获取单元,用于获取已从所述文集提取出的依存树模式的集合;
特征提取单元,用于参考获取的所述依存树模式提取所述未经标注的句子的特征;
关系标注单元,用于对已经提取特征的句子标注关系参数;以及
关系实例提取单元,用于将所述关系标注模型应用到已标注了关系参数的句子,以提取出关系实例。

说明书全文

技术领域

发明一般地涉及自然语言处理,更具体而言,涉及利用结构信息进行实体关系提取的方法和系统

背景技术

随着数字信息量的持续增长及其可用性的不断增强,用户对于信息分析智能化的要求越来越高,而传统的信息检索技术已经变得难以满足这些需求。用户希望计算机系统能够在理解明文文本方面扮演更加重要的色。例如,用户需要能够自动提取出文本中的实体之间的关系的系统。
关系提取(Relation Extraction,RE)可被用于很多领域。例如,通过检测开放域文本并从中提取因果关系,可以有助于问答(Q-A)系统的开发。再比如,可以从生物医学文献中发现基因与疾病的关系以用于疾病险标记、诊断和预后,或者可以从在线社区站点提取出社交关系并据此在日后向用户提供更好的信息推荐。
基于关系知识的应用的性能极大依赖于用于关系提取的所选算法或方法的质量。最终用户可以极大地受益于高质量的关系实例。因此,为了实现高性能的应用,如何提高关系提取的精确性成为一个普遍问题。
同时,仅仅通过对文本(例如句子)应用句法分析,无法解决关系提取的问题,因为该问题的解决还依赖于找到某些语义信息。但是,现有技术中的语义分析方法的性能不够好,因此,如何最大限度地利用存在缺陷的语义技术也是一个极具挑战性的问题。
现有技术中已经开发出很多方法用于解决关系提取问题。但是这些现有方法在实际应用中的性能并不令人满意。基本的方案是从经标注的训练文集学习平面文本模式(例如正则表达式),并用提取出的模式来提取关系。正则表达式可以从标注了关系参数的句子学习得到。例如,在EugeneAgichtein和Luis Gravano.Snowball发表的文章“Extracting Relations fromLarge Plain-Text Collections”(见Proc.of the 5th ACM conference on Digitallibraries,2000)中提出一种用于提取“机构-地点”对的算法。该算法通过归纳关系参数的上下文来生成模式。然后,提取出的候选模式被自动评价,并只有那些具有高可信度的模式被保留下来,以用于寻找新的关系实例。新找到的关系实例将被用来提取更多的候选模式。通过迭代,该算法可以获得具有合理准确度的大量关系实例。该文章的内容通过引用被整体上结合于此以用于所有目的。
由于关系提取可以被视为一个顺序标注问题,因此现有的顺序标注方法(例如隐尔可夫模型(HMM)、最大熵(ME)和条件随机域(CRF))可以被用来解决关系提取问题。当前广泛使用的特征包括上下文词、上下文词的词性(part-of-speech,POS)标签、判断一对实体(在依存树中对应地标注为一对角色,也称为参数(argument))是否处于同一窗口中的窗口特征、从依存树(dependency tree)或句法解析树提取出的特征等等。例如,K.Nanda所发表的文章“Combining lexical,syntacticand semantic features with maximum entropy models for extracting relations”(见Proc.of the 42nd Anniversary Meeting of the Association forComputational Linguistics(ACL’04),2004)中就使用了从依存树或句法解析树提取出的特征。被采用的特征包括在解析树或依存树上从关系的第一参数到第二参数的路径、第一和第二参数在依存树上的父节点、上下文词及其POS标签等。该方法使用基于训练文集的最大熵(ME)来训练模型,并使用模型来提取新的关系实例。该文章的内容通过引用被整体上结合于此以用于所有目的。
另外,关系提取还可以被视为一个分类问题,因此另一种关系提取技术可以基于核方法(Kernel Method)。核方法是一种非参数密度估计技术,其计算数据实例之间的核函数,其中核函数可以被理解为一种相似性度量。相关的核函数可以针对语串(句子的单词包)或依存树(句子的结构信息)来定义。使用这种支持向量机(SVM)中的核,可以检测和提取出关系实例。Aron Culotta和Jeffrey Sorensen所发表的文章“DependencyTree Kernels for Relation Extraction”(见Proc.of the 42nd AnniversaryMeeting of the Association for Computational Linguistics(ACL’04),2004)中提出了针对依存树的核函数。相应的特征包括树节点的POS标签、依存类型、实体类型(例如“人”或“机构”)和角色(例如“参数ARG-A”和“参数ARG-B”)。该函数首先检查两个依存树的根是否相同。如果两个根不同,则两个依存树的相似性得分应该为0。否则,函数将计算子节点之间的相似性。最后,该核函数在SVM中被使用,以训练用于关系提取的分类器。该文章的内容通过引用被整体上结合于此以用于所有目的。
然而,上述现有方法在关系提取期间都忽略了语义信息,而仅仅关注浅层的句子结构信息,例如当前词所依赖于的单词的POS标签或者在依存树上从关系参数“ARG-A”到“ARG-B”的路径。但是,这些“父节点”或“路径”信息无法包含足够有用的语义信息来区分关系,因此现有的关系提取方案的性能较差。
实际上,关系可以利用依存树上具有完整语义含义的某一子结构来确定。这意味着通过检查句子的依存树上枝干就足以检测到关系。但是,当前已有的现有技术中尚未提出有效的方法可被用来找到这些关键子结构。

发明内容

鉴于上述问题,本发明致于提供一种更加精确且高效的实体关系提取方法和系统。具体而言,本发明的技术首先从包含实际关系实例的依存树提取出被称之为“依存树模式”的关键子结构。然后,提取出的依存树模式可被用于提高关系提取的精确度。
根据本发明第一方面,提供了一种用于关系提取的方法,包括:获取文集,所述文集包括多个已标注了关系的句子;获取与所述文集中的句子结构相关的一组依存树模式;参考所述依存树模式提取所述文集中的每个句子的特征,所述特征包含该句子的结构特征;收集提取出的所述特征来训练关系标注模型;以及将所述关系标注模型应用到未经标注的句子以提取出关系实例。
根据本发明第二方面,提供了一种用于关系提取的系统,包括:文集获取装置,用于获取文集,所述文集包括多个已标注了关系的句子;依存树模式获取装置,用于获取与所述文集中的句子结构相关的一组依存树模式;特征提取装置,用于参考提取出的所述依存树模式提取所述文集中的每个句子的特征,所述特征包含该句子的结构特征;关系标注模型训练装置,用于收集所述特征提取装置提取出的所述特征来训练关系标注模型;以及模型应用装置,用于将所述关系标注模型应用到未经标注的句子以提取出关系实例。
由此可见,本发明的系统可以被分成两个阶段:模型训练阶段和模型应用阶段。
在模型训练阶段期间,可以通过以下操作来获得高度精确的关系标注模型:
1.首先,为了模型训练,需要给出一已标注了关系的文集Cr;同时,还需要从该文集Cr预先准备好一组依存树模式,记作TPs。
2.然后,可以利用准备好的依存树模式提取出与文集Cr中的各个句子相应的所需特征,包括结构特征和传统特征(例如上下文特征)。
3.提取出的特征随后被收集,并被用于训练关系标注模型。关于关系标注模型的训练方法,可以使用传统的机器学习技术。
4.生成的关系标注模型被存储,以备后用。
在模型应用阶段,本发明的系统可以通过以下操作来有效地提取关系实例:
5.用户输入希望提取关系实例的未经标注的文本,文本以句子为单位。
6.对输入的句子进行解析以获得与之相关的依存树。
7.在模型训练阶段已经准备好的依存树模式的集合此时可被用于提取与该输入的句子相应的特征。
8.根据这些提取出的特征对输入的句子标注关系参数。
9.最后,将已经生成的关系标注模型应用到已标注了关系参数的句子,以提取出关系实例。
上述依存树模式的集合可以由用户预先创建,也可以从文集Cr中自动提取。在从文集Cr中自动提取依存树模式的情况下,本发明提出了的如下依存树模式提取方法:
1.将文集中已标注的每个句子解析成相应的依存树。依存树可以由系统自动创建,理想地,依存树也可以由用户手工创建。
2.将所有依存树聚类成不同群组,以使得同一群组中的依存树在结构上具有高度相似性。例如,在本发明的实施例中,可以基于最小嵌入子树模式(LEST)来定义依存树的相似性函数。对于两个依存树t1和t2,其相似性函数Sim(t1,t2)具有两个值,当依存树t1和t2具有相同的LEST时Sim(t1,t2)=1,而当依存树t1和t2具有不同的LEST时,Sim(t1,t2)=0。
3.使用子树挖掘算法提取出一个或多个闭合依存树模式。例如,可以按如下迭代方式提取:
3.1使用每个群组的LEST作为种子模式的初始集合Sp;
3.2向Sp中的种子模式添加一个额外节点以生成新的候选种子模式的集合;
3.3检查各个候选种子模式的支持度以删除掉无用的候选种子模式,这里的删除原则例如可以定义如下:
3.3.1如果一种子模式产生的所有候选种子模式的支持度都小于该种子模式的支持度,则将该种子模式作为闭合依存树模式输出,并且对于该种子模式所产生的每个候选种子模式:
若该候选种子模式的支持度小于一指定阈值,则删除该候选种子模式,
若该候选种子模式的支持度大于等于所述指定阈值,则保留该候选种子模式;否则
3.3.2如果一候选种子模式的支持度等于生成该候选种子模式的种子模式的支持度,则保留该候选种子模式,并且对于该种子模式的每个其它候选种子模式:
若该候选种子模式的支持度小于所述指定阈值,则删除该候选种子模式,
若该候选种子模式的支持度大于等于所述指定阈值,则保留该候选种子模式;
3.4使用保留的候选种子模式作为新的种子模式Sp重复上述步骤3.2和3.3,直到种子模式的集合为空为止。
利用本发明的系统和方法可以挖掘出有用的句子结构信息并将其用于关系提取。并且,与现有方法相比,本发明的关系提取系统和方法能够实现更好的性能。
具体而言,句子结构信息是对实际关系的很好指示。在某些句子中指示关系的词通常位于相关依存树上的固定位置上。即,在一组依存树中通常包含某些潜在的公共子树模式。这些子树模式可以很好地指示实际的实体关系。
另外,提取出的句子结构信息对于过滤虚假关系实例也是非常有用的。利用句子中的词之间的语法关系可以提取出结构信息(即,依存树模式)。这些依存树模式可以容易地将正确关系的结构与虚假关系的结构区分开来。例如,在句子“Tom,the brother of Kate,works in Microsoft now.”中,可能形成虚假关系<人-组织,Kate,Microsoft>。利用传统方法(例如正则表达式),该虚假关系很可能也会被识别出。然而,利用本发明的系统,这样的虚假关系可以被有效地过滤掉,因为“the brother of Kate”会被解析为节点“Tom”的子树。从结构角度讲,“Kate”和“Microsoft”之间很难生成关系实例。另一方面,如果传统的正则表达式没有被仔细地构建,则可能遗漏掉诸如<人-组织,Tom,Microsoft>之类的正确关系。但是,利用本发明的系统,这样的正确关系可以根据提取出的依存树模式来很容易地检测出。
还有,本发明采用了一种更有效的方法,用来集成句子结构特征和传统特征。由于句子结构可能非常复杂并且在解析句子期间可能发生某些差错,因此某些依存树模式可能包含噪声。因此,所提取的依存树模型不能直接地、独立地用来提取关系。本发明所提出的方法建立了若干二元特征,用来反映某一句子的依存树是否满足某一依存树模式。通过应用基于特征的机器学习算法(例如CRF、SVM等),这些特征与其他传统特征可以一起被用于训练关系标注模型。
附图说明
结合附图,从下面对本发明实施例的详细描述,将更好地理解本发明,附图中类似的参考标注指示类似的部分,其中:
图1A和图1B是用于协助描述本发明所使用的基本概念的示意图;
图2是示出根据本发明的实施例的关系提取系统200的内部结构的框图
图3是示出图2所示系统200的操作示例的流程图
图4是示出系统200所包含的特征提取装置的具体结构的框图;
图5是示出通过解析获得的与句子相关的依存树的示例的示意图;
图6是用于说明参考依存树模式进行特征提取的过程的示意图;
图7是示出系统200所包含的依存树模式提取装置的具体结构的框图;
图8是示出图7所包含的依存树模式提取单元的一个示例的具体结构的框图;
图9是示出根据本发明的实施例的依存树模式提取过程的流程图;以及
图10是用于说明依存树模式提取过程中进行的候选种子模式裁剪操作的一个示例的示意图。

具体实施方式

为了更好地描述本发明所提出的依存树模式的提取过程,下面首先对描述中将用到的一些基本概念作简要说明。
关系提取:关系提取是一种用于发现两个实体之间的关系的技术。例如,对于英文句子“Tom works for Microsoft in Seattle.”,关系提取可以检出如下两种关系:(1)关系1:<人-组织,Tom,Microsoft>;或(2)关系2:<组织-地点,Microsoft,Seattle>。
依存树:依存树是一种用于呈现句子成分之间的语法关系的表示方法。例如,以上述句子“Tom works for Microsoft in Seattle.”为例,其依存树的结构可以如图1A所示,其中还对句子成分的词性(POS)和内嵌的关系进行了标注。
交叉节点:在一依存树t上的两个节点n1和n2的交叉节点n被记作crs(n1,n2,t)=n,其被定义为路径n1→root(t)和路径n2→root(t)之间的第一个公共节点。例如,如图1B所示,在依存树T上,节点E和节点P的交叉节点是节点p,即crs(E,P,T)=P,而节点P和节点A的交叉节点是节点B,即crs(P,A,T)=B。
依存树模式:根据本发明,依存树模式被定义为依存树上的闭合子树,其保留所有交叉节点并暗示出一对实体之间的关系。
依存树模式的支持度(support):依存树模式p的支持度被记作supp(p),其可以被定义为包含该依存树模式p的依存树的总数目。如果依存树t包含依存树模式p,则可以说t满足p。
频繁依存树模式:如果一依存树模式的支持度大于一预定阈值“min_supp”,则可以说该依存树模式是频繁的,即称之为频繁依存树模式。
最大依存树模式:如果一依存树模式p是频繁的,并且不存在其他频繁模式p′,使得p′包含p,则称该依存树模式p为最大依存树模式。
闭合依存树模式:如果一依存树模式p是频繁的,并且不存在其他与p具有相同支持度的模式p′,使得p′包含p,则称该依存树模式p为闭合依存树模式。
最小嵌入子树模式(LEST):依存树t的LEST是一种包含关系的最小尺寸的依存树模式p,并且该模式p中的所有交叉节点都应该保留在LEST中。例如,对于模式p中的每对节点n1和n2,都应该满足crs(n1,n2,p)=crs(n1,n2,t)。参考图1B,对于左侧的依存树T,假设节点“P”代表人,节点“A”代表组织,则在节点“P”和“A”之间存在关系。因此,t的LEST可以如图1B中的(1)所示。然而,图1B中的(2)不能作为t的LEST,因为节点“G”和“A”之间的交叉节点为“D”而非“B”。
图2是示出根据本发明的实施例的关系提取系统200的内部结构的框图。如图2所示,系统200主要包括文集获取装置201、依存树模式获取装置202、特征提取装置203、关系标注模型训练装置204和模型应用装置205。可选地,系统200还包括依存树模式提取装置206,用于自动提取所需的依存树模式。如上所述,除了自动提取依存树模式之外,用户也可以预先以手工方式准备依存树模式,并将准备好的依存树模式存储到依存树模式存储器208中。本发明所提出的用于自动提取依存树模式的方法将在下文中详细描述。
如上所述,本发明的关系提取系统200主要包含两个阶段,即模型训练阶段和模型应用阶段,其中模型训练阶段主要由文集获取装置201、依存树模式获取装置202、特征提取装置203和关系标注模型训练装置204执行,而模型应用阶段则由模型应用装置205实现。
图3的流程图示出图2所示系统200的操作示例。该过程开始于步骤301,其中文集获取装置201从文集存储器207获取文集,该文集中例如包含有多个已标注了关系的句子。在步骤303中,依存树模式获取装置202从依存树模式存储器208获取预先准备好的依存树模式。在步骤303之前,可以包含可选步骤302(用虚线框示出),该步骤用于从获取文集自动提取所需的依存树模式。具体的依存树模式提取过程将在下文中进行描述。然后,在步骤304中,特征提取装置203可以参考已经获取的依存树模式来提取所获取的文集中的每个句子的特征,该特征可以包含句子的结构特征和传统特征。作为示例,结构特征可以是依存树特征,传统特征可以是上下文特征。在步骤305中,由特征提取装置203提取出的各个句子的特征被收集,并被提供到关系标注模型训练装置204。关系标注模型训练装置204可以使用标准的机器学习技术来训练关系标记模型。生成的关系标记模型可以被存储到关系标注模型存储器209中。随后,当有未经标注的句子输入时,在步骤306中,模型应用装置205可以获取预先存储在关系标注模型存储器209中的关系标记模型,并将其应用到未经标注的句子以提取出所需的关系实例。然后,过程300结束。
图2中还详细示出了模型应用装置205的内部结构。模型应用装置205例如可以包括句子输入单元2051、解析单元2052、依存树模式获取单元2053、特征提取单元2054、关系标注单元2055和关系实例提取单元2056。关于模型应用阶段的具体过程,在上文中已经有所描述。具体地讲,首先,用户通过句子输入单元2051输入希望提取关系实例的未经标注的句子。然后,解析单元2052对输入的句子进行解析以获得与之相关的依存树。依存树模式获取单元2053可以获取在模型训练阶段已经准备好的依存树模式的集合并将其提供到特征提取单元2054。特征提取单元2054随后可以参考依存树模式提取出与该输入的句子相应的特征。关系标注单元2055根据特征提取单元2054提取出的特征对输入的句子标注关系参数。随后,存储在关系标注模型存储器209中的、在模型训练阶段已经生成的关系标注模型被提供到关系实例提取单元2056。该关系实例提取单元2056将获取的关系标注模型应用到已标注了关系参数的句子,以提取出关系实例。由于模型应用过程并非本发明之创新点所在,因此不对其进行赘述。
下面将首先描述根据本发明的特征提取过程。图4是示出图2所示系统200所包含的特征提取装置203的具体结构的框图。
上面已经提到,本发明针对每个句子除了提取传统的上下文特征之外,还需要提取与依存树模式相关的依存树特征。如图4所示,特征提取装置203主要包含用于提取上下文特征的上下文特征提取单元401、用于提取依存树特征的依存树特征提取单元402以及存储特征的特征存储单元403。对于上下文特征以及依存树特征的提取方法,下文中将更详细地举例说明。需要明确的是,虽然下文中将给出上下文特征以及依存树特征的具体提取方法,但是本发明并不局限于所描述的实施例。本领域技术人员已知的以及根据本发明的描述可以设想的各种其他特征提取方法都应被包含在本发明的范围之内。
如图4所示,在该示例中,上下文特征提取单元401例如包含词性标注单元4011和上下文特征提取器4012,而存储器4013主要用于存储词性标注单元4011所产生的中间结果,即已经过词性(POS)标注的句子。上下文特征提取器4012可以通过分析经POS标注的句子来提取出传统的上下文特征。这部分属于本领域公知技术,因此在此不作赘述。
依存树特征提取单元402可以包含解析单元4021、依存树特征提取器4022和用于存储解析单元4021的处理结果的存储器4023。解析单元4021首先对所获取的文集中的句子进行解析,以生成相关的依存树。所生成的相关依存树随后被存储到存储器4023中。在本发明中,解析单元4021除了生成各个句子的相关依存树之外,还可以对依存树上的所有节点进行归纳并添加各个节点的词性(POS)标签。在本发明中之所以使用句子中单词的词性而非单词本身是因为单词本身过于特殊而无法从中找到依存树之间的公共模式。可选地,用户还可以向依存树上的节点添加其他属性(例如对其父节点的依存类型)及其在暗示关系实例方面所扮演的角色(例如“参数ARG-1”、“参数ARG-2”或“关键子”)。
例如,图5示出通过解析获得的与句子相关的两个依存树的示例。在该示例中,假设文集包含两个经标注的句子:句子(1)“Tom works forMicrosoft in Seattle.”和句子(2)“Kate,once a leader of ACB,now worksin her sister’s company BCA.”,其中句子(1)具有关系<人-组织,Tom,Microsoft>,句子(2)具有关系<人-组织,Kate,BCA>。通过解析句子(1)和(2),解析单元4021可以得到与句子(1)和(2)相关的依存树,如图5所示。在图5的示例中,还对依存树上的所有节点标注了词性以及在暗示关系实例方面所扮演的角色,其中“per”和“aff”分别是“人”和“组织”的简写。并且在图5中用灰色框指示“人-组织”关系的两个参数。
经过上述处理的依存树可以被存储到存储器4023中。随后,依存树特征提取器4022可以参考依存树模式获取装置202所获取的依存树模式,来根据每个句子的相关依存树提取出该句子的依存树特征。
图6示出根据本发明参考依存树模式进行特征提取的过程的一个示例。假设依存树特征提取器4022获取的依存树模式如图6左侧示例所示。图6右侧分别示出了对于上述句子(1)和句子(2)的特征提取结果,其中特征在第1-4列对应于传统的上下文特征,而虚线框中示出的m列对应于依存树特征,其中m表示获取的依存树模式的数目。由于在图6的示例中只给出了一个依存树模式,因此虚线框中的m列只示出了与之相对应的第一列。
图6所给出的示例中的特征被定义如下:
(1)第1列:当前单词的词性标签;
(2)第2列:该单词是否表示人?(是为1,否为0);
(3)第3列:该单词是否表示组织?(是为1,否为0);
(4)第4列:在当前单词的前后4个单词的范围内是否存在一个人?(是为1,否为0);
(5)虚线框(依存树特征):该单词是否可以对应到依存树模式上的节点?(是为1,否为0)。
上述特征仅仅作为示例,用户可以根据实际需求定义不同的特征。
返回图2,在提取出特征之后,关系标注模型训练装置204收集提取出的特征,并使用任意机器学习技术来利用提取出的特征训练关系标注模型。这里,我们采用CRF作为示例来简要说明如何使用收集的特征。
对于CRF训练过程,其关键部分在于特征的选择。在进行关系标注的实际应用中,如同搜索引擎系统一样,精确度往往比召回率(recall)更重要。系统不需要返回所有相关的信息,而只需要向用户提供最重要的信息。因此,用户可以选择具有高精确度的依存树模式来用于提取新关系。如果用户希望获得高召回率或F度量(F-measure),则可以使用依存树模式作为二元特征来构造CRF模型。具体而言,如果一句子s满足模式p,则二元特征f(p,s)=1,否则为0。因此,该特征可以被描述为“该句子的依存树是否满足模式p?”。例如,在图6所示的示例中示出了这一思想的具体示例。然后,利用经过处理的数据,CRF可以学习模型并将模型用于提取新关系。
下面将参考7-10来详细描述本发明的另一重要方面,即依存树模式的自动提取过程。值得注意的是,下文所给出的实施例仅仅是作为依存树模式提取过程的一个示例,本发明的范围不应局限于此。依存树模式可以由用户预先手工准备,或者以其他本领域技术人员已知的方式提前获得。但是,在手工创建依存树模式的情况下,用户需要复查大量依存树,并将这些依存树缩减成若干依存树模式。这是一项非常耗时的工作。相反,利用本发明则可以消除上述问题,因为依存树模式能够被自动提取。
图7是示出图2所示系统200所包含的依存树模式提取装置206的具体结构的框图。如图7所示,依存树模式提取装置206可以包含解析单元701、聚类单元702、依存树模式提取单元703、依存树存储器704以及聚类存储器705。首先,解析单元701对来自文集存储器207的文集中已标注了关系的每个句子进行解析,以生成相应的依存树。聚类单元702可以将解析单元701生成的与各个句子相关的依存树聚类成不同群组,其中同一群组中的依存树在结构上相似。聚类结果随后可以被存储到聚类存储器705中。然后,依存树模式提取单元703可以应用子树挖掘算法挖掘每个依存树群组中的子树,然后拾取满足依存树模式要求的子树作为输出。
传统的子树挖掘算法试图提取出所有可能的子树。但是,由于组合爆炸问题,子树的数目将随子树模式的尺寸呈指数增长。因此,如果最小支持度“min_supp”被设置为一个小值,则将存在大量模式。这将可能导致挖掘过程的失败。为了解决这个问题,本发明首先对依存树进行聚类,将结构上类似的依存树组成群组,然后再从每个群组进行模式提取。
作为示例,本发明可以基于依存树的LEST来定义依存树的相似性函数。对于两个依存树t1和t2,其相似性函数Sim(t1,t2)具有两个值,当依存树t1和t2具有相同的LEST时Sim(t1,t2)=1,而当依存树t1和t2具有不同的LEST时,Sim(t1,t2)=0。具有相同LEST的依存树被聚类到同一群组中。这种定义的优点在于用户不需要为了依存树聚类而预先定义群组的数目或相似性阈值。而且,利用该定义,聚类算法的时间复杂度为O(N)。算法仅需要对依存树数据库扫描一次。当新的依存树t(具有LEST(t))到来时,用户仅需要将LEST(t)与每个当前群组的LEST相比较。如果找到其LEST等于LEST(t)的群组,则将t添加到该群组。否则,为t创建一个新的群组。为了进一步提高找到与t具有相同LEST的群组的效率,用户可以使用对LEST的后序遍历以及先序遍历所产生的字符串序列的组合来表示LEST,通常地,后序和先序遍历的序列对一起可以确定一棵树。然后再使用哈希表来索引每个LEST对应的这个字符串序列以提高比较效率。在将依存树聚类成不同群组之后,可以对每个群组执行子树挖掘算法来提取依存树模式。
在本发明的实施例中,依存树模式提取单元703可以根据各个群组所包含的依存树在结构上的相似性,提取出一个或多个闭合依存树模式,作为输出。关于闭合依存树模式的定义,前文已经有所介绍。即,对于一依存树模式p,如果不存在另一依存树模式p′,使得该依存树模式p′包含所述依存树模式p并与所述依存树模式p具有相同的支持度,则该依存树模式p被称为闭合依存树模式。由依存树模式提取单元703提取出的所有闭合依存树模式可以作为最终需要的依存树模式被存储到依存树模式存储器208中,以用于随后的特征提取以及关系标注模型的训练。
关于闭合依存树模式的提取,本发明提出一种迭代方法。图8是示出图7所包含的依存树模式提取单元603以迭代方式工作时的内部结构示例。在此情况下,依存树模式提取单元603包含种子模式收集器801、候选种子模式生成器802和种子模式裁剪器803。种子模式收集器801首先收集每个群组的LEST,作为种子模式的初始集合。然后,在每次迭代中,候选种子模式生成器802向每个种子模式添加一个额外节点,以生成新的候选种子模式的集合。种子模式裁剪器803根据预定标准对候选种子模式的集合进行调整,从中删除掉一些无用的候选种子模式。然后,所剩余的候选种子模式作为新的种子模式被再次提供到候选种子模式生成器802,以用于下次迭代。该过程被不断重复,直到种子模式的集合为空为止。
上面已经提到,在本发明的实施例中,依存树模式提取单元703试图提取出闭合依存树模式,作为最终特征提取的参考。图9示出依存树模式提取过程的一个示例,其中同样采取迭代的方式对种子模式集合进行逐轮调整。
如图9所示,该过程开始于步骤901,其中解析单元701解析所获取的文集中的每个句子,以生成相关的依存树。在步骤902中,聚类单元702例如根据LEST对依存树聚类以生成不同群组。在步骤903中,各个群组的LEST被种子模式收集器801所收集,作为种子模式的初始集合。然后,在步骤904中,候选种子模式生成器802向每个种子模式p添加一个额外节点,以生成新的候选种子模式的集合{p1,p2,...pn}。随后,种子模式裁剪器803在步骤905-915中对种子模式的集合进行调整。具体而言,在步骤905中,判断由种子模式p生成的所有候选种子模式{p1,p2,...pn}的支持度是否都小于种子模式p的支持度。如果是,则在步骤906中将种子模式p作为闭合依存树模式输出。对于种子模式p所生成的每个候选种子模式p1,p2,...pn,继续在步骤907中判断该候选种子模式是否是频繁的,即支持度S(pi)(i=1,2,...n)是否小于一预定阈值Th。如果有一候选种子模式pi的支持度小于种子模式p的支持度,则说明该候选种子模式是不频繁的,则将其从候选种子模式的集合中删除(步骤909)。否则,则保留该候选种子模式pi(步骤908)。在步骤905处,如果确定不是所有由种子模式p生成的候选种子模式{p1,p2,...pn}的支持度都小于种子模式p的支持度,则过程继续到步骤910。在步骤910中,判断是否有一候选种子模式pm,使得该候选种子模式pm的支持度与生成它的种子模式p的支持度相等。如果是,则保留该候选种子模式pm(步骤911)。如果不是,则判断该候选种子模式pm是否是频繁的。即该候选种子模式pm的支持度是否小于预定阈值Th(步骤912)。如果是,则在步骤913中将该候选种子模式pm从候选种子模式的集合中删除。如果否,则保留该候选种子模式pm(步骤914)。然后,在步骤915中,所有在这次迭代中被保留的候选种子模式被收集,作为新的种子模式的集合,被用于下次迭代。在步骤916中判断此次迭代之后种子模式的集合是否已经为空。如果否,过程返回步骤904并重复步骤904-915的处理。如果种子模式的集合已经为空,则过程结束。
为了进一步提高闭合依存树模式的提取效率,上述裁剪过程还可以包括如下处理:在每次迭代中,除了将每个候选种子模式pi与生成它的种子模式p相比较之外,还可以将该候选种子模式pi与除了生成它的种子模式p之外的其他种子模式相比较,如果在其他种子模式中有一个种子模式k被所述候选种子模式pi所包含并且两者具有相同的支持度,则删除该其他种子模式k以及由其所生成的所有候选种子模式{k1,k2,...kn}。例如,图10示出了该裁剪过程的一个示例。
在图10中,假设在某次迭代中种子模式集合包含两种种子模式(1)和(2)。在添加了节点之后,种子模式(1)获得两种候选种子模式(11)和(12),而种子模式(2)获得候选种子模式(21)。由此种子模式(1)的所有节点均已被种子模式(2)所生成的候选种子模式(21)所包含,因此根据上述算法,种子模式(1)及其所有候选种子模式(11)和(12)都将被从种子模式的集合中删除。这样做可以提高提取闭合依存树模式的效率,并且不会丢掉任何闭合依存树模式。下面将具体证明这一点。
假设在第N此迭代中存在m个大小为N的种子模式,每个种子模式随后被扩展到大小N+1。再假设种子模式p(i,N)可以生成新的候选种子模式p(i,j,N+1)。然后,检查所有p(i,j,N+1)和p(k,N),i<>k。如果p(k,N)被p(i,j,N+1)包含并且supp(p(k,N))=supp(p(i,j,N+1)),则删除p(k,N)和由其生成的所有候选种子模式p(k,l,N+1)。现在,需要证明这样做不会丢掉任意一个闭合模式。为了证明这一点,则需要证明“如果存在一闭合模式p,该闭合模式p由p(k,N)直接或间接生成,则该闭合模式p将必然被另一模式p′所包含,并且该模式p′可以从p(i,j,N+1)生成”。
证明:首先,我们使用ext(p,p′)表示从p得到p′的扩展。然后,由于p(k,N)被p(i,j,N+1)所包含,因此必然存在扩展ext(p(k,N),p(i,j,N+1))。这里需要考虑两种情况:(1)如果p已经执行了扩展ext(p(k,N),p(i,j,N+1)),则p必然包含p(i,j,N+1),则其一定能够从p(i,j,N+1)生成;否则(2)如果p无法包含p(i,j,N+1),则可以对p执行扩展ext(p(k,N),p(i,j,N+1))以得到p′,其必然满足supp(p)=supp(p′),从而p′必然包含p(k,N)和p(i,j,N+1)。
经过以上证明,可以看出,由图10所例示出的裁剪过程不会漏掉任何闭合依存树模式。
以上参考附图详细描述了根据本发明的实体关系提取系统和方法以及其中所利用的依存树模式提取过程。如前面所提到的,与现有方法相比,本发明的关系提取系统和方法能够实现更好的性能。
具体而言,句子结构信息是对实际关系的很好指示。在某些句子中指示关系的词通常位于相关依存树上的固定位置上。即,在一组依存树中通常包含某些潜在的公共子树模式。这些子树模式可以很好地指示实际的实体关系。
另外,提取出的句子结构信息对于过滤虚假关系实例也是非常有用的。利用句子中的词之间的语法关系可以提取出结构信息(即,依存树模式)。这些依存树模式可以容易地将正确关系的结构与虚假关系的结构区分开来。
上面虽然已经描述了根据本发明的具体实施例,但是,本发明并不限于图中示出的特定配置和处理。另外,为了简明起见,这里省略对已知方法技术的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神之后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
本发明的元素可以实现为硬件软件固件或者它们的组合,并且可以用在它们的系统、子系统、部件或者子部件中。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
本发明可以以其他的具体形式实现,而不脱离其精神和本质特征。例如,特定实施例中所描述的算法可以被修改,而系统体系结构并不脱离本发明的基本精神。因此,当前的实施例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非上述描述定义,并且,落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈