首页 / 专利库 / 人工智能 / 人工智能 / 机器学习 / 人工神经网络 / 前馈神经网络 / 多层感知器 / 基于知识增强的注意力神经网络的隐式篇章关系识别方法

基于知识增强的注意神经网络的隐式篇章关系识别方法

阅读:604发布:2020-05-17

专利汇可以提供基于知识增强的注意神经网络的隐式篇章关系识别方法专利检索,专利查询,专利分析的服务。并且本 发明 公开一种基于知识增强的注意 力 神经网络的隐式篇章关系识别方法,包括如下步骤:1)构建基本论元表示层;2)构建外部知识表示层;3)构建知识增强的论元间交互注意力机制,目的是将外部知识作为关系向量与带有论元交互信息的矩阵相融合;4)知识增强的组合表示模 块 建模,将外部知识的注意力机制作用于 基础 论元表示上,从而获取具有外部知识指导且具有重要信息的论元表示,同时包含整个论元对的上下文信息;5)构建篇章关系识别模块,利用所得的带有外部知识信息的论元表示进行关系识别。该方法通过外部知识与内在关系识别特征相结合的方式,得到的隐式篇章关系识别结果相比于现有模型在相关评价指标上取得了更好的表现。,下面是基于知识增强的注意神经网络的隐式篇章关系识别方法专利的具体信息内容。

1.基于知识增强的注意神经网络的隐式篇章关系识别方法,其特征在于,包括以下步骤:
(1)构建基本论元表示层;首先根据索引进行查表操作实现单词嵌入;然后将篇章论元中原始单词表示转换为低维分布式表示;继而利用神经网络对所有篇章论元进行编码,最终获得基本的篇章论元表示;
(2)构建外部知识表示层;通过Translating Embedding(TransE)实现篇章论元对中所有实体和实体关系的低维向量表示,其中,实体表示中蕴含了相应的实体关系信息,将实体表示作为隐式篇章关系识别的外部知识引入;整个过程包括两个部分:1)外部知识的检索,利用外部知识得到实体关系向量表示;2)构建篇章论元对中所有实体的关系矩阵;
(3)构建知识增强的论元间交互注意力机制;利用互注意力机制捕获带有重要信息的论元对间的交互信息,其中,引用注意力机制的神经网络能够动态学习到可体现篇章论元对交互信息的注意力矩阵;然后将步骤(2)中获得的实体关系矩阵作为外部知识投影到注意力矩阵上,即可获得使用外部知识增强基本论元对表示的注意力矩阵;
(4)构建知识增强的组合表示模;将步骤(3)中获得的知识增强注意力矩阵作用在基础论元表示上,即可获取带有外部知识信息的论元表示,同时包含整个论元对的上下文信息;
(5)构建篇章关系识别模块,利用步骤(4)中获取到的带有外部知识信息的论元表示进行关系识别,从而得到篇章关系。
2.根据权利要求1所述基于知识增强的注意力神经网络的隐式篇章关系识别方法,其特征在于,步骤(1)具体包括:
对于篇章论元的原始表示,首先通过嵌入向量函数查找出词汇表中的每个词w相应的向量表示 其中d表示嵌入向量的维度;由于每个论元被看作是一个词向量的序列,因此在篇章关系中,论元被表示为:
其中Arg1和Arg2分别包含n1,n2个单词;为了在上下文中表示论元,使用了双向长短时记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)捕获在序列中每个位置t处的上下文相关的隐藏状态,公式如下:
ht=BiLSTM(wt,ht-1)    (1)
在公式(1)中, 分别是前向网络层和后向的隐藏层状态,它们分别保
存了历史和未来的信息,引入了单词的上下文信息,使单词表示更为符合语义表征;因此,Arg1中的第i个单词和Arg2中的第j个单词的隐藏层状态分别编码为 和
其中 wt表示t时刻的单词表示;ht-1表示t-1时刻的隐藏层状
态。
3.根据权利要求1所述基于知识增强的注意力神经网络的隐式篇章关系识别方法,其特征在于,步骤(2)具体包括:
构建外部知识表示层的目的是将带有关系信息的实体嵌入表示作为隐式篇章关系识别的外部知识引入;主要包括两部分:外部知识的检索和外部知识表示作为关系嵌入向量;
外部知识的检索:利用WordNet作为外部知识库,将知识表示为一个三元组fi=(subject,relation,object),其中subject和object分别是主体和客体,realation表示关系;对于每个实例(Arg1,Arg2),首先分别从Arg1和Arg2中抽取所有的实体E1,E2,即实体集合);然后将 组合成实体对,最后通过从WordNet中查找出的实体对来检索实体对拥有的相关知识;
外部知识表示作为关系嵌入向量:检索到的知识由两个实体及其关系组成,关系被表示为从预训练的嵌入向量集中所获取的向量 如果关系是词组形式,利用所有词的平均值作为关系的嵌入向量;如果第i个实体对有多个关系,则最终的关系嵌入向量由所有的关系嵌入向量经过加权求和计算得到,如公式(2)所示:
其中rk代表第k个关系向量,μk表示第k个关系向量的权重,m表示一个实体对中包含的关系数量,其可通过公式(3)计算得到:
公式(3)中,m表示一个实体对中包含的关系数量;rj表示m个关系向量中的第j个关系向量;从外部知识获取到实体关系后,会建立一个知识关系矩阵 其元素由指示函数 填充;
其中,eij表示实体对(e1i,e2j),然后得到相关的知识注意力矩阵K'=f(K),函数f是非线性函数,如relu或tanh。
4.根据权利要求1所述基于知识增强的注意力神经网络的隐式篇章关系识别方法,其特征在于,步骤(3)具体包括:
首先利用互注意力机制捕获带有重要信息的论元对间的交互信息,然后通过外部知识表示来扩充论元对间交互信息而得到知识增强的关系矩阵;主要包括两部分:互注意力机制,知识增强注意力机制;
互注意力机制:在获得由BiLSTM产生的两个论元的隐藏层状态向量表示后,得到隐藏层状态向量表示矩阵 和 然后根据公式(5)计算得到互注意力矩阵
1 T 2
G=tanh((R) G0R)          (5)
在公式(5)中, 是一个引入注意力机制的神经网络所学到的参数矩阵,同时
1 T 1
激活函数为tanh,(R) 是隐藏层状态向量表示矩阵R的转置,G是两个论元中单词对的隐藏层状态向量表示之间的语义相似度矩阵,即互注意力矩阵;
知识增强注意力机制:通过从外部知识中获取的实体对中挖掘篇章论元之间的有益信息;根据上一步骤所得的互注意力矩阵和知识关系矩阵,通过以下公式计算得到知识增强注意力矩阵Q:
其中,G反映了两个论元间的联系,K'反映了论元中的来源于WordNet的实体对的关系,因此,Q是一个与相关外部知识相结合的句内关系矩阵;对矩阵应用行、列池化操作生成重要的特征向量;采用均值池化操作,公式如下:
其中, 表示Arg1中关于Arg2的带有外部知识的第i个词周围的上下文的重要性分数,一致地, 表示Arg2中关于Arg1的带有外部知识的第j个词周围的上下文的重要性分数;
其中Qi,m表示Arg1中第i个单词和Arg2中第m个单词的与知识相结合的关系分数;n1,n2分别表示Arg1和Arg2的单词个数;从而,根据公式(8)可以获得重要性向量
接下来,利用softmax函数将 和 进行变换则可得到包含外部知识的注意力向量α,β:
其中,αi表示Arg1中第i个重要性向量的注意力权重值,βi表示Arg2中第i个重要性向量的注意力权重值;为利用整体影响信息来表示两个篇章论元间的复杂联系,对所有的αi,βi进行平均操作,得到Arg1和Arg2的最终注意力矩阵;
最终将注意力向量和BiLSTM的输出向量进行点积得到论元表示RArg1,RArg2,公式如下:
RArg1=R1α,RArg2=R2β        (11)。
5.根据权利要求1所述基于知识增强的注意力神经网络的隐式篇章关系识别方法,其特征在于,步骤(4)具体包括:
构建了一个基于知识增强的组合表示模块,即通过关系嵌入向量来捕获整个篇章的上下文信息,如公式(12)所示:
其中,Rtotal表示整个篇章的上下文表示,vi是权重向量,l是论元中存在的实体对数量,ri是公式(2)中的知识表示;基于知识增强的注意力神经网络的隐式篇章关系识别方法将BiLSTM的输出隐藏层状态向量表示通过池化操作转换为定长向量,并将其输入最终的分类器中识别篇章关系,并使用多层感知器(MLP)分类器进行分类;MLP有一个隐藏层,其中包含tanh激活层和softmax输出层
6.根据权利要求1所述基于知识增强的注意力神经网络的隐式篇章关系识别方法,其特征在于,步骤(5)具体包括:
关系识别模块利用由知识增强的组合表示模块得到的包含外部知识信息的论元表示进行关系识别;对于给定的包含n个实例 的训练语料,(x,y)表示一个论元对和它们的标签;采用交叉熵损失评估预测关系在多大程度上代表了真实的关系,定义为:
其中,yj是真实关系的one-hot表示; 是预测关系的表示,C是关系类别的数量,是第j个标签的预测概率;为了最大限度地最小化目标函数,使用随机梯度下降算法进行优化,在第t个时间步上,第i个参数θt,i的优化方式如下:
其中,θt-1,i表示第t-1个时间步上,第i个参数,α是初始学习率, 是第τ步,第j个参数θτ,i的梯度,gt,i是第t个时间步上,第i个参数θt,i的梯度。

说明书全文

基于知识增强的注意神经网络的隐式篇章关系识别方法

技术领域

[0001] 本发明涉及自然语言处理中篇章分析技术领域,尤其是涉及篇章关系识别技术,具体为一种基于知识增强的注意力神经网络的隐式篇章关系识别方法。

背景技术

[0002] 篇章关系描述了两个相邻的文本单元(例如子句,句子和较大的句子组)如何在逻辑上彼此连接,通常被定义为带有两个论元的连词(分别为Arg1和Arg2),例如时序关系,因果关系等。没有显式连接词的隐式篇章关系识别需要从特定的语境来推断两者之间的关系,这依然是一个具有挑战性的问题。隐式篇章关系识别有利于许多流行自然语言处理(Natural Language Processing,NLP)应用,如机器翻译、文本摘要对话系统等。
[0003] 以往的研究主要包括:(1)传统的基于特征的模型,(2)基于神经网络的模型。前者采用人为设计的语言特征(如极性、词对、位置信息等)和复杂的规则等[2-4]。然而,隐性篇章关系根源于语义,难以从表面特征上进行识别[5,6]。后者通过编码两个没有交互信息的篇章论元获得了更好的论元表征,能够更准确地把握篇章关系。进一步的研究采用了较为复杂的神经网络与注意力机制、控机制或记忆机制对论元对的交互信息和论元的重要指示信息进行挖掘。然而,他们忽略了两个论元之间的双向不对称交互,只关注到句子内部的信息[7-9]。
[0004] 认知心理学的研究认为,人类记忆和理解事物的能力不仅取决于不同类型的记忆(例如即时记忆,长期记忆),还取决于它们之间的相互作用。直观地说,在判断篇章关系时,大脑会自动地唤醒相关的外部知识,这对关系识别很有帮助。为了模仿这一机制,利用相关知识来捕获有意义的信息,这可以丰富对篇章论元的语义理解。

发明内容

[0005] 本发明的目的是为了克服现有技术中的不足,提供一种基于知识增强的注意力神经网络的隐式篇章关系识别的方法(KANN)。利用外部知识建立关系矩阵,得到关系嵌入向量,由于关系矩阵增强了两个论元之间的非对称交互,因此关系嵌入向量丰富了论元表示,有利于篇章关系的识别。
[0006] 该方法为了更好进行隐式篇章关系识别,构建了基于知识增强的注意力神经网络,其引入外部知识,丰富了论元表示,有利于篇章关系的识别。该方法首先利用基本论元表示层得到论元对的嵌入向量,进而通过外部知识表示层得到论元中可能包含的所有实体对-关系的嵌入表示,然后通过知识增强的论元间交互注意力机制分别得到互注意力矩阵和知识增强注意力矩阵,再通过知识增强的组合表示模得到含有外部知识特征和上下文信息的论元表示,最后通过关系识别模块进行篇章关系识别。
[0007] 本发明的目的是通过以下技术方案实现的:基于知识增强的注意力神经网络的隐式篇章关系识别方法,包括以下步骤:
[0008] (1)构建基本论元表示层;首先根据索引进行查表操作实现单词嵌入;然后将篇章论元中原始单词表示转换为低维分布式表示;继而利用神经网络对所有篇章论元进行编码,最终获得基本的篇章论元表示;
[0009] (2)构建外部知识表示层;通过Translating Embedding(TransE)[1]实现篇章论元对中所有实体和实体关系的低维向量表示,其中,实体表示中蕴含了相应的实体关系信息,将实体表示作为隐式篇章关系识别的外部知识引入;整个过程包括对两个部分:1)外部知识的检索,利用外部知识得到实体关系向量表示;2)构建篇章论元对中所有实体的关系矩阵;
[0010] (3)构建知识增强的论元间交互注意力机制;利用互注意力机制捕获带有重要信息的论元对间的交互信息,其中,引用注意力机制的神经网络能够动态学习到可体现篇章论元对交互信息的注意力矩阵;然后将步骤(2)中获得的实体关系矩阵作为外部知识投影到注意力矩阵上,即可获得使用外部知识增强基本论元对表示的注意力矩阵;
[0011] (4)构建知识增强的组合表示模块;将步骤(3)中获得的知识增强注意力矩阵作用在基础论元表示上,即可获取带有外部知识信息的论元表示,同时包含整个论元对的上下文信息;
[0012] (5)构建篇章关系识别模块,利用步骤(4)中获取到的带有外部知识信息的论元表示进行篇章关系识别,从而得到篇章关系。
[0013] 进一步的,步骤(1)具体包括:
[0014] 对于篇章论元的原始表示,首先通过嵌入向量函数查找出词汇表中的每个词w相应的向量表示 其中d表示嵌入向量的维度;由于每个论元被看作是一个词向量的序列,因此在篇章关系中,论元被表示为:
[0015] Arg1:
[0016] Arg2:
[0017] 其中Arg1和Arg2分别包含n1,n2个单词;为了在上下文中表示论元,使用了双向长短时记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)捕获在序列中每个位置t处的上下文相关的隐藏状态,公式如下:
[0018] ht=BiLSTM(wt,ht-1)   (15)
[0019] 在公式(1)中, 分别是前向网络层和后向的隐藏层状态,它们分别保存了历史和未来的信息,引入了单词的上下文信息,使单词表示更为符合语义表征;因此,Arg1中的第i个单词和Arg2中的第j个单词的隐藏层状态分别编码为 和其中 wt表示t时刻的单词表示;ht-1表示t-1时刻的隐藏层状
态。
[0020] 进一步的,步骤(2)具体包括:
[0021] 构建外部知识表示层的目的是将带有关系信息的实体嵌入表示作为隐式篇章关系识别的外部知识引入;主要包括两部分:外部知识的检索和外部知识表示作为关系嵌入向量;
[0022] 外部知识的检索:利用WordNet作为外部知识库,将知识表示为一个三元组fi=(subject,relation,object),其中subject和object分别是主体和客体,realation表示关系;对于每个实例(Arg1,Arg2),首先分别从Arg1和Arg2中抽取所有的实体E1,E2,即实体集合);然后将 组合成实体对,通过从WordNet中查找出的实体对来检索实体对拥有的相关知识;
[0023] 外部知识表示作为关系嵌入向量:检索到的知识由两个实体及其关系组成,关系被表示为从预训练的嵌入向量集中所获取的向量 如果关系是词组形式,利用所有词的平均值作为关系的嵌入向量;如果第i个实体对有多个关系,则最终的关系嵌入向量由所有的关系嵌入向量经过加权求和计算得到,如公式(2)所示:
[0024]
[0025] 其中rk代表第k个关系向量,μk表示第k个关系向量的权重,m表示一个实体对中包含的关系数量,其可通过公式(3)计算得到:
[0026]
[0027] 公式(3)中,m表示一个实体对中包含的关系数量;rj表示m个关系向量中的第j个关系向量;从外部知识获取到实体关系后,会建立一个知识关系矩阵 其元素由指示函数 填充;
[0028]
[0029] 其中,eij表示实体对(e1i,e2j),然后得到相关的知识注意力矩阵K'=f(K),函数f是非线性函数,如relu或tanh。
[0030] 进一步的,步骤(3)具体包括:
[0031] 首先利用互注意力机制捕获带有重要信息的论元对间的交互信息,然后通过外部知识表示来扩充论元对间交互信息而得到知识增强的关系矩阵;主要包括两部分:互注意力机制,知识增强注意力机制;
[0032] 互注意力机制:在获得由BiLSTM产生的两个论元的隐藏层状态向量表示后,得到隐藏层状态向量表示矩阵 和 然后根据公式(5)计算得到互注意力矩阵
[0033] G=tanh((R1)TG0R2)   (19)
[0034] 在公式(5)中, 是一个引入注意力机制的神经网络学到的参数矩阵,同时激活函数为tanh,(R1)T是隐藏层状态向量表示矩阵R1的转置,G是两个论元中单词对的隐藏层状态向量表示之间的语义相似度矩阵,即互注意力矩阵。
[0035] 知识增强注意力机制:通过从外部知识中获取的实体对中挖掘篇章论元之间的有益信息;根据上一步骤所得的互注意力矩阵和知识关系矩阵,通过以下公式计算得到知识增强注意力矩阵Q:
[0036]
[0037] 其中,G反映了两个论元间的联系,K'反映了论元中的来源于WordNet的实体对的关系,因此,Q是一个与相关外部知识相结合的句内关系矩阵;对矩阵应用行、列池化操作生成重要的特征向量;采用均值池化操作,公式如下:
[0038]
[0039] 其中, 表示Arg1中关于Arg2的带有外部知识的第i个词周围的上下文的重要性分数,一致地, 表示Arg2中关于Arg1的带有外部知识的第j个词周围的上下文的重要性分数;其中Qi,m表示Arg1中第i个单词和Arg2中第m个单词的与知识相结合的关系分数;n1,n2分别表示Arg1和Arg2的单词个数。从而,根据公式(8)可以获得重要性向量[0040]
[0041] 接下来,利用softmax函数将 和 进行变换则可得到包含外部知识的注意力向量α,β:
[0042]
[0043] 其中,αi表示Arg1中第i个重要性向量的注意力权重值,βi表示Arg2中第i个重要性向量的注意力权重值。为利用整体影响信息来表示两个篇章论元间的复杂联系,对所有的αi,βi进行平均操作,得到Arg1和Arg2的最终注意力矩阵;
[0044]
[0045] 最终将注意力向量和BiLSTM的输出向量进行点积得到论元表示RArg1,RArg2,公式如下:
[0046] RArg1=R1α,RArg2=R2β   (25)
[0047] 进一步的,步骤(4)具体包括:
[0048] 构建了一个基于知识增强的组合表示模块,即通过关系嵌入向量来捕获整个篇章的上下文信息,如公式(12)所示:
[0049]
[0050] 其中,Rtotal表示整个篇章的上下文表示,vi是权重向量,l是论元中存在的实体对数量,ri是公式(2)中的知识表示;基于知识增强的注意力神经网络的隐式篇章关系识别方法将BiLSTM的输出隐藏层状态向量表示通过池化操作转换为定长向量,并将其输入最终的分类器中识别篇章关系,并使用多层感知器(MLP)分类器进行分类;MLP有一个隐藏层,其中包含tanh激活层和softmax输出层
[0051] 进一步的,步骤(5)具体包括:
[0052] 关系识别模块利用由知识增强的组合表示模块得到的包含外部知识信息的论元表示进行关系识别;对于给定的包含n个实例 的训练语料,(x,y)表示一个论元对和它们的标签;采用交叉熵损失评估预测关系在多大程度上代表了真实的关系,定义为:
[0053]
[0054] 其中,yj是真实关系的one-hot表示; 是预测关系的表示,C是关系类别的数量,是第j个标签的预测概率;为了最大限度地最小化目标函数,使用随机梯度下降算法进行优化,在第t个时间步上,第i个参数θt,i的优化方式如下:
[0055]
[0056] 其中,θt-1,i表示第t-1个时间步上,第i个参数,α是初始学习率, 是第τ步,第j个参数θτ,i的梯度,gt,i是第t个时间步上,第i个参数θt,i的梯度。
[0057] 与现有技术相比,本发明的技术方案所带来的有益效果是:本发明从认知心理学的度提出了一种新的KANN模型,利用外部知识来增强篇章论元之间的不对称交互信息;
[0058] (1)外部知识表示层,通过TransE实现篇章论元对中所有实体和实体关系的低维向量表示,其中,实体表示中蕴含了所应的实体关系信息,将其作为隐式篇章关系识别的外部知识引入;整个过程包括对外部知识的检索和利用外部知识表示得到实体关系向量表示以及构建篇章论元对中所有实体的关系矩阵两个部分。
[0059] (2)知识增强的论元间交互注意力机制,利用互注意力机制捕获带有重要信息的论元对间的交互信息,其中,引入注意力机制的神经网络可以动态学习到可体现篇章论元对交互信息的注意力矩阵,将实体关系矩阵作为外部知识投影到注意力矩阵上,即通过外部知识以增强基本论元对的注意力矩阵。
[0060] (3)知识增强的组合表示模块,可以获取带有外部知识信息的论元表示,同时包含整个论元对的上下文信息。附图说明
[0061] 图1是本发明方法的流程示意图。
[0062] 图2为本发明提供的基于知识增强的注意力神经网络框架图。
[0063] 图3为PDTB中的论元和关系数据结构。
[0064] 图4a为互注意力矩阵可视化图。
[0065] 图4b为知识增强的互注意力矩阵可视化图。

具体实施方式

[0066] 以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0067] 本实施例中使用Penn Discourse TreeBank(PDTB)语料库,是《华尔街日报》(Wall Street Journal,WSJ)2312篇文章中标注的最大的手工标注的篇章关系语料库,该方法整体框架见图2所示。整个系统算法流程见图1,包括:(1)数据集预处理,即将数据集划分成训练集、开发集和测试集;(2)实体-关系的编码,即通过构建外部知识表示层得到论元中可能包含的所有实体对-关系的嵌入表示;(3)获取交互注意力矩阵和知识增强注意力矩阵,即构建知识增强的论元间交互注意力机制分别得到互注意力矩阵和知识增强注意力矩阵;(4)知识增强的组合表示模块建模,通过知识增强的组合表示模块得到含有外部知识特征和上下文信息的论元表示;(5)关系识别模块,通过关系识别模块进行篇章关系识别这五个步骤。
[0068] 具体步骤如下:
[0069] (1)数据集预处理
[0070] 宾州篇章树库(Penn Discourse Treebank,PDTB)是《华尔街日报》(Wall Street Journal,WSJ)2312篇文章中标注的最大的手工标注的篇章关系语料库。PDTB的第一层为四种主要的关系类型:对比(Comparison)、偶然(Contingency)、扩展(Expansion)和时序(Temporal)。本发明以PDTB作为原始语料,并按照以下步骤对原始语料进行处理:(1)Section2-21部分为训练集,Section22为开发集,Section 23为测试集;(2)过滤没有形成论元对的数据;
[0071] 表1展示了PDTB数据集的统计信息,其中训练集共有12218条数据,包含1842条Comparison数据、3139条Contingency数据、6658条Expansion数据和579条Temporal数据;开发集共有2317条数据,包含393条Comparison数据、610条Contingency数据、1231条Expansion数据和83条Temporal数据;测试集共有1002条数据,包含144条Comparison数据、
266条Contingency数据、537条Expansion数据和55条Temporal数据;
[0072] 表1隐含篇章关系统计
[0073]Relation Train Dev Test
Comparison 1842 393 144
Contingency 3139 610 266
Expansion 6658 1231 537
Temporal 579 83 55
[0074] 将语料库中的论元作为输入,首先经过嵌入层得到嵌入向量,即one-hot表示转换为分布式表示,以便利用神经网络对论元及其关系进行建模。PDTB中的论元和关系数据结构如图3所示。
[0075] (2)实体-关系的编码
[0076] 按照上步将数据集划分成训练集、开发集和测试集后,为了得到论元中可能包含的所有实体对-关系的嵌入表示,首先将论元中的单词在外部知识库WordNet中检索到对应的实体;然后将实体的符号形式转换为低维连续向量,以便于作为外部知识特征融入关系矩阵中,公式如下:
[0077]
[0078]
[0079]
[0080] 公式中符号的含义如同前文所述,其中, 为从预训练的嵌入向量集中所获取的向量,rk代表第k个关系向量;μk表示第k个关系向量的权重,m表示一个实体对中包含的关系数量,rj表示m个关系向量中的第j个关系向量,eij表示实体对(e1i,e2j),然后可以获取到相关的知识注意力矩阵K'=f(K),函数f是非线性函数,如relu,tanh等。
[0081] (3)获取交互注意力矩阵和知识增强注意力矩阵
[0082] 在获得基本论元表示和外部知识表示后,为了获得每个论元中的重要词汇信息,分别构建了互注意力矩阵和知识增强注意力矩阵,首先利用互注意力机制捕获论元对间的交互信息,通过BiLSTM可以产生的两个论元的隐藏层状态向量表示矩阵 和然后可以根据公式(5)和(6)计分别算得到互注意力矩阵 和知识增强注意力矩阵
[0083] G=tanh((R1)TG0R2)   (29)
[0084]
[0085] 其中, 是一个引入注意力机制的神经网络学到的参数矩阵,同时激活函数为tanh,(R1)T是隐藏层状态向量表示矩阵R1的转置。G是两个论元中单词对的隐藏层状态向量表示之间的语义相似度矩阵并反映了两个论元间的联系,K'是步骤(2)所获得的知识关系矩阵并反映了论元中的来源于WordNet的实体对的关系,因此Q是一个与相关外部知识相结合的句内关系矩阵。我们对知识增强注意力矩阵Q应用行、列池化操作来生成重要的特征向量。由于均值池化操作比最大值池化操作具有更好的效果,我们采用均值池化操作,公式如下:
[0086]
[0087] 其中, 表示Arg1中关于Arg2的带有外部知识的第i个词周围的上下文的重要性分数,一致地, 表示Arg2中关于Arg1的带有外部知识的第j个词周围的上下文的重要性分数。其中Qi,m表示Arg1中第i个单词和Arg2中第m个单词的与知识相结合的关系分数;n1,n2分别表示Arg1和Arg2的单词个数。然后,我们可以得到重要性向量 和包含外部知识注意力向量α,β,公式如下:
[0088]
[0089]
[0090]
[0091] 其中,αi表示Arg1中第i个重要性向量的注意力权重值,βj表示Arg2中第j个重要性向量的注意力权重值。然后将注意力向量和BiLSTM的输出向量进行点积得到论元表示RArg1,RArg2,公式如下:
[0092] RArg1=R1α,RArg2=R2β   (35)
[0093] 根据上述公式,可以将外部知识作为关系向量与关系矩阵相融合,首先利用互注意力机制捕获带有重要信息的论元对间的交互信息,然后通过知识增强来扩充论元对间交互信息得到知识增强的关系矩阵。
[0094] (4)基于知识增强的组合表示模块
[0095] 虽然公式(11)计算的表示包含了相关的知识,但是由于缺少句间上下文(如果只是将两个论元拼接成“[Arg1,Arg2]”),无法进行有效地使用。因此,构建了一个基于知识增强的组合表示模块,即通过关系嵌入向量来捕获整个篇章的上下文信息,如公式(12)所示:
[0096]
[0097] 其中,Rtotal表示整个篇章的上下文表示,vi是权重,l是论元中存在的实体对数量,ri是公式(2)中的知识表示。模型将BiLSTM的输出隐藏层状态向量表示通过池化操作转换为定长向量,并将其输入最终的分类器中识别篇章关系,并使用多层感知器(MLP)分类器进行分类。MLP有一个隐藏层,其中包含tanh激活层和softmax输出层。
[0098] (5)关系识别模块
[0099] 关系识别模块利用由知识增强的组合表示模块得到的包含外部知识信息的论元表示进行关系识别。对于给定的包含n个实例 的训练语料,(x,y)表示一个论元对和它们的标签。我们采用交叉熵损失评估预测关系在多大程度上代表了真实的关系,定义为:
[0100]
[0101] 其中,yj是真实关系的one-hot表示; 是预测关系的表示,C是关系类别的数量,是第j个标签的预测概率。为了最大限度地最小化目标函数,我们使用随机梯度下降算法进行优化,在第t个时间步上,第i个参数θt,i的优化方式如下:
[0102]
[0103] 其中,θt-1,i表示第t-1个时间步上,第i个参数,α是初始学习率, 是第τ步,第j个参数θτ,i的梯度,gt,i是第t个时间步上,第i个参数θt,i的梯度。
[0104] 在具体实施过程中,以PDTB数据集为例,首先对语料库进行预处理,例如将PDTB中的单词转换为小写,然后把最后输出的维度设为80并且在训练过程中固定不变,如果词向量不是通过GloVe预训练词向量获得,则它们是由[-0.1,0.1]均匀分布随机初始化的单词嵌入。将所有的篇章论元均填充为长度为80的向量,中间表示的长度也设置为80。其他参数由[-0.1,0.1]均匀分布随机初始化得到。这里,不提供调优超参数的细节,只给出它们的最终设置,如表2所示:
[0105] 表2 KANN模型的超参数
[0106] Description ValueThe length of hidden states 50
Knowledge embedding size 300
Initial learning rate 0.001
Minibatch size 32
[0107] 为了验证本发明方法的有效性,本发明方法(KANN)选择以下模型作为基线,这些模型是隐式篇章关系识别中,在论元表示、交互和相关知识方面的最新模型:
[0108] 1)篇章论元表示
[0109] · et al.(2017)[12]他们利用基于注意力的递归神经网络,对篇章单元序列进行联合建模。
[0110] ·Liu and Li(2016)[8]他们设计了具有多层次注意力的神经网络(NNMA),并选择了重要的词语来识别篇章关系。在这里,选择具有两级和三级注意力的模型作为基线。
[0111] 2)篇章论元对交互
[0112] ·Chen et al.(2016)[9]他们使用门控相关网络(GRN)并结合了单词对之间的线性和非线性交互。
[0113] ·Lei et al.(2017)[7]他们采用词加权平均操作来编码论元表示,这可以有效地与单词对信息相结合。
[0114] 3)相关知识
[0115] ·Lan et al.(2017)[10]他们提出了i)一种基于注意力的神经网络,通过相互作用进行表示学习;ii)多任务学习,利用辅助任务的知识来提升性能。
[0116] ·Lei et al.(2018)[11]他们发现每种关系类型的语义特征和两个内聚特征“主题连续性和归因”共同作用,以促进每个关系的特定属性。
[0117] 此外,还使用这三种退化模型与的KANN模型进行了比较:
[0118] ·LSTM分别用LSTMs对两个篇章论元进行编码,然后将这两个表示连接起来作为隐藏层,输入到softmax分类器中。
[0119] ·BiLSTM基于LSTM,考虑了双向上下文信息,并使用BiLSTM对两个篇章论元进行编码。
[0120] ·BiLSTM+Mutual Attention进一步通过神经网络动态学到互注意矩阵,并对其进行融合,得到新的论元表示形式(即BMAN)。
[0121] 目前,篇章分析的评测主要考虑算法的准确度(Accuracy)和F1值两个性能指标。准确度采用式(15)进行度量。
[0122]
[0123] 这里,TruePositive代表本来是正样例,同时分类成正样例的个数;TrueNegative代表本来是负样例,同时分类成负样例的个数;All代表样例总个数。
[0124] F1值由准确率(Precision)和召回率(Recall)共同体现,采用式(16)进行度量。
[0125]
[0126] 其中,
[0127]
[0128]
[0129] 这里,FalsePositive代表本来是负样例,但被分类成正样例的个数(通常叫误报);FalseNegative代表本来是正样例,但被分类成负样例的个数(通常叫漏报)。相关分数值越高表示该模型性能越好。
[0130] 表3与最先进的模型的二分类结果进行比较(%), 表示模型复现结果,其它表示引用结果
[0131]
[0132] 表4与最先进的模型的四类结果进行比较(%), 表示模型复现结果,其它表示引用结果
[0133]
[0134] 表5退化模型不同设置的四分类结果
[0135]
[0136] 从表3,4,5的实验结果可看出,本发明提出的基于知识增强的注意力神经网络的隐式篇章关系识别的有效性。
[0137] 从整体上看,基于论元表示的模型的性能低于基于论元对交互和相关知识的模型。这是由于在基于表征的模型中篇章论元的并行编码造成的。随着不同关系中实例数的增加,F1分数也随之提高。由此可见,语料库对隐性篇章关系的识别也起着至关重要的作用。
[0138] 在各个篇章关系上,LSTM的性能最差。虽然BiLSTM比LSTM捕获更多的信息,但是结果也不是很理想。究其原因,LSTM或BiLSTM分别对篇章论元进行编码时,由于对每个词都做相同处理,忽略了局部焦点词。与LSTM和BiLSTM相比,BMAN模型实现了更好的性能。这表明,BMAN可以通过构造词对之间的关联性,在两个论元中找到特定的有效信息。KANN模型在F1分数和精确度上都达到了最好的性能,其知识增强的注意力模块不仅用非对称的交互信息对论元进行编码,而且利用外部知识来增强对论元的深层语义理解。因此,它可以考虑每个关系的特殊属性。
[0139] 为了证明外部知识的有效性,可视化图4a和图4b中所示的不同注意力矩阵的热图,其中展示了示例中的注意力矩阵,每个单词都伴随着不同深度色块,较暗的部分表示单词对的相关性较高。关于图4a,可以观察到单词对“not”,“good”是获得语义信息的重要上下文,这表明互注意力机制可以捕捉论点的重要部分。然而,具有较高分数的单词对的分布相对平均,这表明通过该注意力机制来挖掘语义信息是不够的。相比较而言,图4b中词对的得分更加突出,这说明整合外部知识使得论元的重点部分更加清晰。
[0140] 本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。
[0141] 参考文献
[0142] [1]Antoine Bordes,Nicolas Usunier,Alberto GarciaDuran,Jason Weston,and Oksana Yakhnenko.2013.Translating embeddings for modeling multirelational data.In Advances in Neural Information Processing Systems 26,pages 2787–2795.[0143] [2]Emily Pitler,Annie Louis,and Ani and Nenkova.2009.Automatic sense prediction for implicit discourse relations in text.In Proceedings of the Joint Conference of the 47th  Annual Meeting of  the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP,pages 683–691.
[0144] [3]Ziheng Lin,Min-Yen Kan,and Hwee Tou Ng.2009.Recognizing implicit discourse relations in the penn discourse treebank.In Proceedings of the 2009Conference on Empirical Methods in Natural Language Processing(EMNLP),pages 343–351.
[0145] [4]Attapol Rutherford and Nianwen Xue.2014.Discovering implicit discourse relations through brown cluster pair representation and coreference patterns.In Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics(EACL),pages 645–654.
[0146] [5]Biao Zhang,Jinsong Su,Deyi Xiong,Yaojie Lu,Hong Duan,and Junfeng Yao.2015.Shallow convolutional neural network for implicit discourse relation recognition.In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing(EMNLP),pages 2230–2235.
[0147] [6]Yang Liu,Sujian Li,Xiaodong Zhang,and Zhifang Sui.2016.Implicit discourse relation classification via multi-task neural networks.In Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence(AAAI),pages 2750–2756.
[0148] [7]Wenqiang Lei,Xuancong Wang,Meichun Liu,Ilija Ilievski,Xiangnan He,and Min-Yen Kan.2017.Swim:A simple word interaction model for implicit discourse relation recognition.In Proceedings of the 26th International Joint Conference on Artificial Intelligence,pages 4026–4032.
[0149] [8]Yang Liu and Sujian Li.2016.Recognizing implicit discourse relations via repeated reading:Neural networks with multi-level attention.In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing(EMNLP),pages 1224–1233.
[0150] [9]Jifan Chen,Qi  Zhang,Pengfei Liu,Xipeng Qiu,and Xuanjing Huang.2016.Implicit discourse relation detection via a deep architecture with gated relevance network.In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics(ACL),pages 1726–1735.
[0151] [10]Man Lan,Jianxiang Wang,Yuanbin Wu,Zheng-Yu Niu,and Haifeng Wang.2017.Multi-task attentionbased neural networks for implicit discourse relationship representation and identification.In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing(EMNLP),pages 1299–1308.
[0152] [11]Wenqiang Lei,Yuanxin Xiang,Yuwei Wang,Qian Zhong,Meichun Liu,and Min-Yen Kan.2018.Linguistic properties matter for implicit discourse relation recognition:Combining semantic interaction,topic continuity  and attribution.In Thirty-Second AAAI Conference on Artificial Intelligence.[0153] [12] S,Schenk N,Chiarcos C.A recurrent neural model with attention for the recognition of Chinese implicit discourse relations[J].arXiv preprint arXiv:1704.08092,2017.
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈