首页 / 专利库 / 软件 / 数据处理 / 一种融合区分度信息的神经网络关系分类方法及其实现系统

一种融合区分度信息的神经网络关系分类方法及其实现系统

阅读:674发布:2022-10-02

专利汇可以提供一种融合区分度信息的神经网络关系分类方法及其实现系统专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种融合区分度信息的神经网络关系分类方法及其实现系统,包括:(1)数据预处理;(2)训练词向量;(3) 抽取 位置 向量;将每一个词的词向量与高维位置 特征向量 级联,得到联合特征;(4)计算句子语义表示;利用双向LSTM编码实体的上下文信息和语义信息;(5)计算区分度向量;将两个实体向量做差与位置特征级联后,用一个Bi‑LSTM单元编码该输入;(6)将(4)和(5)的输出输入至CNN,输出融合了区分度信息的特征向量,输入至分类器中进行分类;(5)采用损失函数训练模型。本发明不需要人工抽取任何特征,联合模型也不需要借助另外的 自然语言处理 工具对数据做预处理, 算法 简单明了,效果达到了目前最好。,下面是一种融合区分度信息的神经网络关系分类方法及其实现系统专利的具体信息内容。

1.一种融合区分度信息的神经网络关系分类方法,其特征在于,包括步骤如下:
(1)数据预处理:先采用one-hot形式来表示数据集中的实体词;再根据数据集中的文本类别对数据进行类别标定;将数据集分为训练集和测试集;
(2)训练词向量;将文本数据转换成数学数据,即获取训练集中的每一个词相应的词向量;
(3)抽取位置向量;
(4)针对具体任务建模;利用双向LSTM编码实体词的上下文信息和语义信息;
(5)将句子中指定的两个实体词的词向量相减,即将句子中的后面的实体词的词向量减去句子中的前面的实体词的词向量,得到新的向量;与此同时,将句子中的后面的实体词的位置向量减去句子中的前面的实体词的位置向量,并将得到的结果线性变换映射到高维向量空间中,将得到的向量与新的向量级联后输入到Bi-LSTM单元中,经过该Bi-LSTM单元编码后的向量为区分度特征;
所述步骤(5),两个实体词的词向量相减的实现过程如式(Ⅰ)所示:
edic=e2-e1                   (Ⅰ)
式(Ⅰ)中,e2,e1是指两个实体词的词向量,edic是两个实体词的词向量相减的结果;
两个实体词的词向量相减的结果、两个实体词的位置向量相减的结果级联后输入Bi-LSTM单元编码的实现过程如式(Ⅱ)所示:
式(Ⅱ)中, 表示两个实体词的位置向量相减的结果,dic表示edic与 级联后用Bi-LSTM单元编码后得到的编码向量;
(6)将步骤(4)得到的语义特征和步骤(5)得到的区分度特征进行融合,得到融合了区分度特征的整个句子对关系分类任务最重要的信息;
(7)采用损失函数训练模型。
2.根据权利要求1所述的一种融合区分度信息的神经网络关系分类方法,其特征在于,所述步骤(6)中,将步骤(4)得到的语义特征和步骤(5)得到的区分度特征进行融合,包括:
将语义特征、区分度特征输入特征融合模,经过卷积神经网络提取特征,输出融合了区分度特征的整个句子对关系分类任务最重要的信息,特征融合模块是一维卷积神经网络。
3.根据权利要求1所述的一种融合区分度信息的神经网络关系分类方法,其特征在于,所述步骤(4),利用双向LSTM编码实体词的上下文信息和语义信息,包括:双向LSTM包括两个方向不同的LSTM,一个LSTM按照句子中词的顺序从前往后读取数据,获得上文信息;另一个LSTM从后往前按照句子词序的反方向读取数据,获得下文信息;双向LSTM编码后,输出每个词对应的经过编码后的向量,作为整个句子的语义特征。
4.根据权利要求1所述的一种融合区分度信息的神经网络关系分类方法,其特征在于,所述步骤(7),采用交叉熵损失函数训练模型,模型损失计算公式如式(Ⅲ)所示:
式(Ⅲ)中,x是要判断的样本,px是样本类别的标准分布,qx是样本类别的预测分布。
5.根据权利要求1所述的一种融合区分度信息的神经网络关系分类方法,其特征在于,所述步骤(2),训练词向量,包括:
A、下载维基百科2011年11月6日全天的英文数据作为初始训练数据,并对这些初始训练数据进行清洗,去掉没有意义的特殊字符和格式,将HTML格式的数据处理成TXT格式的数据;
B、将步骤A处理后的数据喂入Word2vec进行训练,训练时,采用skip-gram模型,窗口大小设为3-8,迭代周期设为2-15,设定词向量的维度是200-400维,训练结束后,得到一个词向量映射表;
C、根据步骤B得到的词向量映射表,获取训练集的每一个词对应的词向量。
6.根据权利要求1所述的一种融合区分度信息的神经网络关系分类方法,其特征在于,所述步骤(3),抽取位置向量,包括:获取训练集中的每一个词的位置向量特征,位置向量特征包括句子中的每个词到实体词的相对距离组成,根据步骤(1)得到的每个实体词在句子中的位置,以实体位置为原点,得到句子中的每个词相对实体词的位置,每个词对两个实体的相对位置组成该词的位置向量特征;并获取每个位置向量特征的高维位置特征向量,将步骤(2)获取的每一个词的词向量与该词的高维位置特征向量级联,得到每个词的联合特征;
进一步优选的,所述步骤(3),抽取位置向量,包括:
a、获取训练集中的每一个词的位置向量特征,所述位置向量特征的计算公式如式(Ⅳ)所示:
dle=WledT     (Ⅳ)
式(Ⅳ)中,Wle是需要学习的权重矩阵,dT是初始位置向量,dle表示位置向量,l是位置location的第一个字母,e是嵌入embedding的第一个字母;
b、将步骤a获取的每一个词的位置向量特征通过线性变换映射到高维空间,设定高维空间的维度为50-90维,得到每个位置向量特征的高维位置特征向量;
c、将步骤(2)获取的每一个词的词向量与该词的高维位置特征向量级联,得到每个词的联合特征。
7.根据权利要求1所述的一种融合区分度信息的神经网络关系分类方法,其特征在于,所述步骤(4),通过双向LSTM获取文本的上文信息和下文信息,包括步骤如下:
A、求取t时刻双向LSTM模型中的输入的值it,如式(Ⅴ)所示:
it=σ(Wihht-1+Wixxt+bi)   (Ⅴ)
式(Ⅴ)中,σ表示sigmoid激活函数;Wih是输入门中输入项ht-1对应的权重矩阵,Wix是输入门中输入项xt对应的权重矩阵,ht-1是上一时刻隐藏层的输出,xt是当前时刻的输入,bi是输入门的偏置项;
B、求取t时刻双向LSTM模型中的遗忘门的值ft,如式(Ⅵ)所示:
ft=σ(Wfhht-1+Wfxxt+bf)   (Ⅵ)
式(Ⅵ)中,Wfh是遗忘门中输入项ht-1对应的权重矩阵,Wfx是遗忘门中输入项xt对应的权重矩阵,bf是遗忘门的偏置项;
C、求取t时刻LSTM单元中的输出门的值ot,如式(Ⅶ)所示:
ot=σ(Wohht-1+Woxxt+bo)   (Ⅶ)
式(Ⅶ)中,Woh是输出门中输入项ht-1对应的权重矩阵,Wox是输出门中输入项xt对应的权重矩阵,bo是输出门的偏置项;
D、求取当前输入的LSTM单元状态gt,如式(Ⅷ)所示:
gt=tanh(Wghht-1+Wgxxt+bg)   (Ⅷ)
式(Ⅷ)中,Wgh是单元状态中输入项ht-1对应的权重矩阵,Wgx是单元状态中输入项xt对应的权重矩阵,bg是单元状态的偏置项,tanh表示双曲正切函数,用作激活函数;
E、求取t时刻的双向LSTM模型的细胞状态ct,如式(Ⅸ)所示:
ct=it⊙gt+ft⊙ct-1   (Ⅸ)
式(Ⅸ)中,ct-1是上一时刻的细胞状态,⊙表示按元素乘;
F、求t时刻双向LSTM模型的隐藏层状态ht,如式(Ⅹ)所示:
ht=ot⊙tanh(ct)   (Ⅹ)
文本数据经过双向LSTM模型之后,在上述输入门、遗忘门、输出门的控制作用下,输出该文本数据的上文信息和下文信息。
8.根据权利要求1所述的一种融合区分度信息的神经网络关系分类方法,其特征在于,所述步骤(6),将融合了区分度信息的句子表示输入至分类器中进行分类,分类器的计算公式及对类别的评分函数分别如式(Ⅺ)、(Ⅻ)所示:
score(x)=Wxs+bx   (Ⅺ)
sc=[Wxs+bx]c     (Ⅻ)
式(Ⅺ)、(Ⅻ)中,Wx是要学习的权重矩阵,s是卷积层的输出,bx是偏置向量,c是正确类别符号,score(x)是样本x的类别的概率分布,s6是样本x对应的正确类别的概率。
9.权利要求1-8任一所述的神经网络关系分类方法的实现系统,其特征在于,包括句子表示模块、区分度模块及特征融合模块,所述句子表示模块、所述区分度模块分别连接所述特征融合模块;
所述句子表示模块用于:将训练集中句子中的每一个词对应到词典中,找到其对应的词向量,获取位置向量,将获得的位置向量与前面的词向量级联,得到的新向量作为Bi-LSTM单元的输入,经过Bi-LSTM单元编码后得到句子的语义特征;
所述区分度模块用于:将句子中指定的两个实体词的词向量相减,将得到的向量与位置向量级联后输入到Bi-LSTM单元中,Bi-LSTM单元是一个步长为1的长短时记忆神经网络,Bi-LSTM单元的输出即为区分度特征;
所述特征融合模块用于:采用一个卷积神经网络融合语义特征与区分度特征,经过卷积神经网络提取特征后,将输出的特征向量输入到分类器中分类。

说明书全文

一种融合区分度信息的神经网络关系分类方法及其实现系统

技术领域

[0001] 本发明涉及一种融合区分度信息的神经网络关系分类方法及其实现系统,属于自然语言处理技术领域。

背景技术

[0002] 随着智能时代的到来,对大数据的处理方法向着自动化、智能化的方向发展,各种工作也逐渐被智能机器代替,人类社会与智能机器的交叉越来越多,在这样的时代背景下,智能、方便的人机交互变得越来越重要。因此,问答系统、知识库的自动构建技术在工业界和学术界都得到很大关注并取得了一些成果。而这些成果的背后离不开自然语言处理等基础理论的支持,其中,关系抽取就起到了重要作用。
[0003] 随着机器学习的发展,很多自然语言处理任务得到了很好的解决,尤其是支持向量机的提出使很多NLP任务的结果得到了很大的提升,这种方法的核心思想是认为抽取很多适合自然语言处理任务的特征,根据这些特征构造核函数,再利用数据训练分类器,但是抽取特征是一件很复杂的任务,需要研究人员对相应领域有很深入的研究和理解才能找到合适的特征,而且需要花费大量的精构建提取特征的模型,如果选择的特征不适合,对模型的结果不会有改善,往往会做很多无用功。
[0004] 最近随着深度学习的发展,以卷积神经网络和循环神经网络为代表的深度神经网络模型在图像识别计算机视觉语音识别领域取得了巨大成功,在自然语言处理领域也取得了很大进展,之前的研究成果表明长短时记忆神经网络对处理具有时序特征的自然语言有天然的优势,也有很多研究者将长短时记忆神经网络用于关系分类任务中。由于关系分类本身的特点,卷积神经网络擅长捕获局部特征的特点很适合用于关系分类的特征抽取,所以基于卷积神经网络的模型是另一大类用于关系分类的方法。在现实世界中,将关系分类用于知识图谱的自动构建时,会涉及到实体的方向问题(同种语义关系但实体方向不同则属于不同的关系类别),但是在目前出现的方法中都忽略了一个问题:实体语义关系相同但实体方向相反的关系属于两种相互独立的不同关系。不管是基于长短时记忆神经网络的模型还是基于卷积神经网络的模型其基本思想都是用相应的神经网络编码得到句子的语义特征,而这样得到的语义特征并不能区分语义关系相同但实体方向不同的两类关系类别,反而由于语义关系相同其编码的语义特征也是相似的造成实体方向不同的两类关系类别容易混淆。所以现有的方法中没有出现解决这一类问题的有效方法。

发明内容

[0005] 针对现有技术的不足,本发明提供了一种融合区分度信息的神经网络关系分类方法;
[0006] 本发明还提供了上述神经网络关系分类方法的实现系统。
[0007] 本发明提出了一种新的特征(区分度信息)来解决关系相同但实体方向不同的两类关系容易混淆的问题。整个模型分为三个模,分别是句子表示模块、区分度模块、特征融合模块。句子表示模块的主体模型是一个双向长短时记忆神经网络模型,输出为经过编码的句子矩阵;区分度模块中将两个实体向量相减,并将得到的向量映射到一个高位空间中作为区分度向量;特征融合模块将前面得到的句子表示矩阵和区分度向量这两种特征融合起来,然后将该模块的结果输入到分类器中进行关系分类,取得了很好的效果。
[0008] 该模型完全不用人工处理数据,不需要借助其他的自然语言处理工具,也不需要引入另外的信息,充分挖掘自身包含的信息,创造性的提出了区分度信息这一特征,与原有特征融合,解决了关系分类中同种关系不同方向容易混淆的问题。
[0009] 本发明的技术方案为:
[0010] 一种融合区分度信息的神经网络关系分类方法,包括步骤如下:
[0011] (1)数据预处理:本申请采用公开的数据集进行结果评测,而公开的数据集是原始数据,不符合模型的输入要求,需要进行预处理。先采用one-hot形式来表示数据集中的实体词;再根据数据集中的文本类别对数据进行类别标定;数据集中的文本类别共分为19类,采用一个19维的one-hot向量表示每一类的类别,one-hot向量中1对应的位置就是该类别的索引位置,将这个19维的向量与文本中的句子放在同一行,用“/”分开,读取数据时将样本与标签一起读进内存中,就获得了每一个句子的标签;将数据集分为训练集和测试集。
[0012] (2)训练词向量;将文本数据转换成数学数据,即获取训练集中的每一个词相应的词向量;
[0013] (3)抽取位置向量;
[0014] (4)针对具体任务建模;利用双向LSTM编码实体词的上下文信息和语义信息;
[0015] 进一步优选的,所述步骤(4),利用双向LSTM编码实体词的上下文信息和语义信息,包括:
[0016] 单向LSTM可以按照人类的阅读顺序从一句话的第一个字记忆到最后一个字,这种LSTM结构只能捕捉到上文信息,无法捕捉到下文信息,双向LSTM包括两个方向不同的LSTM,一个LSTM按照句子中词的顺序从前往后读取数据,获得上文信息;另一个LSTM从后往前按照句子词序的反方向读取数据,获得下文信息;两个LSTM的联合输出就是整个句子的上下文信息,而上下文信息是由整个句子提供的,自然包含比较抽象的语义信息,这种方法的优点是充分利用了LSTM对具有时序特点的序列数据的处理优势,而且由于输入了位置特征,其经过双向LSTM编码后可以抽取出位置特征中包含的实体方向信息,其他的方法就没有这样的优点。双向LSTM编码后,隐藏层输出每个词对应的经过编码后的向量,作为整个句子的语义特征;
[0017] (5)将句子中指定的两个实体词的词向量相减,即将句子中的后面的实体词的词向量减去句子中的前面的实体词的词向量,得到新的向量;
[0018] 与此同时,将句子中的后面的实体词的位置向量减去句子中的前面的实体词的位置向量,并将得到的结果线性变换映射到高维向量空间中,将得到的向量与新的向量级联后输入到Bi-LSTM单元中,经过该Bi-LSTM单元编码后的向量为区分度特征;
[0019] (6)将步骤(4)得到的语义特征和步骤(5)得到的区分度特征进行融合,得到融合了区分度特征的整个句子对关系分类任务最重要的信息;
[0020] 进一步优选的,所述步骤(6)中,将步骤(4)得到的语义特征和步骤(5)得到的区分度特征进行融合,包括:将语义特征、区分度特征输入特征融合模块,经过卷积神经网络提取特征,输出融合了区分度特征的整个句子对关系分类任务最重要的信息,特征融合模块是一维卷积神经网络。
[0021] (7)采用损失函数训练模型。
[0022] 根据本发明优选的,所述步骤(5),获得区分度信息的过程是将两个实体向量相减,同时为保证一致性,两个实体的位置向量以同样的方式相减,然后将这两个相减得到的结果用一个Bi-LSTM单元,两个实体词的词向量相减的实现过程如式(Ⅰ)所示:
[0023] edic=e2-e1    (Ⅰ)
[0024] 式(Ⅰ)中,e2,e1是指两个实体词的词向量,edic是两个实体词的词向量相减的结果;
[0025] 两个实体词的词向量相减的结果、两个实体词的位置向量相减的结果级联后输入Bi-LSTM单元编码的实现过程如式(Ⅱ)所示:
[0026]
[0027] 式(Ⅱ)中, 表示两个实体词的位置向量相减的结果,dic表示edic与 级联后用Bi-LSTM单元编码后得到的编码向量。
[0028] 根据本发明优选的,所述步骤(7),采用交叉熵损失函数训练模型,模型损失计算公式如式(Ⅲ)所示:
[0029]
[0030] 式(Ⅲ)中,x是要判断的样本,px是样本类别的标准分布,qx是样本类别的预测分布。
[0031] 根据本发明优选的,所述步骤(2),训练词向量,包括:
[0032] A、下载维基百科2011年11月6日全天的英文数据作为初始训练数据,并对这些初始训练数据进行清洗,去掉没有意义的特殊字符和格式,将HTML格式的数据处理成TXT格式的数据;
[0033] B、将步骤A处理后的数据喂入Word2vec进行训练,训练时,采用skip-gram模型,窗口大小设为3-8,迭代周期设为2-15,设定词向量的维度是200-400维,训练结束后,得到一个词向量映射表;
[0034] C、根据步骤B得到的词向量映射表,获取训练集的每一个词对应的词向量。为了加快训练速度,本专利将该词典中的词与数据集中出现的词一一对应,1,对多余的词向量舍弃。
[0035] 根据本发明优选的,所述步骤(3),抽取位置向量,包括:获取训练集中的每一个词的位置向量特征,位置向量特征包括句子中的每个词到实体词的相对距离组成,根据步骤(1)得到的每个实体词在句子中的位置,以实体位置为原点,得到句子中的每个词相对实体词的位置,每个词对两个实体的相对位置组成该词的位置向量特征;例如,句子为:阿里巴巴公司位于中国杭州,该句子中有两个实体为:公司、杭州,第一个词相对于两个实体的位置为(-1,-,4),“阿里巴巴”到“公司”的距离是-1,到“杭州”的距离是-5;第二个词到两个实体的距离是(0,-3),“公司”到“公司”的距离是0,到“杭州”的距离是-3;并获取每个位置向量特征的高维位置特征向量,将步骤(2)获取的每一个词的词向量与该词的高维位置特征向量级联,得到每个词的联合特征。
[0036] 根据本发明优选的,所述步骤(3),抽取位置向量,包括:
[0037] a、获取训练集中的每一个词的位置向量特征,所述位置向量特征的计算公式如式(IV)所示:
[0038] dle=WledT    (IV)
[0039] 式(IV)中,Wle是需要学习的权重矩阵,dT是初始位置向量,d1e表示位置向量,l是位置location的第一个字母,e是嵌入embedding的第一个字母;
[0040] b、将步骤a获取的每一个词的位置向量特征通过线性变换映射到高维空间,设定高维空间的维度为50-90维,得到每个位置向量特征的高维位置特征向量;
[0041] c、将步骤(2)获取的每一个词的词向量与该词的高维位置特征向量级联,得到每个词的联合特征。词向量是400维,该词的高维位置特征向量是60维(或60-90维),将位置特征向量放到词向量的后面就变成了400+60=460维的向量,这就是级联,得到的460维的新向量就是联合特征。
[0042] 根据本发明优选的,所述步骤(4),通过双向LSTM获取文本的上文信息和下文信息,包括步骤如下:
[0043] A、求取t时刻双向LSTM模型中的输入的值it,如式(Ⅴ)所示:
[0044] it=σ(Wihht-1+Wixxt+bi)(Ⅴ)
[0045] 式(Ⅴ)中,σ表示sigmoid激活函数;Wih是输入门中输入项ht-1对应的权重矩阵,Wix是输入门中输入项xt对应的权重矩阵,ht-1是上一时刻隐藏层的输出,xt是当前时刻的输入,bi是输入门的偏置项;
[0046] B、求取t时刻双向LSTM模型中的遗忘门的值ft,如式(Ⅵ)所示:
[0047] ft=σ(Wfhht-1+Wfxxt+bf)(Ⅵ)
[0048] 式(Ⅵ)中,Wfh是遗忘门中输入项ht-1对应的权重矩阵,Wfx是遗忘门中输入项xt对应的权重矩阵,bf是遗忘门的偏置项;
[0049] C、求取t时刻LSTM单元中的输出门的值ot,如式(Ⅶ)所示:
[0050] ot=σ(Wohht-1+Woxxt+bo)(Ⅶ)
[0051] 式(Ⅶ)中,Woh是输出门中输入项ht-1对应的权重矩阵,Wox是输出门中输入项xt对应的权重矩阵,bo是输出门的偏置项;
[0052] D、求取当前输入的LSTM单元状态gt,如式(Ⅷ)所示:
[0053] gt=tanh(Wghht-1+Wgxxt+bg)(Ⅷ)
[0054] 式(Ⅷ)中,Wgh是单元状态中输入项ht-1对应的权重矩阵,Wgx是单元状态中输入项xt对应的权重矩阵,bg是单元状态的偏置项,tanh表示双曲正切函数,用作激活函数;
[0055] E、求取t时刻的双向LSTM模型的细胞状态ct,如式(Ⅸ)所示:
[0056] ct=it⊙gt+ft⊙ct-1(Ⅸ)
[0057] 式(Ⅸ)中,ct-1是上一时刻的细胞状态,⊙表示按元素乘;
[0058] F、求t时刻双向LSTM模型的隐藏层状态ht,如式(Ⅹ)所示:
[0059] ht=ot⊙tanh(ct)  (Ⅹ)
[0060] 文本数据经过双向LSTM模型之后,在上述输入门、遗忘门、输出门的控制作用下,输出该文本数据的上文信息和下文信息。由于遗忘门的控制,它可以保存很久很久之前的信息,由于输入门的控制,它又可以避免无关紧要的内容进入记忆。因此文本数据经过LSTM单元之后,在各种门结构的控制作用下,输出的特征表示既包含有丰富的语义特征,又含有丰富的时序特征。
[0061] 根据本发明优选的,所述步骤(6),将融合了区分度信息的句子表示输入至分类器中进行分类,分类器的计算公式及对类别的评分函数分别如式(Ⅺ)、(Ⅻ)所示:
[0062] score(x)=Wxs+bx    (Ⅺ)
[0063] sc=[Wxs+bx]c    (Ⅻ)
[0064] 式(Ⅺ)、(Ⅻ)中,Wx是要学习的权重矩阵,s是卷积层的输出,bx是偏置向量,c是正确类别符号,score(x)是样本x的类别的概率分布,s6是样本x对应的正确类别的概率。
[0065] 上述神经网络关系分类方法的实现系统,包括句子表示模块、区分度模块及特征融合模块,所述句子表示模块、所述区分度模块分别连接所述特征融合模块;
[0066] 所述句子表示模块用于:将训练集中句子中的每一个词对应到词典中,找到其对应的词向量,变为计算机可处理的向量形式,获取位置向量,将获得的位置向量与前面的词向量级联,得到的新向量作为Bi-LSTM单元的输入,经过Bi-LSTM单元编码后得到句子的语义特征;
[0067] 所述区分度模块用于:将句子中指定的两个实体词的词向量相减,将得到的向量与位置向量级联后输入到Bi-LSTM单元中,Bi-LSTM单元是一个步长为1的长短时记忆神经网络,Bi-LSTM单元的输出即为区分度特征;
[0068] 所述特征融合模块用于:采用一个卷积神经网络融合语义特征与区分度特征,其输入为句子表示模块的输出和区分度模块的输出,经过卷积神经网络提取特征后,将输出的特征向量输入到分类器中分类。
[0069] 本发明的有益效果为:
[0070] 1、本发明融合区分度信息的神经网络关系分类方法不需要人工抽取任何特征,极大地减少了研究人员的工作,而且,本发明也不需要借助另外的自然语言处理工具对数据做预处理,也不需要引入另外的信息,避免了因这些工具产生的错误积累造成的对整体模型的干扰,以及其它模型需要借助额外信息才能提高表现的问题,实现了对解决这类问题模型的最大程度的精简,算法简单明了,效果达到了目前最好。
[0071] 2、本发明融合区分度信息的神经网络关系分类方法提出了一种新的区分度特征,区分度特征的引入提高了同种关系不同实体方向的两类关系类别的分类准确率,在总体上提高了整个模型的准确率,同种关系不同实体方向指的是属于同一种语义关系但实体方向不同的两类关系,比如因果(实体1,实体2)和因果(实体2,实体1),他们属于同一种语义关系因果关系,但由于两个实体在句子中的位置不同,数据集中认为这是两种不同的关系,而由于他们表达的是同一种语义关系,如果直接用句子语义表示来分类这两种关系,很容易将这两种关系混淆,加入区分度特征后可以避免这一情况从而在整体上提升模型准确率。
[0072] 3、本发明融合区分度信息的神经网络关系分类方法用一个卷积神经网络将两种不同的特征融合在一起,并且实现了进一步提取重要特征的目的,简单且效果好。
[0073] 4、本发明仅用两层神经网络就达到了很好的效果,且不需要大量的数据来训练模型。附图说明
[0074] 图1为本发明神经网络关系分类方法的实现系统的结构框图

具体实施方式

[0075] 下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
[0076] 实施例1
[0077] 一种融合区分度信息的神经网络关系分类方法,包括步骤如下:
[0078] (1)数据预处理:本申请采用公开的数据集进行结果评测,而公开的数据集是原始数据,不符合模型的输入要求,需要进行预处理。先采用one-hot形式来表示数据集中的实体词;例如,将数据集中的实体均表示成1.0,其它表示成0.0;再根据数据集中的文本类别对数据进行类别标定;数据集中的文本类别共分为19类,采用一个19维的one-hot向量表示每一类的类别,one-hot向量中1对应的位置就是该类别的索引位置,将这个19维的向量与文本中的句子放在同一行,用“/”分开,读取数据时将样本与标签一起读进内存中,就获得了每一个句子的标签;将数据集分为训练集和测试集。
[0079] (2)训练词向量;将文本数据转换成数学数据,即获取训练集中的每一个词相应的词向量;
[0080] (3)抽取位置向量;
[0081] (4)针对具体任务建模;利用双向LSTM编码实体词的上下文信息和语义信息;
[0082] (5)将句子中指定的两个实体词的词向量相减,即将句子中的后面的实体词的词向量减去句子中的前面的实体词的词向量,比如,“这起事故造成两人死亡”和“这两个人的死亡是由这起事故造成的”,在第一个句子中,事故是第一个实体词,死亡是第二个实体词,在第二个句子中,事故是第二个实体词,死亡是第一个实体词,在本发明中总是保持用第二个实体词减去第一个实体词的原则,得到新的向量;
[0083] 与此同时,将句子中的后面的实体词的位置向量减去句子中的前面的实体词的位置向量,并将得到的结果线性变换映射到高维向量空间中,将得到的向量与新的向量级联后输入到Bi-LSTM单元中,经过该Bi-LSTM单元编码后的向量为区分度特征;比如,以因果(e1,e2)和因果(e2,e1)这两种关系为例,用第二个实体向量减第一个实体向量,得到的向量是两个大小相等方向相反的向量,刚好对因果(e1,e2)和因果(e2,e1)这两种关系来说,他们的语义关系是相同的(都是因果关系),只有实体方向不同(两个实体在句子中的位置不同),对于只抽取语义关系的模型来说无法区分实体方向上的不同容易造成因果(e1,e2)和因果(e2,e1)这两种关系的混淆,而引入由实体相减得到的两个大小相等方向相反的向量能够把方向上的区分特征引入到语义表示模型中,从而很好的区分语义关系相同但方向不同的两类关系。引入该特征特后,相比于基于长短时记忆神经网络的基本模型来说,准确率提高了16.8%。
[0084] (6)将步骤(4)得到的语义特征和步骤(5)得到的区分度特征进行融合,得到融合了区分度特征的整个句子对关系分类任务最重要的信息;
[0085] (7)采用损失函数训练模型。
[0086] 实施例2
[0087] 根据实施例1所述的一种融合区分度信息的神经网络关系分类方法,其区别在于,[0088] 步骤(2)中,训练词向量,包括:
[0089] A、下载维基百科2011年11月6日全天的英文数据作为初始训练数据,并对这些初始训练数据进行清洗,去掉没有意义的特殊字符和格式,将HTML格式的数据处理成TXT格式的数据;
[0090] B、将步骤A处理后的数据喂入Word2vec进行训练,训练时,采用skip-gram模型,窗口大小设为3-8,迭代周期设为2-15,设定词向量的维度是200-400维,训练结束后,得到一个词向量映射表;
[0091] C、根据步骤B得到的词向量映射表,获取训练集的每一个词对应的词向量。为了加快训练速度,本专利将该词典中的词与数据集中出现的词一一对应,1,对多余的词向量舍弃。
[0092] 步骤(3)中,抽取位置向量,包括:获取训练集中的每一个词的位置向量特征,位置向量特征包括句子中的每个词到实体词的相对距离组成,根据步骤(1)得到的每个实体词在句子中的位置,以实体位置为原点,得到句子中的每个词相对实体词的位置,每个词对两个实体的相对位置组成该词的位置向量特征;例如,句子为:阿里巴巴公司位于中国杭州,该句子中有两个实体为:公司、杭州,第一个词相对于两个实体的位置为(-1,-,4),“阿里巴巴”到“公司”的距离是-1,到“杭州”的距离是-5;第二个词到两个实体的距离是(0,-3),“公司”到“公司”的距离是0,到“杭州”的距离是-3;并获取每个位置向量特征的高维位置特征向量,将步骤(2)获取的每一个词的词向量与该词的高维位置特征向量级联,得到每个词的联合特征。包括:
[0093] a、获取训练集中的每一个词的位置向量特征,位置向量特征的计算公式如式(IV)所示:
[0094] dle=WledT    (IV)
[0095] 式(IV)中,Wle是需要学习的权重矩阵,dT是初始位置向量,d1e表示位置向量,l是位置location的第一个字母,e是嵌入embedding的第一个字母;
[0096] b、将步骤a获取的每一个词的位置向量特征通过线性变换映射到高维空间,设定高维空间的维度为50-90维,得到每个位置向量特征的高维位置特征向量;
[0097] c、将步骤(2)获取的每一个词的词向量与该词的高维位置特征向量级联,得到每个词的联合特征。词向量是400维,该词的高维位置特征向量是60维(或60-90维),将位置特征向量放到词向量的后面就变成了400+60=460维的向量,这就是级联,得到的460维的新向量就是联合特征。
[0098] 步骤(4)中,利用双向LSTM编码实体词的上下文信息和语义信息,包括:
[0099] 单向LSTM可以按照人类的阅读顺序从一句话的第一个字记忆到最后一个字,这种LSTM结构只能捕捉到上文信息,无法捕捉到下文信息,双向LSTM包括两个方向不同的LSTM,一个LSTM按照句子中词的顺序从前往后读取数据,获得上文信息;另一个LSTM从后往前按照句子词序的反方向读取数据,获得下文信息;两个LSTM的联合说出就是整个句子的上下文信息,而上下文信息是由整个句子提供的,自然包含比较抽象的语义信息,这种方法的优点是充分利用了LSTM对具有时序特点的序列数据的处理优势,而且由于我们输入了位置特征,其经过双向LSTM编码后可以抽取出位置特征中包含的实体方向信息,其他的方法就没有这样的优点。双向LSTM编码后,隐藏层输出每个词对应的经过编码后的向量,作为整个句子的语义特征;包括步骤如下:
[0100] A、求取t时刻双向LSTM模型中的输入门的值it,如式(Ⅴ)所示:
[0101] it=σ(Wihht-1+Wixxt+bi)(Ⅴ)
[0102] 式(Ⅴ)中,σ表示sigmoid激活函数;Wih是输入门中输入项ht-1对应的权重矩阵,Wix是输入门中输入项xt对应的权重矩阵,ht-1是上一时刻隐藏层的输出,xt是当前时刻的输入,bi是输入门的偏置项;
[0103] B、求取t时刻双向LSTM模型中的遗忘门的值ft,如式(Ⅵ)所示:
[0104] ft=σ(Wfhht-1+Wfxxt+bf)(Ⅵ)
[0105] 式(Ⅵ)中,Wfh是遗忘门中输入项ht-1对应的权重矩阵,Wfx是遗忘门中输入项xt对应的权重矩阵,bf是遗忘门的偏置项;
[0106] C、求取t时刻LSTM单元中的输出门的值ot,如式(Ⅶ)所示:
[0107] ot=σ(Wohht-1+Woxxt+bo)(Ⅶ)
[0108] 式(Ⅶ)中,Woh是输出门中输入项ht-1对应的权重矩阵,Wox是输出门中输入项xt对应的权重矩阵,bo是输出门的偏置项;
[0109] D、求取当前输入的LSTM单元状态gt,如式(Ⅷ)所示:
[0110] gt=tanh(Wghht-1+Wgxxt+bg)(Ⅷ)
[0111] 式(Ⅷ)中,Wgh是单元状态中输入项ht-1对应的权重矩阵,Wgx是单元状态中输入项xt对应的权重矩阵,bg是单元状态的偏置项,tanh表示双曲正切函数,用作激活函数;
[0112] E、求取t时刻的双向LSTM模型的细胞状态ct,如式(Ⅸ)所示:
[0113] ct=it⊙gt+ft⊙ct-1(Ⅸ)
[0114] 式(Ⅸ)中,ct-1是上一时刻的细胞状态,⊙表示按元素乘;
[0115] F、求t时刻双向LSTM模型的隐藏层状态ht,如式(Ⅹ)所示:
[0116] ht=ot⊙tanh(ct)  (Ⅹ)
[0117] 文本数据经过双向LSTM模型之后,在上述输入门、遗忘门、输出门的控制作用下,输出该文本数据的上文信息和下文信息。由于遗忘门的控制,它可以保存很久很久之前的信息,由于输入门的控制,它又可以避免无关紧要的内容进入记忆。因此文本数据经过LSTM单元之后,在各种门结构的控制作用下,输出的特征表示既包含有丰富的语义特征,又含有丰富的时序特征。
[0118] 步骤(5)中,获得区分度信息的的过程是将两个实体向量相减,同时为保证一致性,两个实体的位置向量以同样的方式相减,然后将这两个相减得到的结果用一个Bi-LSTM单元,两个实体词的词向量相减的实现过程如式(Ⅰ)所示:
[0119] edic=e2-e1    (Ⅰ)
[0120] 式(Ⅰ)中,e2,e1是指两个实体词的词向量,edic是两个实体词的词向量相减的结果;
[0121] 两个实体词的词向量相减的结果、两个实体词的位置向量相减的结果级联后输入Bi-LSTM单元编码的实现过程如式(Ⅱ)所示:
[0122]
[0123] 式(Ⅱ)中, 表示两个实体词的位置向量相减的结果,dic表示edic与 级联后用Bi-LSTM单元编码后得到的编码向量。
[0124] 步骤(6)中,将步骤(4)得到的语义特征和步骤(5)得到的区分度特征进行融合,包括:将语义特征、区分度特征输入特征融合模块,经过卷积神经网络提取特征,输出融合了区分度特征的整个句子对关系分类任务最重要的信息,特征融合模块是一维卷积神经网络。将融合了区分度信息的句子表示输入至分类器中进行分类,分类器的计算公式及对类别的评分函数分别如式(Ⅺ)、(Ⅻ)所示:
[0125] score(x)=Wxs+bx    (Ⅺ)
[0126] sc=[Wxs+bx]c    (Ⅻ)
[0127] 式(Ⅺ)、(Ⅻ)中,W0是要学习的权重矩阵,s是卷积层的输出,b0是偏置向量,c是正确类别符号,score(x)是样本x的类别的概率分布,sc是样本x对应的正确类别的概率。
[0128] 步骤(7)中,采用交叉熵损失函数训练模型,模型损失计算公式如式(Ⅲ)所示:
[0129]
[0130] 式(Ⅲ)中,x是要判断的样本,px是样本类别的标准分布,qx是样本类别的预测分布。
[0131] 实施例3
[0132] 上述神经网络关系分类方法的实现系统,如图1所示,包括句子表示模块、区分度模块及特征融合模块,句子表示模块、区分度模块分别连接特征融合模块;
[0133] 句子表示模块用于:将训练集中句子中的每一个词对应到词典中,找到其对应的词向量,变为计算机可处理的向量形式,获取位置向量,将获得的位置向量与前面的词向量级联,得到的新向量作为Bi-LSTM单元的输入,经过Bi-LSTM单元编码后得到句子的语义特征;
[0134] 区分度模块用于:将句子中指定的两个实体词的词向量相减,将得到的向量与位置向量级联后输入到Bi-LSTM单元中,Bi-LSTM单元是一个步长为1的长短时记忆神经网络,Bi-LSTM单元的输出即为区分度特征;
[0135] 特征融合模块用于:采用一个卷积神经网络融合语义特征与区分度特征,其输入为句子表示模块的输出和区分度模块的输出,经过卷积神经网络提取特征后,将输出的特征向量输入到分类器中分类。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈