首页 / 专利库 / 软件 / 网络机器人 / 网络爬虫 / 复数融合特征提取指针式抽取三元组信息的方法、系统及计算机介质

复数融合特征提取指针抽取三元组信息的方法、系统及计算机介质

阅读:210发布:2020-05-14

专利汇可以提供复数融合特征提取指针抽取三元组信息的方法、系统及计算机介质专利检索,专利查询,专利分析的服务。并且本 发明 提供一种复数融合特征提取 指针 式 抽取 三元组信息的方法、装置及计算机设备,包括以下步骤:S1:获取文本和对应三元组SPO标签;S2:训练获得每个字的字向量;S3:将文本中每个字按字向量输入网络中训练完成特征提取;S4:将提取好的特征输入到指针模型训练;S5:用训练好的模型抽取三元组SPO。本发明提供一种全新的模型抽取文本中的三元组,采用复数融合 特征向量 后,依次根据其主体S和客体P“指针”,训练指针网络模型,然后用训好的模型抽取出目标中所有三元组。,下面是复数融合特征提取指针抽取三元组信息的方法、系统及计算机介质专利的具体信息内容。

1.一种复数融合特征提取指针抽取三元组信息的方法,其特征在于,包括以下步骤:
S1:从各类文本中获取句子和对应的三元组标签,所述的三元组标签为主体S、客体O和关系P;
S2:将每个句子编码成向量格式,通过词位置Embedding层训练获得每个字的字向量;
S3:将句子中每个字按字向量输入特征提取网络中训练完成特征提取,得到每句话的特征向量
S4:将每句话的特征向量输入指针模型中训练;
S5:用训练好的的模型,抽取出目标中所有S主体;根据所有的主体S指引,抽取出对应的所有关系P;再根据(S,P)的所有组合指引抽取出所有O客体。
2.根据权利要求1所述的复数融合特征提取指针式抽取三元组信息的方法,其特征在于,所述的步骤S1中通过网络爬虫和人工批注分别获得句子和对应的三元组。
3.根据权利要求2所述的复数融合特征提取指针式抽取三元组信息的方法,其特征在于,在所述的S2的具体步骤如下:
S21.将所有句子中的每个字符进行编码,不同编号对应不同的字符;
S22.确定一固定序列长度X,句子长度超过X时截断至长度为X;若不足句子长度不足X,则在句子后补0直至句子长度为X,形成被计算机识别的句子向量;
S23.对步骤S22所得的句子向量置于词位置编码层Embedding层进行编码,得到词位置编码的字向量。
4.根据权利要求3所述的复数融合特征提取指针式抽取三元组信息的方法,其特征在于,所述的S3的具体步骤如下:
S31.将得到的词位置编码的字向量送入特征提取网络中进行训练,包括卷积网络和循环网络;
S32.卷积网络提取出的句子特征向量为A=[a1,a2,..,ai];循环网络提取出的句子特征向量为B=[b1,b2,..,bi],其中a,b为单个字向量;
S33.将A和B改写成复数模式,其中 n为a1、b1向量中元
素的个数;
S34.将A^和B^进行复数相加,判断其模的大小,若其模的大小同时大于 或的模值则进行融合,hi既选择ai+bi;反之,选择A^与B^中模值较大的一方作为最终的特征提取向量,hi既从ai和bi选择一个;
S35.获得最终融合的特征向量H=[h1,h2,h3…hi]。
5.根据权利要求1所述的复数融合特征提取指针式抽取三元组信息的方法,其特征在于,所述的指针模型包括Attention1模型、Attention2模型、Attention3模型。
6.根据权利要求5所述的复数融合特征提取指针式抽取三元组信息的方法,其特征在于,在所述的S4的具体步骤如下:
S41.将融合后的特征向量Hi=[h1,h2,h3…hi],每个h是每个字的向量;
S42.以当前状态本身去计算得分作为当前单元Attention_1  score:
A=softmax(VaTtanh(WaHi),其中Va和Wa是参数,e表示当前特征向量
的分数score,Va与Wahi进行相似度计算得到e,VaT是训练参数向量Va的转置,向量之间计算相似度常用转置,用归一化的的方式得到权值A;
S43.通过训练得到,Wa维数dxd,hi维数dx1,Va维数dx1,经过Attention_1得到一个最终的向量C=AxH,对原始的向量H加权求和的结果C就为注意值;通过注意力值向量去表示文本,根据标签信息网络是可以学习到注意力在对应预测的SOP上的;
S44.使用2分类器对注意力向量Hi=[h1,h2,h3…hi]进行相应的SPO三元组信息进行抽取,模型使用Adam优化器进行训练,根据检验,先用较小的学习率训练,然后加载训练的最优结果,再用更小的学习率继续训练到最优。
7.根据权利要求4所述的复数融合特征提取指针式抽取三元组信息的方法,其特征在于,所述的S5的具体步骤如下:
S51.利用训练好的模型,抽取出目标中所有S主体,采样其中一个主体S1,Attention1模型处理融合后的特征向量和对应抽取的特征向量;
S52.通过主体S1的位置结合融合后的特征向量,使用attention2模型抽取P并通过一个softmax层得到关系P向量;
S53.对于不同的(S,P)组合,融合后的特征向量和预测出来的S,P向量结合组成新的向量,依次通过一个Attention_3模型加sigmoid层来预测对应的O的位置;
S54.输出对应的SPO三元组信息。
8.一种复数融合特征提取指针式抽取三元组信息的系统,其特征在于,利用网络爬虫获取原始数据,用于从语料中提取目标对象的所有三元组信息,经过训练后,第一抽取模,用于使用抽取模型抽取主体S;第二抽取模块,用于使用抽取模型抽取关系P;第三抽取模块,用于使用抽取模型抽取客体O。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括机器的一种复数融合特征提取指针式抽取三元组信息方法程序,所述一种复数融合特征提取指针式抽取三元组信息方法被处理器执行时,实现如权利要求1至7中任一项所述的复数融合特征提取指针式抽取三元组信息方法的步骤。

说明书全文

复数融合特征提取指针抽取三元组信息的方法、系统及计

算机介质

技术领域

[0001] 本发明涉及文本特征提取和信息抽取领域,更具体地,涉及一种复数融合特征提取指针式抽取三元组信息的方法、系统及计算机介质

背景技术

[0002] 为了应对信息爆炸带来的挑战,迫切需要一些自动化的工具帮助人们从海量信息源中迅速找到真正需要的信息,所有的海量信息都是由每一句话组成,而每句话都是由若干个“主语-谓语-宾语(主体S,客体O和它们两之间的关系P)”三元组组成。随便去百度百科找一句话如:“XX技术有限公司是一家生产销售通信设备的民营通信科技公司,于1987年正式注册成立,总部位于中国广东省深圳市龙岗区。”,在这句话中,所有的三元组为{S:“XX技术有限公司”,O:“1987年”,P:“成立时间”}和{S:“XX技术有限公司”,O:“广东省深圳市龙岗区”,P:“总部地点”}。如何高效准确无误的抽取出网上文本的关键信息一直是该领域的一大挑战。目前大多数深度学习方法中,一类是联合抽取,输入一个句子,通过实体识别和关系抽取联合模型,该联合模型把原来涉及到序列标注任务和分类任务的关系抽取完全变成了一个序列标注问题,然后通过一个端对端的神经网络模型直接得到三元组,这种方法可以一步到位,但是可能会有更复杂的结构。另一类是两步走方法,输入一个句子,首先进行命名实体识别,然后对识别出来的主体S和客体O进行两两组合,再进行系p抽取,得到(s,o)组合对应的关系p分类,最后把存在实体关系的三元组作为输入,最后保存所有的三元组。

发明内容

[0003] 针对的现有技术中深度学习不能抽取出所有的三元组,因为根据序列标注策略,不支持实体关系重叠的情况,而两步走的抽取方法不能有效抽取“一个S、多个(P,O)”和同一对(S,O)也可能对应多个P的形式的问题,本发明提供一种复数融合特征提取指针式抽取三元组信息的方法。
[0004] 一种复数融合特征提取指针式抽取三元组信息的方法,包括以下步骤:
[0005] S1:从各类文本中获取句子和对应的三元组标签,所述的三元组标签为主体S、客体O和关系P;
[0006] S2:将每个句子编码成向量格式,通过词位置Embedding层训练获得每个字的字向量;
[0007] S3:将句子中每个字按字向量输入特征提取网络中训练完成特征提取,得到每句话的特征向量
[0008] S4:将每句话的特征向量输入指针模型中训练;
[0009] S5:用训练好的的模型,抽取出目标中所有S主体;根据所有的主体S指引,抽取出对应的所有关系P;再根据(S,P)所有组合指引抽取出所有O客体,其抽取出的目标与标签具有一一对应的关系。
[0010] 在一种优选方案中,所述的步骤S1中通过网络爬虫和人工批注分别获得句子和对应的三元组。
[0011] 在一种优选方案中,在所述的S2的具体步骤如下:
[0012] S21.将所有句子中的每个字符进行编码,不用编号对应不同的字符;
[0013] S22.确定一固定序列长度X,句子长度超过100时截断至长度为100;若不足句子长度不足100,则在句子后补0直至句子长度为100,形成被计算机识别的句子向量;
[0014] S23.对步骤S22所得的句子向量置于词位置编码层Embedding层进行编码,得到词位置编码的字向量。
[0015] 在一种优选方案中,所述的S3的具体步骤如下:
[0016] S31.将得到的词位置编码的字向量送入特征提取网络中进行训练,包括卷积网络和循环网络;
[0017] S32.卷积网络提取出的句子特征向量为A=[a1,a2,…,ai];循环网络提取出的句子特征向量为B=[b1,b2,…,bi],其中a,b为单个字向量;
[0018] S33.将A和B改写成复数模式,其中 n为a1、b1向量中元素的个数;
[0019] S34.将A^和B^进行复数相加,判断其模的大小,若其模的大小大于 或的模值则进行融合,既选择a1+b1;反之,选择A^与B^中模值较大的一方作为最终的特征提取向量,既从ai和bi选择一个;
[0020] S35.获得最终融合的特征向量H=[h1,h2,h3…hi]。
[0021] 在一种优选方案中,在所述的S4的具体步骤如下:
[0022] S41.将融合后的特征向量H=[h1,h2,h3…hi],每个h是每个字的向量;
[0023] S42.以当前状态本身去计算得分作为当前单元Attention_1score:其中Va和Wa是参数,e表示当前特征向量
的分数score,Va与Wahi进行相似度计算得到e, 是训练参数向量Va的转置,向量之间计算相似度常用转置,用归一化的的方式得到权值A;
[0024] S43.通过训练得到,Wa维数dxd,hi维数dx1,Va维数dx1,经过Attention_1得到一个最终的向量C=AxH,对原始的向量H加权求和的结果C就为注意值;通过注意力值向量去表示文本,根据标签信息网络是可以学习到注意力在对应预测的SOP上的。在预测S主体位置向量实际上就是两个二分类,在二分类问题中,其取值的集合可能为{0,1},所以损失函数依然用二分类交叉熵。
[0025] S44.使用2分类器对注意力向量Hi=[h1,h2,h3…hi]进行相应的SPO三元组信息进行抽取,模型使用Adam优化器进行训练,根据检验,先用较小的学习率训练,然后加载训练的最优结果,再用更小的学习率继续训练到最优。
[0026] 在一种优选方案中,所述的指针模型包括Attention1模型、Attention2模型、Attention3模型。
[0027] 在一种优选方案中,所述的S5的具体步骤如下:
[0028] S51.利用训练好的模型,抽取出目标中所有S主体,采样其中一个主体S1,Attention1模型处理融合后的特征向量和对应抽取的特征向量;
[0029] S52.通过S1的位置结合融合后的特征向量,使用attention2模型抽取P并通过一个softmax层得到关系P向量;
[0030] S53.对于不同的(S,P)组合,融合后的特征向量和预测出来的S,P向量结合组成新的向量,依次通过一个Attention_3模型加sigmoid层来预测对应的O的位置,其中Attention_2与Attention_1,Attention_2模型结构相同,只是训练完参数不同,它更注意的是客体O位置这个权重(对应的抽取信息),sigmoid层同预测S原理相同。
[0031] S54.输出对应的SPO三元组信息。
[0032] 本发明第二方面公开一种复数融合特征提取指针式抽取三元组信息的系统,利用网络爬虫获取原始数据,用于从语料中提取目标对象的所有三元组信息,经过训练后,第一抽取模,用于使用抽取模型抽取主体S;第二抽取模块,用于使用抽取模型抽取关系P;第三抽取模块,用于使用抽取模型抽取客体O。
[0033] 本发明第三方面一种计算机可读存储介质,所述计算机可读存储介质中包括机器的一种复数融合特征提取指针式抽取三元组信息方法程序,所述一种复数融合特征提取指针式抽取三元组信息方法被处理器执行时,实现上述的复数融合特征提取指针式抽取三元组信息方法的步骤。
[0034] 与现有技术相比,本发明技术方案的有益效果是:
[0035] 本发明提供一种基于结点入度变化的树结构可视化方法,提供一种全新的模型抽取文本中的三元组,采用复数融合特征向量后,依次根据其主体S和客体P“指针”,训练指针网络模型,然后用训好的模型抽取出目标中所有三元组。附图说明
[0036] 图1是本发明提供的一种复数融合特征提取指针式抽取三元组信息的方法的总流程示意图;
[0037] 图2是实施例2步骤S2中对字向量进行处理的示意图;
[0038] 图3是实施例2步骤S3的流程示意图;
[0039] 图4是实施例2步骤S5的流程示意图;
[0040] 图5是实施例2步骤S5中Attention1模型展开图;
[0041] 图6是实施例2中提供的一种复数融合特征提取指针式抽取三元组信息的系统的模块示意图。

具体实施方式

[0042] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,仅用于示例性说明,不能理解为对本专利的限制。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0043] 下面结合附图和实施例对本发明的技术方案做进一步的说明。
[0044] 实施例1
[0045] 一种复数融合特征提取指针式抽取三元组信息的方法,如图1所示,包括以下步骤:
[0046] 一种复数融合特征提取指针式抽取三元组信息的方法,包括以下步骤:
[0047] S1:从各类文本中获取句子和对应的三元组标签,所述的三元组标签为主体S、客体O和关系P;
[0048] S2:将每个句子编码成向量格式,通过词位置Embedding层训练获得每个字的字向量;
[0049] S3:将句子中每个字按字向量输入特征提取网络中训练完成特征提取,得到每句话的特征向量;
[0050] S4:将每句话的特征向量输入指针模型中训练;
[0051] S5:用训练好的的模型,抽取出目标中所有S主体;根据所有的主体S指引,抽取出对应的所有关系P;再根据(S,P)所有组合指引抽取出所有O客体,其抽取出的目标与标签具有一一对应的关系。
[0052] 实施例二
[0053] 一种复数融合特征提取指针式抽取三元组信息的方法,包括以下步骤:
[0054] 一种复数融合特征提取指针式抽取三元组信息的方法,包括以下步骤:
[0055] S1:从各类文本中获取句子和对应的三元组标签,所述的三元组标签为主体S、客体O和关系P;
[0056] S2:将每个句子编码成向量格式,通过词位置Embedding层训练获得每个字的字向量;
[0057] S3:将句子中每个字按字向量输入特征提取网络中训练完成特征提取,得到每句话的特征向量;
[0058] S4:将每句话的特征向量输入指针模型中训练;
[0059] S5:用训练好的的模型,抽取出目标中所有S主体;根据所有的主体S指引,抽取出对应的所有关系P;再根据(S,P)所有组合指引抽取出所有O客体,其抽取出的目标与标签具有一一对应的关系。
[0060] 在一种优选方案中,所述的步骤S1中通过网络爬虫和人工批注分别获得句子和对应的三元组。
[0061] 在一种优选方案中,如图2所示,在所述的S2的具体步骤如下:
[0062] S21.将所有句子中的每个字符进行编码,不用编号对应不同的字符;
[0063] S22.确定一固定序列长度X,句子长度超过100时截断至长度为100;若不足句子长度不足100,则在句子后补0直至句子长度为100,形成被计算机识别的句子向量;
[0064] S23.对步骤S22所得的句子向量置于词位置编码层Embedding层进行编码,得到词位置编码的字向量。
[0065] 在一种优选方案中,如图3所示,所述的S3的具体步骤如下:
[0066] S31.将得到的词位置编码的字向量送入特征提取网络中进行训练,包括卷积网络和循环网络;
[0067] S32.卷积网络提取出的句子特征向量为A=[a1,a2,…,ai];循环网络提取出的句子特征向量为B=[b1,b2,…,bi],其中a,b为单个字向量;
[0068] S33.将A和B改写成复数模式,其中 n为a1、b1向量中元素的个数;
[0069] S34.将A^和B^进行复数相加,判断其模的大小,若其模的大小大于 或的模值则进行融合,既选择a1+b1;反之,选择A^与B^中模值较大的一方作为最终的特征提取向量,既从ai和bi选择一个;
[0070] S35.获得最终融合的特征向量H=[h1,h2,h3…hi]。
[0071] 在一种优选方案中,在所述的S4的具体步骤如下:
[0072] S41.将融合后的特征向量H=[h1,h2,h3…hi],每个h是每个字的向量;
[0073] S42.以当前状态本身去计算得分作为当前单元Attention_1score:其中Va和Wa是参数,e表示当前特征向量
的分数score,Va与Wahi进行相似度计算得到e, 是训练参数向量Va的转置,向量之间计算相似度常用转置,用归一化的的方式得到权值A;
[0074] S43.通过训练得到,Wa维数dxd,hi维数dx1,Va维数dx1,经过Attention_1得到一个最终的向量C=AxH,对原始的向量H加权求和的结果C就为注意力值;通过注意力值向量去表示文本,根据标签信息网络是可以学习到注意力在对应预测的SOP上的。在预测S主体位置向量实际上就是两个二分类,在二分类问题中,其取值的集合可能为{0,1},所以损失函数依然用二分类交叉熵。
[0075] S44.使用2分类器对注意力向量Hi=[h1,h2,h3…hi]进行相应的SPO三元组信息进行抽取,模型使用Adam优化器进行训练,根据检验,先用较小的学习率训练,然后加载训练的最优结果,再用更小的学习率继续训练到最优。
[0076] Attention_1模型展开如图5,Attention网络处理融合后的特征向量和对应抽取的特征向量后生成最终全新的句子特征向量。最后通过两个sigmoid层分别预测S主体第一个字的起始和结束最后一个字的结束位置。如[1,0,0,0,0,0,0,0,0,0]和[0,0,0,0,0,1,0,0,0,0]。
[0077] 在一种优选方案中,如图5所示,所述的S5的具体步骤如下:
[0078] S51.利用训练好的模型,抽取出目标中所有S主体,采样其中一个主体S1,Attention1模型处理融合后的特征向量和对应抽取的特征向量;
[0079] S52.通过S1的位置结合融合后的特征向量,使用attention2模型抽取P并通过一个softmax层得到关系P向量;
[0080] S53.对于不同的(S,P)组合,融合后的特征向量和预测出来的S,P向量结合组成新的向量,依次通过一个Attention_3模型加sigmoid层来预测对应的O的位置,其中Attention_2与Attention_1,Attention_2模型结构相同,只是训练完参数不同,它更注意的是客体O位置这个权重(对应的抽取信息),sigmoid层同预测S原理相同。
[0081] S54.输出对应的SPO三元组信息。
[0082] 本发明第二方面公开一种复数融合特征提取指针式抽取三元组信息的系统,如图6所示利用网络爬虫获取原始数据,用于从语料中提取目标对象的所有三元组信息,经过训练后,第一抽取模块,用于使用抽取模型抽取主体S;第二抽取模块,用于使用抽取模型抽取关系P;第三抽取模块,用于使用抽取模型抽取客体O。
[0083] 本发明第三方面一种计算机可读存储介质,所述计算机可读存储介质中包括机器的一种复数融合特征提取指针式抽取三元组信息方法程序,所述一种复数融合特征提取指针式抽取三元组信息方法被处理器执行时,实现上述的复数融合特征提取指针式抽取三元组信息方法的步骤。
[0084] 显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈