专利汇可以提供一种基于多头注意力机制的事件论元角色抽取方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于多头注意 力 机制的事件论元 角 色 抽取 方法。本发明实现步骤如下:步骤(1)数据集文本预处理,输出预处理好的文本和对应的标签;步骤(2)训练融合多头监督注意力机制的双向GRU网络;步骤(3)对文本进行语义依存分析,输出触发词与候选论元之间的语义依存路径;步骤(4)将预处理好的文本输入步骤(2)中网络训练后输出每个词的编码,融合步骤(3)中的语义依存路径输出 论元分类结构;步骤(5)将论元分类结构输入分类网络训练并进行分类。本发明利用融合多头监督注意力机制的神经网络方法对文本进行分析,对事件句中存在多个事件情形具有良好的论元角色抽取能力。,下面是一种基于多头注意力机制的事件论元角色抽取方法专利的具体信息内容。
1.一种基于多头注意力机制的事件论元角色抽取方法,其特征在于包括如下步骤:
步骤(1)数据集文本预处理,输出预处理好的文本和对应的标签;
步骤(1)所述的预处理过程如下;
1-1.将数据集文本中的标注信息和文本内容分离;
1-2.将文本内容转换成词向量;
1-3.输出预处理好的文本和对应的标签;
步骤(2)训练融合多头监督注意力机制的双向GRU网络;
2-1.特征提取,将步骤(1)中预处理好的文本和对应的标签输入双向GRU网络提取特征,输出每个词编码;
2-2.训练多头监督注意力机制,将注意力机制输出的注意力向量与步骤2-1中的词编码做点乘运算输出最终融合注意力向量的词编码;
步骤(3)对文本进行语义依存分析,输出触发词与候选论元之间的语义依存路径;
步骤(4)将预处理好的文本输入步骤(2)中网络训练后输出每个词的编码,融合步骤(3)中的语义依存路径输出<触发词编码,候选论元编码,语义依存路径>论元分类结构;
步骤(5)将论元分类结构输入分类网络训练并进行分类;
所述的步骤1-1具体为:
将XML标注内容处理成每个单词对应的标注,具体操作为:原始XML标注文本通过字符偏移量标注了事件触发词的起始字符位置和偏移量;首先将事件文本通过分词工具进行分词,同时根据XML标注文本中的信息,将事件文本中的每一个词进行编码,即根据每个词是否是事件触发词分别进行1-38编码,预定义38种事件类型;根据标注文件中的论元角色信息为文中每个实体论元制定对应的论元角色编码;
步骤1-2具体为:
首先通过大量新闻类文本训练word2vec模型,使用训练好的word2vec模型,将步骤1-1中的文本内容转化为词向量,交给后续网络。
2.根据权利要求1所述的一种基于多头注意力机制的事件论元角色抽取方法,其特征在于步骤2-2具体实现如下:
所述双向GRU神经网络模型中,将输入数据随机取70%作为训练数据,15%作为验证数据,剩余15%作为测试数据;选取GRU作为递归神经网络提取文本中每个词的篇章信息,即全局特征;
利用双向GRU输出的隐藏层编码特征,输入注意力机制层,计算得出每个隐藏层向量的注意力向量;
第k个注意力头学习到的第j个词对于第i个词的注意力权重向量 表示为:
其中,hi,hj是第i个词和第j个词在双向GRU中的输出,f(·)函数表示对hi,hj进行相关度计算,σ(·)函数为sigmoid激活函数,exp(·)为指数函数,j取值从0到n,n为句子长度;
将n个注意力头连接得到第j个词对第i个词的完整注意力向量αij:
将每个触发词与候选实体的注意力向量和候选论元词编码hk相乘累加后得到第i个候选实体的最终表示Ri为:
其中w为注意力机制范围为句子长度,hj表示第j个词双向GRU的输出,αij为第j个词对第i个词的注意力向量;
计算隐藏层向量和注意力向量的点乘结果得出最终每个词的向量,输出最终编码Ri。
3.根据权利要求2所述的一种基于多头注意力机制的事件论元角色抽取方法,其特征在于步骤(3)所述文本进行语义依存分析,具体过程如下:
将文本信息通过Stanford CoreNLP工具进行语义依存分析得到语义依存分析树;将树结构信息构造成图结构,利用深度优先搜索遍历图得到触发词到每个词的路径信息;将文本路径信息进行one-hot编码输出语义依存路径编码P。
4.根据权利要求3所述的一种基于多头注意力机制的事件论元角色抽取方法,其特征在于步骤(4)所述文本进行语义依存分析,具体过程如下:
针对每一个触发词,找到该句中的所有非触发词论元实体的编码,以及这些论元实体和触发词之间的语义依存路径编码;将触发词编码和上述两个编码连接输出<触发词编码ht,候选论元编码Ri,语义依存路径编码P>。
5.根据权利要求4所述的一种基于多头注意力机制的事件论元角色抽取方法,其特征在于步骤(5)所述论元分类结构输入分类网络训练并进行分类,具体过程如下:
分类主要通过一个softmax操作进行,具体通过计算候选论元实体在各类论元角色上的概率分布p(ai|ti,Ri,θ):
其中,ai是论元角色类型,ti是事件类型,Ri是候选论元最终编码,m表示该论元角色在该类型事件是否允许,oi表示输出向量o的第i个维度结果,n表示ti类事件中的论元角色总数,i表示当前词的序号;
定义负对数似然损失函数J(θ);并表示成两部分,一部分是编码网络部分到最终分类网络的全局损失,另一部分表示注意力向量部分损失;
其中x(i)是ti,Ri的统称,为注意力对整体模型的影响系数,D(θ)是监督训练中注意力向量的损失函数;采用均方误差作为损失函数:
其中, 为第j个词对第i个词的注意力向量期望值, 为计算得到的第j个词对第i个词的真是注意力值;使用随机梯度下降法和AdaDelta更新规则对分组的批数据进行训练;
通过dropout实现正则化。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种媒体热点跟踪方法及系统 | 2020-05-15 | 544 |
毛里塔尼亚海域头足类资源丰度预测方法 | 2020-05-12 | 374 |
一种挖掘社区领域专家的方法和装置 | 2020-05-18 | 930 |
手机键盘的英语字母排列 | 2020-05-12 | 416 |
一种基于持续时间模型的驾驶员违章风险估计方法 | 2020-05-19 | 33 |
一种挖掘社区领域专家的方法和装置 | 2020-05-19 | 257 |
摩洛哥海域头足类资源丰度预测方法 | 2020-05-12 | 402 |
文章推荐方法、装置及设备 | 2020-05-14 | 530 |
基于元结构技术的全局引文推荐方法、推荐系统 | 2020-05-17 | 745 |
一种文章推荐方法、装置 | 2020-05-16 | 167 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。