首页 / 专利库 / 人工智能 / 长短期记忆单元 / 一种基于神经网络的中文关系抽取方法

一种基于神经网络的中文关系抽取方法

阅读:455发布:2020-05-12

专利汇可以提供一种基于神经网络的中文关系抽取方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于神经网络的中文关系 抽取 方法,该方法可以有效获取句子的结构信息和语义信息。在关系抽取任务中,单一的长短期记忆模型只能学习到某个特定维度的特征,而 卷积神经网络 可以利用多个卷积核学习不同维度特征。基于上述两个特点,本发明提出了一种多层双向长短期记忆-注意 力 模型,该方法通过给长短期记忆模型设置不同大小的 隐藏层 ,使其能自动从原始输入中抽取不同维度的、带依赖信息的抽象特征,并利用注意力机制捕获全局信息。实验显示,本发明中的方法相较多核卷积神经网络和单一的长短期记忆-注意力模型能显著提高中文关系抽取效果,在ACE RDC 2005中文数据集上取得71.61%的F值,取得了很好的效果,这证明了该方法的有效性。,下面是一种基于神经网络的中文关系抽取方法专利的具体信息内容。

1.基于神经网络的中文关系抽取方法,其特征在于包括以下步骤:
步骤1:构建BiLSTMA单元,抽取句子深层语义信息和全局依赖信息;
步骤2:构建Multi-BiLSTMA模型,获取不同粒度的、带依赖关系的语义信息;
步骤3:使用真实数据验证方法的有效性。
2.根据权利要求1所述的方法,其特征在于,所述步骤1充分利用双向长短期记忆模型在处理长期依赖问题方面的优势和注意机制能捕获到全局依赖信息的特点,构建BiLSTMA单元以提取句子深层语义信息和依赖信息。
3.根据权利要求1所述的方法,其特征在于,所述步骤2,通过在BiLSTMA单元中设置不同大小的隐藏层,将不同大小的BiLSTMA单元组合,构建Multi-BiLSTMA模型,该模型能获取不同粒度的、带依赖关系的语义信息。
4. 根据权利要求1所述的方法,其特征在于,所述步骤3,使用ACE RDC 200中文数据集验证所述方法的识别效果,从而验证其有效性。

说明书全文

一种基于神经网络的中文关系抽取方法

技术领域

[0001] 本发明涉及信息抽取领域,特别涉及到一种基于神经网络的中文关系抽取方法。属于自然语言处理机器学习技术领域。

背景技术

[0002] 随着人工智能的发展和信息抽取领域的技术爆炸,实体关系抽取作为信息抽取领域的重要研究课题受到越来越多学者的关注。其主要目的是抽取句子中已标记实体对之间的语义关系,即在实体识别的基础上确定无结构文本中实体对间的关系类别,并形成结构化的数据以便存储和取用。实体关系抽取的结果可用于构建知识图谱或本体知识库,还能为自动问答系统的构建提供数据支持。除此以外,实体关系抽取在语义网络标注、篇章理解、机器翻译方面具有重要的研究意义。
[0003] 早期的关系抽取主要是基于语法规则,通过分析句中的语法结构,将其作为关系发生的依据。尽管该方法取得不错的成绩,但是由于其严谨的规则导致召回率很难提升,且需要专业的语法知识和文学基础,适用性不高。随着技术的不断发展,关系抽取的方法分为有监督、半监督、无监督三种。基于本发明所涉及的内容,将重点研究有监督的关系抽取方法。有监督的关系抽取大都可看作是分类问题,概括起来主要有两种方法:浅层结构模型和深度学习模型。
[0004] 浅层结构一般只有一层或没有隐藏层节点,如支持向量机、最大熵等。关系抽取中的浅层结构常使用特征工程或核函数的方法。传统的基于特征工程的方法主要是依赖设计巧妙的经语言处理过程输出的特征集。以上这些方法大都依赖大量人工设计的特征,或依赖精心设计的核函数。尽管有很多优秀的NLP工具的辅助,但是仍然存在因分词不准确和句法解析错误等误差而导致性能降低的险。更重要的是,这些精心设计的特征或核函数的低移植性大大影响了其扩展性。
[0005] 近年来,基于深度学习的关系抽取研究取得了很大进展。诸多关系抽取的方法都基于CNN、RNN等模型,取得了较为优良的效果。众多基于神经网络的方法显示了神经网络相较传统浅层结构的优势,但是,这些结果大多是在分布平衡的英文数据集上取得的成果,且使用了很多外部特征作为辅助。中文语法结构复杂,语言模糊现象更为严重。

发明内容

[0006] 本发明提出了一种基于神经网络的中文关系抽取方法。该文提出了一种多层双向长短期记忆-注意模型,该方法通过给长短期记忆模型设置不同大小的隐藏层,使其能自动从原始输入中抽取不同维度的、带依赖信息的抽象特征,并利用注意力机制捕获全局信息。通过实验显示,该方法相较多核卷积神经网络和单一的长短期记忆-注意力模型能显著提高中文关系抽取效果,在ACE RDC 2005 中文数据集上取得较好的结果,这证明了该方法的有效性。其模型框架附图1 所示。
[0007] 本发明的技术方案为:一种基于神经网络的中文关系抽取方法,所述方法包括以下步骤:步骤一,构建BiLSTMA单元,抽取句子深层语义信息和全局依赖信息;步骤二,构建Multi-BiLSTMA模型,获取不同粒度的、带依赖关系的语义信息;步骤三,使用真实数据验证方法的有效性。
[0008] 所述步骤1充分利用双向长短期记忆模型(BiLSTM)在处理长期依赖问题方面的优势和注意力机制(Attention)能捕获到全局依赖信息的特点,构建BiLSTMA单元(BiLSTM-
Attention)以提取句子深层语义信息和依赖信息。
[0009] 所述步骤2,通过在BiLSTMA单元中设置不同大小的隐藏层,将不同大小的BiLSTMA单元组合,构建Multi-BiLSTMA模型,该模型能获取不同粒度的、带依赖关系的语义信息。
[0010] 所述步骤3,为验证方法的有效性,使用ACE RDC 200中文数据集验证所述方法的识别效果,从而验证其有效性。
[0011] 有益效果
[0012] 本发明的有益效果是:
[0013] 在本发明中,重点在于借鉴了多核CNN可以学习到不同粒度特征的特点,利用BiLSTM和Attention机制,通过设置不同大小的BiLSTM,构建了 Multi-BiLSTMA模型,经实验证明,该方法在ACE RDC2005中文数据集上取得了优良的效果。
[0014] 本发明提供了基于Multi-BiLSTM-Attention的神经网络模型的中文关系抽取方法。通过实验证明,在ACE数据集上展现了较高的性能,证明了该方法的有效性。本发明提出的方法有效利用了多核CNN神经网络中可以学习到不同粒度特征的特点,并将其与BiLSTM相结合,充分发挥了神经网络模型自动抽取特征的特点。在双向BILSTM通道设置多个大小不同的隐藏层,可以在一定程度上防止特征稀疏,能够有效获取利用字符的语义信息,使其能够自动获取不同维度的抽象特征。在此基础上添加Attention机制,利用句子的局部特征和全局特征,通过特征调整权重,减小噪声,提高准确性。
[0015] 本发明所提出的方法将单一的长短期记忆模型只能学习到某个特定维度的特征和卷积神经网络中多个卷积核学习不同维度的特征相结合,提出了 Multi-BiLSTM-
Attention的模型,在中文关系抽取方面取得了优良的成绩,取得了很好的使用效果。

附图说明

[0016] 图1为本发明所述Multi-BiLSTM-Attention的神经网络模型。

具体实施方式

[0017] 为使本发明的目的、技术方案和优点更加清楚,下面将参照本说明书附图对本发明作进一步的详细描述。
[0018] 对于一个带有两个实体的句子,关系抽取任务是抽取两实体间的候选关系。双向长短期记忆神经网络(BiLSTM)模型属于循环神经网络(RNN)的一个变种,可以有效处理长距离信息和避免梯度爆炸,鉴于BiLSTM和Attention存在较好的互补性,将两者结合起来使用。但是单一的、固定的BiLSTM只能学习到一个特定维度的信息,因此通过设置不同的BiLSTM,构建了一个Multi-BiLSTMA模型。该模型可以学习到多个维度的带有依赖信息的特征。
[0019] 首先,模型的输入层由初始化获得的查找表映射成的词向量组成。若句子长度为L,则映射成向量后的句子可表示为:X=[x1,x2,···,xL],其中xi∈RD是第i个字wi的向量表示,D是向量的维度。若词典大小为V,则Embedding层可表示为X∈RV×H。这一过程可表示为:X=Embedding(s)。
[0020] 其次,本发明中Multi-BiLSTMA层由三个BiLSTMA单元组成。其中,每个BiLSTMA单元由一层BiLSTM和一层Attention组成。如图1(b)所示,BiLSTMA接收Embedding层的数据,使用了一个正向的LSTM和一个反向的LSTM,形成一个BiLSTM层,用来提取Embedding的更深层的特征。这一过程概括为: 表示逐元素相加。Attention层合并BiLSTM层中每一个时间步长上的信息,并通过计算得出对抽取结果影响较大的信息。
这一过程可概括为:A=Attention(H)。
[0021] 下一步为模型的全连接层。将三个BiLSTMA单元的输出拼接起来之后,通过一层全连接(Dense)层将上述模型学到的信息分类,其中隐藏层的大小为关系类型数,即为7。这一过程概括为:D=Dense(A)。
[0022] 最后,为了得到更好的实验效果,使用softmax层对全连接层的输出结果进行归一化处理,得最后分类结果。总的来说,这一处理过程可概括为:Y=softmax(D)。
[0023] 采用真实数据验证本发明方法的有效性,选用的数据是ACE RDC 2005标准中文数据集,首先要进行数据的预处理。
[0024] 本发明采用公开发行的ACE RDC 2005中文数据集来进行关系抽取。经过筛选掉不规范的文档,实验一共用到628个文档。这个数据集包含6种实体关系类型(统称正例),分别是:“PART-WHOLE”、“PHYS”、“ORG-AFF”、“GEN-AFF”、“PER-SOC”、“ART”。由于数据集中的关系是有方向的,例如:若实体对(A,B) 在数据集中存在“ART”关系,但实体对(B,A)间不存在任何数据集标注的关系类型,因此把所有这种情况统称负例,关系类型记为“Other”。因为关系抽取主要在句子级别进行的,所以用“,”、“。”、“!”、“?”、“:”这5种中文标点符号将数据集中的文本切分成句子。舍弃不含实体对的句子,同时去掉正例和负例间重复的句子(因为同一句子不可能既是正例又是负例),一共得到1010056个句子,其中包括9244条正例句子和91812条负例句子。ACE RDC 2005中文数据集是一个分布不平衡的数据集,每种关系类型分布并不均匀,尤其是负例占比高达 90.85%。为了更接近真实情况,同时减少因大量负例数据带来的影响,所以在评估时,只评估正例的结果。
[0025] 其次,在词向量处理上,采取随机初始化Lookup Table的方法,其在训练过程中会不断调整,词向量维度设置为100维。由于神经网络需要固定的输入,分析了每种关系类型所对应的句子平均长度。为了平衡抽取效果和训练代价,选取句长等于50为最大输入长度,句长低于50的句子用“0”填充至50,句长高于 50的切断至50。选择AdaDelta函数作为优化函数,学习率为优化函数默认的1.0。此外,将批次量设置为50,迭代次数为100。经实验验证,选择三个BiLSTMA单元,其中隐藏层的大小分别为100,200和300。
[0026] 最后,为了证明本发明方法的有效性,在同样的数据上,设计了三项任务。第一项任务是使用多核CNN进行关系抽取,这可以看作是基准模型;第二项任务是使用单层的BiLSTMA进行关系抽取,通过实验证明通过BiLSTM和 Attention的结合,其效果要优于简单的多核CNN方法;第三项任务是使用 Multi-BiLSTMA模型进行关系抽取,证明该模型具有类似多核CNN的效果,并能充分利用BiLSTM和Attention的优势,实验结果较前两者有显著提高。
[0027] 经过5重交叉验证实验后,得到性能如表1所示(三个模型的F值已用粗体表示)。
[0028] 表1关系抽取任务性能
[0029]
[0030] 每种关系类型数量分布并不平衡,这样的结果也直接体现在表1中。总体上呈现出数量多的类型结果也高的特点,这也符合神经网络的特点。一般情况下,在同样的数据质量、同样的模型下,数据量越大,训练得越充分,越不容易过拟合,结果也越好。从结果中也可以看到,“PART-WHOLE”、“ORG-AFF”和“GEN-AFF”这三个类的F值明显高于其他三种正例类型,这也是由于这三类的数据量大决定的。
[0031] 同时从表1可以看到,单层BiLSTMA的性能优于简单的多核CNN,这是由于相比CNN,BiLSTMA更能有效地捕获句中的依赖信息和关键特征,从而获得更好的抽取效果。而Multi-BiLSTMA兼具了两者的特点,所以其性能也明显优于前两者。综上,本发明提出的基于神经网络的中文关系抽取方法具有优良的性能。
[0032] 本发明未详述之处,均为本技术领域技术人员的公知技术。最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈