首页 / 专利库 / 人工智能 / 机器翻译 / 跨语言事件分类方法及装置

跨语言事件分类方法及装置

阅读:176发布:2020-05-08

专利汇可以提供跨语言事件分类方法及装置专利检索,专利查询,专利分析的服务。并且本 发明 涉及 自然语言处理 技术领域,具体涉及一种跨语言事件分类方法和装置。为了解决 现有技术 极大依赖高 质量 的 机器翻译 系统或者大规模的平行语料的问题,本发明提出一种跨语言事件分类方法,该方法包括从预先获取的 目标语言 的语料中获取所述目标语言对应的第一向量;从预先获取的 源语言 的语料中获取所述源语言对应的第二向量;根据所述第一向量和所述第二向量构建所述目标语言和所述源语言的映射关系;根据所述映射关系并通过对抗学习网络将所述源语言映射为所述目标语言;基于所述目标语言并通过所述事件类型分类器对所述目标语言对应的事件进行分类。利用本发明的方法和装置能够提高对事件识别的准确率。,下面是跨语言事件分类方法及装置专利的具体信息内容。

1.一种跨语言事件分类方法,所述方法应用于跨语言事件分类装置,所述装置包括事件类型分类器,其特征在于,所述方法包括:
从预先获取的目标语言的语料中获取所述目标语言对应的第一向量;从预先获取的源语言的语料中获取所述源语言对应的第二向量;其中,所述第一向量表示所述目标语言的向量表示,所述第二向量表示所述源语言的向量表示;
根据所述第一向量和所述第二向量构建所述目标语言和所述源语言的映射关系;
根据所述映射关系并通过对抗学习网络将所述源语言映射为所述目标语言;
基于所述目标语言并通过所述事件类型分类器对所述目标语言对应的事件进行分类;
其中,所述事件类型分类器基于神经网络模型构建,通过预设训练集训练并用于对输入语言进行事件分类。
2.根据权利要求1所述的方法,其特征在于,在“根据所述映射关系并通过对抗学习网络将所述源语言映射为所述目标语言”之后,在“基于所述目标语言并通过所述事件类型分类器对所述目标语言对应的事件进行分类”之前,所述方法还包括:
基于预先构建的特征抽取模型,从所述目标语言中抽取与所述目标语言的语序无关的特征;
其中,所述特征抽取模型是基于神经网络构建,通过预设语料集训练并用于抽取语句中语序特征。
3.根据权利要求1所述的方法,其特征在于,“根据所述第一向量和第二向量构建所述目标语言和所述源语言的映射关系”,其方法包括:
根据所述第一向量和第二向量按照如下公式所述的方法构建所述目标语言和所述源语言的映射关系:
其中,所述Xc表示所述源语言对应的第一向量或所述目标语言对应的第二向量;所述Yc表示在所述Xc表示第一向量时表示第二向量,在所述Xc表示第二向量时表示第一向量,所述W表示初始映射关系,所述W*表示所述第一向量和所述第二向量的映射关系。
4.根据权利要求3所述的方法,其特征在于,在“根据所述映射关系并通过对抗学习网络将所述源语言映射为所述目标语言”之前,在“根据所述第一向量和所述第二向量构建所述目标语言和所述源语言的映射关系”之后,所述方法还包括:
根据所述映射关系将所述源语言与所述目标语言的词汇对齐,并将所述源语言和所述目标语言映射到同一空间。
5.一种跨语言事件分类装置,其特征在于,所述装置包括第一模、第二模块、第三模块以及第四模块;
所述第一模块用于从预先获取的目标语言的语料中获取所述目标语言对应的第一向量;从预先获取的源语言的语料中获取所述源语言对应的第二向量;其中,所述第一向量表示所述目标语言的向量表示,所述第二向量表示所述源语言的向量表示;
所述第二模块用于根据所述第一向量和所述第二向量构建所述目标语言和所述源语言的映射关系;
所述第三模块用于根据所述映射关系并通过对抗学习网络将所述源语言映射为所述目标语言;
所述第四模块用于基于所述目标语言并通过所述事件类型分类器对所述目标语言对应的事件进行分类;
其中,所述事件类型分类器基于神经网络模型构建,通过预设训练集训练并用于对输入语言进行事件分类。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括特征抽取模块,所述特征抽取模块用于:
基于预先构建的特征抽取模型,从所述目标语言中抽取与所述目标语言的语序无关的特征;
其中,所述特征抽取模型是基于神经网络构建,通过预设语料集训练并用于抽取语句中语序特征。
7.根据权利要求5所述的装置,其特征在于,所述第二模块还用于:
根据所述第一向量和第二向量按照如下公式所述的方法构建所述目标语言和所述源语言的映射关系:
其中,所述Xc表示所述源语言对应的第一向量或所述目标语言对应的第二向量;所述Yc表示在所述Xc表示第一向量时表示第二向量,在所述Xc表示第二向量时表示第一向量,所述W表示初始映射关系,所述W*表示所述第一向量和所述第二向量的映射关系。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括对齐模块,所述对齐模块用于:
根据所述映射关系将所述源语言与所述目标语言的词汇对齐,并将所述源语言和所述目标语言映射到同一空间。
9.一种跨语言事件分类装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器
其中,所述处理器被配置为:执行上述权利要求1至4中任一项所述的跨语言事件分类方法。
10.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至4中任一项所述的跨语言事件分类方法。

说明书全文

跨语言事件分类方法及装置

技术领域

[0001] 本发明涉及自然语言处理技术领域,具体涉及一种跨语言事件分类方法及装置。

背景技术

[0002] 随着科学技术的发展,信息呈爆炸式增长,用户每天会接触到各种类型的信息,例如新闻资讯、娱乐新闻、科研动态等信息。如何从无序、杂乱的信息中获取用户感兴趣的信息是自然处理领域的难点问题。
[0003] 事件抽取技术正是解决上述问题的重要手段,其主要用于从非结构化文本中抽取出用户感兴趣的事件,并且将抽取出的事件进行分类和对齐。具体而言,事件抽取任务中定义的每个事件都具有特定的事件类型,其由事件触发词、若干事件元素及其扮演的色组成,其中,事件触发词用于指示文本中最能表示事件发生的词语,事件元素用于指示事件的参与者。
[0004] 事件识别是事件抽取的子任务,其只关注抽取事件的触发词并且识别事件类型,并不关注事件参与者及其角色。现有的事件识别方法是基于单语的识别方法,往往只针对一种特定的语言进行识别。然后,现有的事件识别方法往往依赖于高质量机器翻译系统或者大规模的平行语料,但是现有的事件识别方法所依赖于资源往往难以获得,比如在ACE语料中,仅仅标注了不足600篇文档,这些数据不足以训练一个鲁棒性的事件识别器,极大地限制了现有方法的应用。
[0005] 因此,如何提出一种解决现有技术问题的方案是本领域技术人员需要解决的技术问题。

发明内容

[0006] 为了解决现有技术中的上述问题,即为了解决现有技术极大依赖高质量的机器翻译系统或者大规模的平行语料的问题,本发明的第一方面提供了一种跨语言事件分类方法,所述方法包括:
[0007] 从预先获取的目标语言的语料中获取所述目标语言对应的第一向量;从预先获取的源语言的语料中获取所述源语言对应的第二向量;其中,所述第一向量表示所述目标语言的向量表示,所述第二向量表示所述源语言的向量表示;;
[0008] 根据所述第一向量和所述第二向量构建所述目标语言和所述源语言的映射关系;
[0009] 根据所述映射关系并通过对抗学习网络将所述源语言映射为所述目标语言;
[0010] 基于所述目标语言并通过所述事件类型分类器对所述目标语言对应的事件进行分类;
[0011] 其中,所述事件类型分类器基于神经网络模型构建,用于对输入语言进行事件分类,通过预先训练获取。
[0012] 优选地,在“根据所述映射关系并通过对抗学习网络将所述源语言映射为所述目标语言”之后,在“基于所述目标语言并通过所述事件类型分类器对所述目标语言对应的事件进行分类”之前,所述方法还包括:
[0013] 基于预先构建的特征抽取模型,从所述目标语言中抽取与所述目标语言的语序无关的特征;
[0014] 其中,所述特征抽取模型是基于神经网络构建,并用于抽取语句中语序,通过预先训练获取。
[0015] 优选地,“根据所述第一向量和第二向量构建所述目标语言和所述源语言的映射关系”,其方法包括:
[0016] 根据所述第一向量和第二向量按照如下公式所述的方法构建所述目标语言和所述源语言的映射关系:
[0017] W*=minW||XcW-Yc||
[0018] 其中,所述Xc表示所述源语言对应的第一向量或所述目标语言对应的第二向量;所述Yc表示在所述Xc表示第一向量时表示第二向量,在所述Xc表示第二向量时表示第一向量,所述W表示初始映射关系,所述W*表示所述第一向量和所述第二向量的映射关系。
[0019] 优选地,在“根据所述映射关系并通过对抗学习网络将所述源语言映射为所述目标语言”之前,在“根据所述第一向量和所述第二向量构建所述目标语言和所述源语言的映射关系”之后,所述方法还包括:
[0020] 根据所述映射关系将所述源语言与所述目标语言的词汇对齐,并将所述源语言和所述目标语言映射到同一空间。
[0021] 本发明的第二方面还提供了一种跨语言事件分类装置,所述装置包括第一模、第二模块、第三模块以及第四模块;
[0022] 所述第一模块用于从预先获取的目标语言的语料中获取所述目标语言对应的第一向量;从预先获取的源语言的语料中获取所述源语言对应的第二向量;其中,所述第一向量表示所述目标语言的向量表示,所述第二向量表示所述源语言的向量表示;
[0023] 所述第二模块用于根据所述第一向量和所述第二向量构建所述目标语言和所述源语言的映射关系;
[0024] 所述第三模块用于根据所述映射关系并通过对抗学习网络将所述源语言映射为所述目标语言;
[0025] 所述第四模块用于基于所述目标语言并通过所述事件类型分类器对所述目标语言对应的事件进行分类;
[0026] 其中,所述事件类型分类器基于神经网络模型构建,通过预设训练集训练并用于对输入语言进行事件分类。
[0027] 优选地,所述装置还包括特征抽取模块,所述特征抽取模块用于:
[0028] 基于预先构建的特征抽取模型,从所述目标语言中抽取与所述目标语言的语序无关的特征;
[0029] 其中,所述特征抽取模型是基于神经网络构建,通过预设语料集训练并用于抽取语句中语序特征。
[0030] 优选地,所述第二模块还用于:
[0031] 根据所述第一向量和第二向量按照如下公式所述的方法构建所述目标语言和所述源语言的映射关系:
[0032] W*=minW||XcW-Yc||
[0033] 其中,所述Xc表示所述源语言对应的第一向量或所述目标语言对应的第二向量;所述Yc表示在所述Xc表示第一向量时表示第二向量,在所述Xc表示第二向量时表示第一向量,所述W表示初始映射关系,所述W*表示所述第一向量和所述第二向量的映射关系。
[0034] 优选地,所述装置还包括对齐模块,所述对齐模块用于:
[0035] 根据所述映射关系将所述源语言与所述目标语言的词汇对齐,并将所述源语言和所述目标语言映射到同一空间。
[0036] 本发明的第三方面还提供了一种跨语言事件分类装置,包括:
[0037] 处理器;
[0038] 用于存储处理器可执行指令的存储器
[0039] 其中,所述处理器被配置为:执行前述跨语言事件分类方法。
[0040] 本发明的第四方面还提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现前述的跨语言事件分类方法。
[0041] 本发明提供的跨语言事件分类方法和装置仅依赖数量较少的平行语料库完成跨语言事件识别,提高了事件识别的鲁棒性。并且在进行事件识别过程中,通过学习与语序无关的句法特征,能够克服源语言和目标语言语序不同对跨语言事件识别造成的影响,进而提高了对事件识别的准确率。附图说明
[0042] 图1是本发明的跨语言事件分类方法的流程示意图;
[0043] 图2是本发明通过图卷积网络抽取与语序无关特征的示意图;
[0044] 图3是本发明方法与现有方法实验比较结果的示意图;
[0045] 图4是本发明的跨语言事件分类装置的结构示意图。

具体实施方式

[0046] 为使本发明的实施例、技术方案和优点更加明显,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所述的实施例是本发明的一部分实施例,而不是全部实施例。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
[0047] 事件抽取任务需要从无标注句子中抽取事件的事件触发词、事件元素以及扮演的角色,并且以结构化的形式展现出来。例如,对于文本“The policeman fired at the gangsters.”,完整的事件抽取结果如表1所示:表1事件抽取结果
[0048] 事件识别是事件抽取的子任务,其只关注抽取事件的触发词并且识别事件类型,并不关注事件参与者及其角色。例如,对于上面的例子,事件识别的任务是识别出该句子描述了一个事件,该事件的触发词是fired,事件类型是Attack。
[0049] 如图1所示,图1示例性地示出了本发明的跨语言事件分类方法的流程示意图。本发明的跨语言事件分类方法包括如下步骤:
[0050] S101:从预先获取的目标语言的语料中获取所述目标语言对应的第一向量;从预先获取的源语言的语料中获取所述源语言对应的第二向量。
[0051] 针对源语言和目标语言,分别获取大规模无标注语料,并在这些无标注语料中学习源语言和目标语言的词汇的向量化表示。经过学习,在同一种语言中,语义相似的词汇可以具有相似的向量化表示形式。
[0052] 假设英文是源语言,中文是目标语言,首先获取英语和中文对应的大规模的无标注语料,再从中学习中文和英文的词向量表示(word embedding),即目标语言对应的第一向量和源语言对应的第二向量。
[0053] 首先为每一个词随机初始化一个向量化表示,然后,以这个词为中心,预测其上下文词汇。在这一步中,每个词所关联的词向量会动态得到更新,以获得更好的预测结果。训练过程结束后,在同一种语言中,语义相似的词汇有更为接近的向量化表示。比如说,在汉语中,“苹果”与“梨”可能会有更为接近的向量化表示,因为这两个词经常出现在相同的上下文当中。将整个英语的词向量空间记为X,把整个汉语的词向量空间记为Y。
[0054] S102:根据所述第一向量和所述第二向量构建所述目标语言和所述源语言的映射关系。
[0055] 得到源语言和目标语言对应的第一向量和第二向量之后,进一步获取源语言到目标语言的映射关系,进行词汇化对齐。根据获取的映射关系将源语言和目标语言映射到同一空间。
[0056] 一般来说,英文词向量与中文词向量不具有距离可比性,比如说英文的“Apple”与中文的“苹果”,虽然有相似的语义,但是他们的向量化表示可能不会相似。通过学习一个从英文空间X到中文空间Y的映射关系W,可以把英文空间X映射到中文空间Y,使得不同语言中语义相似的词汇可以有相似的表示。
[0057] 可选地,作为一种实现方式,可以根据第一向量和第二向量按照如公式(1)所示的方法构建目标语言和源语言的映射关系:
[0058] W*=minW ||XcW-Yc||                             (1)
[0059] 其中,所述Xc表示源语言或目标语言,所述Yc表示在所述Xc表示源语言时表示目标语言,在所述Xc表示目标语言时表示源语言,所述W表示初始映射关系,所述W*表示所述目标语言和所述源语言的映射关系。
[0060] S103:根据所述映射关系并通过对抗学习网络将所述源语言映射为所述目标语言。
[0061] 构建对抗学习网络通过学习到的映射关系,把源语言的数据映射成目标语言的数据。选取目标语言中和源语言最相近的词语作为源语言一个词语的映射结果。假设源语言的一个句子为s=[w1,w2,…,wn],通过对每一个单词进行映射,源语样本被映射为一个目标语言样本s′=[w′1,w′2,…,w′n],其中w′i是wi映射后的词语。将s与s′共同进行训练,以达到跨语言数据增广的目的。
[0062] S104:基于所述目标语言并通过所述事件类型分类器对所述目标语言对应的事件进行分类。
[0063] 其中,所述事件类型分类器基于神经网络模型构建,通过预设训练集训练并用于对输入语言进行事件分类。
[0064] 利用图卷积网络学习语序无关的特征,以克服源语言和目标语言语序不同对跨语言事件识别的影响。通常情况下,源语言和目标语言具有不用的语序,直接结合s与s′进行训练会受到语序不一致噪音的影响。但是虽然不同语言具有不一致的语言顺序,但是有相同或者相似的句法树,因此可以从句法树上抽取语序无关的特征,通过图卷积网络可以达到上述目的。
[0065] 参与附图2,图2示例性地示出了本发明通过图卷积网络抽取与语序无关特征。图2示例性地示出了从英文句子“A man died when a tank fired on the hotel”的句法树中抽取图卷积特征识别fired的事件类型。
[0066] 通过事件类别分类器进行推理,产生最终的识别结果,将抽取到的特征输入到事件类型分类器中,预测最终的事件类型。
[0067] 参阅附图3,附图3示例性地示出了本发明方法与现有方法实验比较结果的示意图。
[0068] 图3中Monolingual代表传统单语方法,Monolingual_SOTA代表目前单语方法中最好的方法,CL_Trans是本发明提出的方法,Embedding_Proj是传统的基于词向量映射的方法。从图3中的实验结果可以看到,本发明的方法CL_Trans在两个数据及上相对于传统的单语方法都有明显提升,同时本发明的方法在英中转换(English-to-Chinese)和中英转换(Chinese-to-English)上都有提升。
[0069] 本发明提供的跨语言事件分类方法仅依赖数量较少的平行语料库完成跨语言事件识别,提高了事件识别的鲁棒性。并且在进行事件识别过程中,通过学习与语序无关的句法特征,能够克服源语言和目标语言语序不同对跨语言事件识别造成的影响,进而提高了对事件识别的准确率。
[0070] 参阅附图4,附图4示例性地示出了本发明的跨语言事件分类装置的结构示意图。
[0071] 本发明的跨语言事件分类装置包括第一模块1、第二模块2、第三模块3以及第四模块4;
[0072] 所述第一模块1用于从预先获取的目标语言的语料中获取所述目标语言对应的第一向量;从预先获取的源语言的语料中获取所述源语言对应的第二向量;其中,所述第一向量表示所述目标语言的向量表示,所述第二向量表示所述源语言的向量表示;
[0073] 所述第二模块2用于根据所述第一向量和所述第二向量构建所述目标语言和所述源语言的映射关系;
[0074] 所述第三模块3用于根据所述映射关系并通过对抗学习网络将所述源语言映射为所述目标语言;
[0075] 所述第四模块4用于基于所述目标语言并通过所述事件类型分类器对所述目标语言对应的事件进行分类;
[0076] 其中,所述事件类型分类器基于神经网络模型构建,通过预设训练集训练并用于对输入语言进行事件分类。
[0077] 优选地,所述装置还包括特征抽取模块,所述特征抽取模块用于基于预先构建的特征抽取模型,从所述目标语言中抽取与所述目标语言的语序无关的特征;
[0078] 其中,所述特征抽取模型是基于神经网络构建,通过预设语料集训练并用于抽取语句中语序特征。
[0079] 优选地,所述第二模块2还用于根据所述第一向量和第二向量按照公式(1)所述的方法构建所述目标语言和所述源语言的映射关系。
[0080] 优选地,所述装置还包括对齐模块,所述对齐模块用于根据所述映射关系将所述源语言与所述目标语言的词汇对齐,并将所述源语言和所述目标语言映射到同一空间。
[0081] 本发明的另一方面还提供了一种跨语言事件分类装置,包括处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行前述的跨语言事件分类方法。
[0082] 本发明的另一方面还提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现前述的跨语言事件分类方法。
[0083] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0084] 在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0085] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0086] 另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0087] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0088] 综上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈