首页 / 专利库 / 人工智能 / 源语言 / 基于字到字翻译的半监督神经机器翻译模型的构建方法

基于字到字翻译的半监督神经机器翻译模型的构建方法

阅读:39发布:2020-05-11

专利汇可以提供基于字到字翻译的半监督神经机器翻译模型的构建方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及基于字到字翻译的半监督神经 机器翻译 模型的构建方法,属于 自然语言处理 技术领域。本发明首先获取 源语言 与 目标语言 的单语语料、源语言与目标语言的平行语料;使用单语语料训练跨语言的语言模型;使用训练完成的语言模型对翻译模型的 编码器 - 解码器 进行初始化;再获取两种语言的双语字典;在翻译模型内部根据双语字典构建字典前缀树;在翻译模型中训练一个自编码器;使用源语言与目标语言的平行语料训练翻译模型;在训练翻译模型的同时进行训练回翻译模型;把自编码器、使用源语言与目标语言的平行语料训练翻译模型、回翻译模型融合起来得到最终的翻译模型。本发明简单有效,能够使模型正常翻译并大幅提升模型翻译性能。,下面是基于字到字翻译的半监督神经机器翻译模型的构建方法专利的具体信息内容。

1.基于字到字翻译的半监督神经机器翻译模型的构建方法,其特征在于:
首先获取源语言目标语言的单语语料、源语言与目标语言的平行语料,对其进行tokenize处理;使用源语言与目标语言的单语语料训练跨语言的语言模型;使用训练完成的语言模型对翻译模型的编码器-解码器进行初始化;再获取两种语言的双语字典;在翻译模型内部根据双语字典构建字典前缀树,使得字典被快速查找;在翻译模型中训练一个自编码器;使用源语言与目标语言的平行语料训练翻译模型;在训练翻译模型的同时进行训练回翻译模型;把自编码器、使用源语言与目标语言的平行语料训练翻译模型、回翻译模型融合起来得到最终的翻译模型。
2.根据权利要求1所述的基于字到字翻译的半监督神经机器翻译模型的构建方法,其特征在于:
所述方法的具体步骤如下:
Step1、获取源语言与目标语言的单语语料、源语言与目标语言的平行语料,对其进行tokenize处理;
Step2、使用源语言与目标语言的单语语料训练跨语言的语言模型:
Llm=Ex~S[-logPs→s(x|C(x))]+Ey~T[-logPt→t(y|C(y))]
其中,S表示源语言单语语料,T表示目标语言单语语料,x与y分别表示源语言单语语料与目标语言单语语料的单个句子;C(x)与C(y)表示在句子上添加噪音,即删除、替换、交换句子中的部分词语;Ps→s(x|C(x))表示源语言到源语言将添加噪音的句子进行重构;再最小化重构误差,误差即为Ex~S[-logPs→s(x|C(x))];Pt→t(y|C(y))表示目标语言到目标语言将添加噪音的句子进行重构;再最小化重构误差,误差即为Ey~T[-logPt→t(y|C(y))];源语言与目标语言的误差和即为整个语言模型Llm;
Step3、使用训练完成的语言模型对翻译模型的编码器-解码器进行初始化;
Step4、再获取两种语言的双语字典;字典来源为英汉词典、汉英词典或平行语料库抽取
Step5、在翻译模型内部根据双语字典构建字典前缀树pre fix tree,使得字典被快速查找;
Step6、在翻译模型中训练一个自编码器:
其中,1表示源语言src或目标语言tgt,θ(enc),θ(dec)分别表示编码器和解码器,Dl表示源语言src或目标语言的单语语料库;e(C(x))表示将加了噪声的句子进行编码;
将一种语言L的句子x添加噪声,表示为C(x);
使用编码器e()对添加噪声的句子C(x)进行编码,表示为e(C(x),1);
再通过解码器d()将编码后的句子解码为语言L的句子,表示为d(e(C(x),l),l);
上述公式表示将一种语言的句子x添加噪声后通过编码器e()编码,然后再通过解码器d()解码为原句子 使得 尽可能接近x,这个过程用 表示,并最小化重构误差Lauto;
Step7、使用源语言与目标语言的平行语料训练翻译模型,称为MT-step步骤:
其中,PD表示源语言与目标语言的平行语料库,x1与y1表示从平行语料库中抽取出的相对应的源语言句子与目标语言句子,v表示源句子,即x1,...,xT,其中xt表示句子中的第t个单词,此时t从1~T,T′为目标句子长度,P表示在翻译的源句子及翻译出的目标句子前t-
1个词语构成的序列v,y1,...,yt-1的情况下翻译出下一个词yt的概率,最终使得P最大化即将损失函数Lmt最小化;翻译模型支持双向翻译,(x1,y1)能表示从源语言翻译到目标语言;
也能表示从目标语言翻译到源语言;
SteD8、在训练翻译模型的同时训练回翻译模型,训练回翻译模型包括两个阶段:
训练回翻译模型的第一阶段为:将一种语言源语言或目标语言的句子通过翻译模型翻译为对方语言目标语言或源语言的句子;然后增加字到字的翻译,即再将翻译出来的句子中存在非对方语言的单词通过字典前缀树逐字的翻译为对方语言的单词,使得整个译文单词均为对方语言,其译文用于回翻译第二阶段;回翻译公式表示如下:
Lback=Ey~T[-logPs→t(y|u*(y))]+Ex~S[-logPt→s(x|u*(x))]
其中,u*(y)表示翻译模型将目标语言句子y翻译为源语言句子x’,再增加字到字的翻译;u*(x)表示将源语言句子x翻译为目标语言句子y’,再增加字到字的翻译;u*(y)、u*(x)表示的过程即为回翻译的第一阶段;Ps→t(y|u*(y))表示将翻译后的源语言句子x’再次翻译为目标语言句子y,Pt→s(x|u*(x))表示将翻译后的目标语言句子y’再次翻译为源语言句子x;
Ps→t(y|u*(y))、Pt→s(x|u*(x))表是的过程即为回翻译的第二阶段;误差E[-logP(x|u*(x))]back
之和最小化使得总误差L 最小化;
Step9、最终训练的翻译模型(L)表示为:
L=Lauto+Lmt+Lback
Step10、使用训练好的模型评测。

说明书全文

基于字到字翻译的半监督神经机器翻译模型的构建方法

技术领域

[0001] 本发明涉及基于字到字翻译的半监督神经机器翻译模型的构建方法,属于自然语言处理技术领域。

背景技术

[0002] 在自然语言处理领域中,机器翻译是自然语言处理的集大成者,也是其中最具实用意义的研究子领域之一。由于监督式神经机器翻译需要大量平行语料,对于难以获取大量平行语料的语言对来说效果不是很好,因此发展出了非监督式神经机器翻译。在非监督神经机器翻译的中英语言实验中,我们发现由于中英语言差距巨大,导致非监督神经机器翻译模型无法正常工作。因此,提出了两个简单的方法对其进行改进,使得模型能够正常工作,并大幅提高了翻译性能。

发明内容

[0003] 本发明提供了基于字到字翻译的半监督神经机器翻译模型的构建方法,以用于进行半监督神经机器翻译模型的构建,解决非监督翻译模型在两种差距巨大的语言间无法正常翻译的问题。
[0004] 本发明的技术方案是:一种基于字到字翻译的半监督神经机器翻译模型的构建方法,首先获取源语言目标语言的单语语料、源语言与目标语言的平行语料,对其进行tokenize处理;使用源语言与目标语言的单语语料训练跨语言的语言模型;使用训练完成的语言模型对翻译模型的编码器-解码器进行初始化;再获取两种语言的双语字典;在翻译模型内部根据双语字典构建字典前缀树,使得字典被快速查找;在翻译模型中训练一个自编码器;使用源语言与目标语言的平行语料训练翻译模型;在训练翻译模型的同时进行训练回翻译模型;把自编码器、使用源语言与目标语言的平行语料训练翻译模型、回翻译模型融合起来得到最终的翻译模型。
[0005] 进一步地,所述方法的具体步骤如下:
[0006] Step1、获取源语言与目标语言的单语语料、源语言与目标语言的平行语料,对其进行tokenize处理;
[0007] Step2、使用源语言与目标语言的单语语料训练跨语言的语言模型:
[0008] Llm=Ex~S[-logPs→s(x|C(x))]+Ey~T[-logPt→t(y|C(y))]
[0009] 其中,S表示源语言单语语料,T表示目标语言单语语料,x与y分别表示源语言单语语料与目标语言单语语料的单个句子;C(x)与C(y)表示在句子上添加噪音,即删除、替换、交换句子中的部分词语;Ps→s(x|C(x))表示源语言到源语言将添加噪音的句子进行重构;再最小化重构误差,误差即为Ex~S[-logPs→s(x|C(x))];Pt→t(y|C(y))表示目标语言到目标语言将添加噪音的句子进行重构;再最小化重构误差,误差即为Ey~T[-logPt→t(y|C(y))];源lm语言与目标语言的误差和即为整个语言模型L ;
[0010] Step3、使用训练完成的语言模型对翻译模型的编码器-解码器进行初始化;
[0011] Step4、再获取两种语言的双语字典;字典来源为英汉词典、汉英词典或平行语料库抽取
[0012] Step5、在翻译模型内部根据双语字典构建字典前缀树prefix tree,使得字典被快速查找;
[0013] Step6、在翻译模型中训练一个自编码器:
[0014]
[0015] 其中,l表示源语言src或目标语言tgt,θ(enc),θ(dec)分别表示编码器和解码器,Dl表示源语言src或目标语言的单语语料库;e(C(x))表示将加了噪声的句子进行编码;
[0016] 将一种语言L的句子x添加噪声,表示为C(x);
[0017] 使用编码器e()对添加噪声的句子C(x)进行编码,表示为e(C(x),l);
[0018] 再通过解码器d()将编码后的句子解码为语言L的句子,表示为d(e(C(x),l),l);
[0019] 上述公式表示将一种语言的句子x添加噪声后通过编码器e()编码,然后再通过解码器d()解码为原句子 使得 尽可能接近x,这个过程用 表示,并最小化重构误差Lauto;
[0020] Step7、使用源语言与目标语言的平行语料训练翻译模型,称为MT-step步骤:
[0021]
[0022]
[0023] 其中,PD表示源语言与目标语言的平行语料库,x1与y1表示从平行语料库中抽取出的相对应的源语言句子与目标语言句子,v表示源句子,即x1,…,xT,其中xt表示句子中的第t个单词,此时t从1~T,T′为目标句子长度,P表示在翻译的源句子及翻译出的目标句子前t-1个词语构成的序列v,y1,…,yt-1的情况下翻译出下一个词yt的概率,最终使得P最大化mt即将损失函数L 最小化;翻译模型支持双向翻译,(x1,y1)能表示从源语言翻译到目标语言;也能表示从目标语言翻译到源语言;
[0024] Step8、在训练翻译模型的同时训练回翻译模型,训练回翻译模型包括两个阶段:
[0025] 训练回翻译模型的第一阶段为:将一种语言源语言或目标语言的句子通过翻译模型翻译为对方语言目标语言或源语言的句子;然后增加字到字的翻译,即再将翻译出来的句子中存在非对方语言的单词通过字典前缀树逐字的翻译为对方语言的单词,使得整个译文单词均为对方语言,其译文用于回翻译第二阶段;回翻译公式表示如下:
[0026] Lback=Ey~T[-logPs→t(y|u*(y))]+Ex~S[-logPt→s(x|u*(x))]
[0027] 其中,u*(y)表示翻译模型将目标语言句子y翻译为源语言句子x’,再增加字到字的翻译;u*(x)表示将源语言句子x翻译为目标语言句子y’,再增加字到字的翻译;u*(y)、u*(x)表示的过程即为回翻译的第一阶段;Ps→t(y|u*(y))表示将翻译后的源语言句子x’再次翻译为目标语言句子y,Pt→s(x|u*(x))表示将翻译后的目标语言句子y’再次翻译为源语言句子x;Ps→t(y|u*(y))、Pt→s(x|u*(x))表是的过程即为回翻译的第二阶段;误差E[-logP(x|u*(x))]之和最小化使得总误差Lback最小化;
[0028] Step9、最终训练的翻译模型(L)表示为:
[0029] L=Lauto+Lmt+Lback
[0030] Step10、使用训练好的模型评测。
[0031] 本发明的有益效果是:
[0032] 1、本发明通过语言模型初始化翻译模型,使得翻译模型初步包含两种语言的语言特征;
[0033] 2、本发明通过训练自编码器,使得模型进一步学习到两种语言的语言特征,使得模型在翻译句子时能够产生更流畅的句子;
[0034] 3、本发明通过回翻译,使得模型可以使用单语语料构建伪平行语料,可以充分利用大规模的单语语料,以解决平行语料过少的问题;
[0035] 4、本发明使用字到字的翻译,约束了回翻译模型在远距离语言上(如中文-英文)可能出现的退化问题;
[0036] 5、本发明使用少量的平行语料训练翻译模型,提升翻译质量
[0037] 6、本发明简单有效,能够使模型正常翻译并大幅提升模型翻译性能;
[0038] 7、本发明使用半监督学习的方式,提出了添加平行语料和对回翻译结果再次逐字翻译两种方法进行修正。本发明提出的基于半监督学习的中英机器翻译的修正方法,有效解决了非监督机器翻译模型退化的问题,大幅提升了非监督机器翻译模型在中英语言上的翻译性能。附图说明
[0039] 图1为本发明的半监督神经机器翻译流程图
[0040] 图2为本发明中不同翻译模型的英-中翻译的效果对比图;
[0041] 图3为本发明中不同翻译模型的中-英翻译的效果对比图。

具体实施方式

[0042] 实施例1:如图1-3所示,基于字到字翻译的半监督神经机器翻译模型的构建方法,所述方法的具体步骤如下:
[0043] Step1、获取源语言与目标语言的单语语料、源语言与目标语言的平行语料,对其进行tokenize处理;
[0044] Step2、使用源语言与目标语言的单语语料训练跨语言的语言模型:
[0045] Llm=Ex~S[-logPs→s(x|C(x))]+Ey~T[-logPt→t(y|C(y))]
[0046] 其中,S表示源语言单语语料,T表示目标语言单语语料,x与y分别表示源语言单语语料与目标语言单语语料的单个句子;C(x)与C(y)表示在句子上添加噪音,即删除、替换、交换句子中的部分词语;Ps→s(x|C(x))表示源语言到源语言将添加噪音的句子进行重构;再最小化重构误差,误差即为Ex~S[-logPs→s(x|C(x))];Pt→t(y|C(y))表示目标语言到目标语言将添加噪音的句子进行重构;再最小化重构误差,误差即为Ey~T[-logPt→t(y|C(y))];源lm语言与目标语言的误差和即为整个语言模型L ;
[0047] Step3、使用训练完成的语言模型对翻译模型的编码器-解码器进行初始化;
[0048] Step4、再获取两种语言的双语字典;字典来源为英汉词典、汉英词典或平行语料库抽取;
[0049] Step5、在翻译模型内部根据双语字典构建字典前缀树prefix tree,使得字典被快速查找;
[0050] Step6、在翻译模型中训练一个自编码器,称为AE-step步骤:
[0051]
[0052] 其中,l表示源语言src或目标语言tgt,θ(enc),θ(dec)分别表示编码器和解码器,Dl表示源语言src或目标语言的单语语料库;e(C(x))表示将加了噪声的句子进行编码;
[0053] 将一种语言L的句子x添加噪声,表示为C(x);
[0054] 使用编码器e()对添加噪声的句子C(x)进行编码,表示为e(C(x),l);
[0055] 再通过解码器d()将编码后的句子解码为语言L的句子,表示为d(e(C(x),l),l);
[0056] 上述公式表示将一种语言的句子x添加噪声后通过编码器e()编码,然后再通过解码器d()解码为原句子 使得 尽可能接近x,这个过程用 表示,并最小化重构误差Lauto;
[0057] Step7、使用源语言与目标语言的平行语料训练翻译模型,称为MT-step步骤:
[0058]
[0059]
[0060] 其中,PD表示源语言与目标语言的平行语料库,x1与y1表示从平行语料库中抽取出的相对应的源语言句子与目标语言句子,v表示源句子,即x1,…,xT,其中xt表示句子中的第t个单词,此时t从1~T,T′为目标句子长度,P表示在翻译的源句子及翻译出的目标句子前t-1个词语构成的序列v,y1,…,yt-1的情况下翻译出下一个词yt的概率,最终使得P最大化mt即将损失函数L 最小化;翻译模型支持双向翻译,(x1,y1)能表示从源语言翻译到目标语言;也能表示从目标语言翻译到源语言;
[0061] Step8、在训练翻译模型的同时训练回翻译模型,称为BT-step步骤;训练回翻译模型包括两个阶段:
[0062] 训练回翻译模型的第一阶段为:将一种语言源语言或目标语言的句子通过翻译模型翻译为对方语言目标语言或源语言的句子;然后增加字到字的翻译,即再将翻译出来的句子中存在非对方语言的单词通过字典前缀树逐字的翻译为对方语言的单词,使得整个译文单词均为对方语言,其译文用于回翻译第二阶段;回翻译公式表示如下:
[0063] Lback=Ey~T[-logPs→t(y|u*(y))]+Ex~S[-logPt→s(x|u*(x))]
[0064] 其中,u*(y)表示翻译模型将目标语言句子y翻译为源语言句子x’,再增加字到字的翻译;u*(x)表示将源语言句子x翻译为目标语言句子y’,再增加字到字的翻译;u*(y)、u*(x)表示的过程即为回翻译的第一阶段;Ps→t(y|u*(y))表示将翻译后的源语言句子x’再次翻译为目标语言句子y,Pt→s(x|u*(x))表示将翻译后的目标语言句子y’再次翻译为源语言句子x;Ps→t(y|u*(y))、Pt→s(x|u*(x))表是的过程即为回翻译的第二阶段;误差E[-logP(x|u*(x))]之和最小化使得总误差Lback最小化;
[0065] Step9、最终训练的翻译模型(L)表示为:
[0066] L=Lauto+Lmt+Lback
[0067] Step10、使用训练好的模型评测。
[0068] 图2和图3给出了使用本发明后翻译效果对比,其评测方法使用国际通用的BLEU指标,其值越高越好。图中X轴表示训练轮次,Y轴表示评价指标。其中,UMT表示原有的非监督神经机器翻译模型,UMTC表示使用了改进后的回翻译(BT-step)过程的翻译模型,MT表示使用了MT-step的翻译模型,MTC表示同时使用MT-step和改进后的回翻译(BT-step)过程的翻译模型。
[0069] 通过测试可以看出本方明所述方法大幅提升了非监督机器翻译模型在中英语言上的翻译性能。
[0070] 上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈