专利汇可以提供基于字到字翻译的半监督神经机器翻译模型的构建方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及基于字到字翻译的半监督神经 机器翻译 模型的构建方法,属于 自然语言处理 技术领域。本发明首先获取 源语言 与 目标语言 的单语语料、源语言与目标语言的平行语料;使用单语语料训练跨语言的语言模型;使用训练完成的语言模型对翻译模型的 编码器 - 解码器 进行初始化;再获取两种语言的双语字典;在翻译模型内部根据双语字典构建字典前缀树;在翻译模型中训练一个自编码器;使用源语言与目标语言的平行语料训练翻译模型;在训练翻译模型的同时进行训练回翻译模型;把自编码器、使用源语言与目标语言的平行语料训练翻译模型、回翻译模型融合起来得到最终的翻译模型。本发明简单有效,能够使模型正常翻译并大幅提升模型翻译性能。,下面是基于字到字翻译的半监督神经机器翻译模型的构建方法专利的具体信息内容。
1.基于字到字翻译的半监督神经机器翻译模型的构建方法,其特征在于:
首先获取源语言与目标语言的单语语料、源语言与目标语言的平行语料,对其进行tokenize处理;使用源语言与目标语言的单语语料训练跨语言的语言模型;使用训练完成的语言模型对翻译模型的编码器-解码器进行初始化;再获取两种语言的双语字典;在翻译模型内部根据双语字典构建字典前缀树,使得字典被快速查找;在翻译模型中训练一个自编码器;使用源语言与目标语言的平行语料训练翻译模型;在训练翻译模型的同时进行训练回翻译模型;把自编码器、使用源语言与目标语言的平行语料训练翻译模型、回翻译模型融合起来得到最终的翻译模型。
2.根据权利要求1所述的基于字到字翻译的半监督神经机器翻译模型的构建方法,其特征在于:
所述方法的具体步骤如下:
Step1、获取源语言与目标语言的单语语料、源语言与目标语言的平行语料,对其进行tokenize处理;
Step2、使用源语言与目标语言的单语语料训练跨语言的语言模型:
Llm=Ex~S[-logPs→s(x|C(x))]+Ey~T[-logPt→t(y|C(y))]
其中,S表示源语言单语语料,T表示目标语言单语语料,x与y分别表示源语言单语语料与目标语言单语语料的单个句子;C(x)与C(y)表示在句子上添加噪音,即删除、替换、交换句子中的部分词语;Ps→s(x|C(x))表示源语言到源语言将添加噪音的句子进行重构;再最小化重构误差,误差即为Ex~S[-logPs→s(x|C(x))];Pt→t(y|C(y))表示目标语言到目标语言将添加噪音的句子进行重构;再最小化重构误差,误差即为Ey~T[-logPt→t(y|C(y))];源语言与目标语言的误差和即为整个语言模型Llm;
Step3、使用训练完成的语言模型对翻译模型的编码器-解码器进行初始化;
Step4、再获取两种语言的双语字典;字典来源为英汉词典、汉英词典或平行语料库抽取;
Step5、在翻译模型内部根据双语字典构建字典前缀树pre fix tree,使得字典被快速查找;
Step6、在翻译模型中训练一个自编码器:
其中,1表示源语言src或目标语言tgt,θ(enc),θ(dec)分别表示编码器和解码器,Dl表示源语言src或目标语言的单语语料库;e(C(x))表示将加了噪声的句子进行编码;
将一种语言L的句子x添加噪声,表示为C(x);
使用编码器e()对添加噪声的句子C(x)进行编码,表示为e(C(x),1);
再通过解码器d()将编码后的句子解码为语言L的句子,表示为d(e(C(x),l),l);
上述公式表示将一种语言的句子x添加噪声后通过编码器e()编码,然后再通过解码器d()解码为原句子 使得 尽可能接近x,这个过程用 表示,并最小化重构误差Lauto;
Step7、使用源语言与目标语言的平行语料训练翻译模型,称为MT-step步骤:
其中,PD表示源语言与目标语言的平行语料库,x1与y1表示从平行语料库中抽取出的相对应的源语言句子与目标语言句子,v表示源句子,即x1,...,xT,其中xt表示句子中的第t个单词,此时t从1~T,T′为目标句子长度,P表示在翻译的源句子及翻译出的目标句子前t-
1个词语构成的序列v,y1,...,yt-1的情况下翻译出下一个词yt的概率,最终使得P最大化即将损失函数Lmt最小化;翻译模型支持双向翻译,(x1,y1)能表示从源语言翻译到目标语言;
也能表示从目标语言翻译到源语言;
SteD8、在训练翻译模型的同时训练回翻译模型,训练回翻译模型包括两个阶段:
训练回翻译模型的第一阶段为:将一种语言源语言或目标语言的句子通过翻译模型翻译为对方语言目标语言或源语言的句子;然后增加字到字的翻译,即再将翻译出来的句子中存在非对方语言的单词通过字典前缀树逐字的翻译为对方语言的单词,使得整个译文单词均为对方语言,其译文用于回翻译第二阶段;回翻译公式表示如下:
Lback=Ey~T[-logPs→t(y|u*(y))]+Ex~S[-logPt→s(x|u*(x))]
其中,u*(y)表示翻译模型将目标语言句子y翻译为源语言句子x’,再增加字到字的翻译;u*(x)表示将源语言句子x翻译为目标语言句子y’,再增加字到字的翻译;u*(y)、u*(x)表示的过程即为回翻译的第一阶段;Ps→t(y|u*(y))表示将翻译后的源语言句子x’再次翻译为目标语言句子y,Pt→s(x|u*(x))表示将翻译后的目标语言句子y’再次翻译为源语言句子x;
Ps→t(y|u*(y))、Pt→s(x|u*(x))表是的过程即为回翻译的第二阶段;误差E[-logP(x|u*(x))]back
之和最小化使得总误差L 最小化;
Step9、最终训练的翻译模型(L)表示为:
L=Lauto+Lmt+Lback
Step10、使用训练好的模型评测。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
跨语言非标准词识别方法及装置 | 2020-05-11 | 328 |
基于专利数据的半自动化翻译双语模板的构建方法及系统 | 2020-05-13 | 856 |
一种多源神经机器翻译模型的融合和压缩方法 | 2020-05-14 | 489 |
一种基于对偶学习的蒙汉机器翻译方法 | 2020-05-14 | 935 |
多义词的翻译方法、装置、电子设备及介质 | 2020-05-08 | 668 |
一种基于树到序列的蒙汉机器翻译方法 | 2020-05-15 | 468 |
一种译文重对齐的循环神经网络跨语言机器翻译方法 | 2020-05-15 | 543 |
基于OpenKiWi进化的引擎优化方法以及翻译系统 | 2020-05-11 | 14 |
一种提升神经机器翻译效果的有效数据增强方法 | 2020-05-12 | 94 |
处理网络上的音频通信的方法和系统 | 2020-05-15 | 385 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。