专利汇可以提供一种基于迁移学习策略的蒙汉神经机器翻译方法专利检索,专利查询,专利分析的服务。并且本 发明 是为解决目前蒙汉 机器翻译 译文 质量 低、翻译效果差问题提出的。蒙古语属于低资 源语言 ,收集大量的蒙汉平行双语语料库极为困难,本发明中迁移学习策略可以有效的解决这一难题。迁移学习策略是运用已有的知识对不同但是相关领域问题进行求解的方法。首先,利用大规模的英-汉平行语料基于 神经机器翻译 框架 进行训练;其次,将大规模的英-汉平行语料训练好的翻译模型参数权重迁移到蒙汉神经机器翻译框架中,利用现有的蒙-汉平行语料训练神经机器翻译模型;最后,将基于迁移学习策略的神经机器翻译译文和统计机器翻译译文就BLEU值和译文流利度进行对比和评价。通过运用控制变量法,得出迁移学习策略有效提高了蒙汉机器翻译性能。,下面是一种基于迁移学习策略的蒙汉神经机器翻译方法专利的具体信息内容。
1.一种基于迁移学习策略的蒙汉神经机器翻译方法,其特征在于,首先,利用大规模的英汉平行语料进行英汉神经机器翻译模型训练;其次,将训练学到的网络参数权重迁移到蒙汉神经机器翻译模型中;然后,利用现有蒙汉平行语料进行蒙汉神经机器翻译模型训练,得到基于迁移学习策略的蒙汉神经机器翻译模型;最后,利用训练得到的蒙汉神经机器翻译模型实现蒙汉神经机器翻译。
2.根据权利要求1所述基于迁移学习策略的蒙汉神经机器翻译方法,其特征在于,在进行模型训练前,对英汉平行语料和蒙汉平行语料库资源进行数据预处理。
3.根据权利要求2所述基于迁移学习策略的蒙汉神经机器翻译方法,其特征在于,所述数据预处理以斯坦福大学自然语言实验室开源软件为工具,包括:
1)利用分词工具stanford-segmenter对中文语料进行分词操作;
2)利用英文预处理工具stanford-ner对英文语料进行预处理操作英语语料进行预处理操作以及汉语语料分词处理;
所述预处理基于条件随机场(CRF)模型,CRF模型定义为G=(V,E),是一个无向图,V是节点集合,是随机变量Y的集合,Y={Yi|1≤i≤m},E为无向边集合,对于输入一个句子的m个需要标记单元,E={Yi-1,Yi|1≤i≤m},是m-1个边构成的线性链;
给定一个需要标记的序列a,其对应的标记序列b的条件概率公式为:
ι
其中,ii是序列的下标,Z(a)为归一化函数,λk和λk是模型的参数,k的含义是每条边和相应结点的特征数量,fk和fιk是一个二值特征函数。
4.根据权利要求1所述基于迁移学习策略的蒙汉神经机器翻译方法,其特征在于,所述神经机器翻译模型公式为:
其中,是模型的参数,是非线性函数,yn是当前目标语言词,x是源语言句子,y
(t) (t) (t-1)
h =σ(Ux +Wh +b)
其中,σ为循环神经网络的激活函数,一般为tanh,b为线性关系的偏置,序列索引号t模型的输出o(t)的表示为o(t)=Vh(t)+d,最终在序列索引号t时预测输出为 d为输出结点的偏置,U,V,W是循环神经网络中共享的参数矩阵。
6.根据权利要求1所述基于迁移学习策略的蒙汉神经机器翻译方法,其特征在于,所述模型训练中,编码器和解码器进行联合训练,模型公式为:
其中,θ是模型的参数,p是条件概率函数,(xn,yn)表示双语训练语料,N是训练样本数量,采用极大似然估计算法训练样本。
7.根据权利要求1所述基于迁移学习策略的蒙汉神经机器翻译方法,其特征在于,所述利用双语平行语料训练神经网络学到的网络参数权重为神经网络各结点联接的参数矩阵,利用训练学到的网络参数权重,对蒙汉神经网络进行参数初始化代替随机初始化,实现将训练学到的网络参数权重迁移到蒙汉神经机器翻译模型。
8.根据权利要求1所述基于迁移学习策略的蒙汉神经机器翻译方法,其特征在于,所述利用蒙汉平行语料进行蒙汉神经机器翻译模型训练时,英汉和蒙汉翻译模型的包括词典大小、词向量大小、隐藏层大小在内的参数设置需要一致。
9.根据权利要求1所述基于迁移学习策略的蒙汉神经机器翻译方法,其特征在于,将蒙汉神经机器翻译原型系统的翻译译文与统计机器翻译译文就BLEU值进行对比和评价,达到最终提高蒙汉机器翻译性能的目的。
10.根据权利要求9所述基于迁移学习策略的蒙汉神经机器翻译方法,其特征在于,所述BLEU值是用来评估机器翻译译文质量的工具,分数越高说明机器翻译模型性能越好,BLEU值的公式为:
其中,wn=1/M,M是译文和参考译文的组词数,M的上限取值为4,pn代表n元语法准确率,BP代表译文较短惩罚因子:
BP=emin(1-r/h,0)
其中,h为候选译文中单词的个数,r是与h长度最接近的参考译文长度。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种面向大数据的跨语言检索方法 | 2020-05-12 | 589 |
基于统计的机器翻译方法、装置及电子设备 | 2020-05-17 | 107 |
一种基于多特征的跨语言剽窃检测方法 | 2020-05-23 | 308 |
面向计算机辅助翻译的输入方法与装置 | 2020-05-25 | 657 |
一种固定搭配型短语优先的两段式机器翻译方法 | 2020-05-19 | 279 |
具有领域定制功能的术语译文挖掘系统及方法 | 2020-05-22 | 942 |
基于双语片段的交互式机器翻译方法 | 2020-05-23 | 270 |
一种机器翻译译文的翻译方法、装置及存储介质 | 2020-05-13 | 360 |
一种机器翻译方法、装置、服务器及存储介质 | 2020-05-16 | 384 |
用于机器翻译的完整句识别方法与系统 | 2020-05-19 | 787 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。