专利汇可以提供融合句法解析树的汉-越神经机器翻译方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及融合句法解析树的汉-越神经 机器翻译 方法,属于 自然语言处理 技术领域。本发明能够实现汉语-越南语、越南语-汉语的机器翻译。通过从互联网爬取和人工翻译的方式构建的汉语-越南语双语平行语料作为 训练数据 集。为解决目前汉-越机器翻译中由于训练语料不足导致的翻译错误;本发明首先对 源语言 进行分词、词性标记以及句法解析,得到源语言的句法树。然后将句法标签向量化并融合到机器翻译模型训练的编码过程,训练机器翻译模型。所得模型可以有效完成汉语和越南语之间的翻译。实验结果表明,相比未融合句法解析树的基准系统该方法得到的译文更加流畅,并获得了0.6个BLEU值的提升。,下面是融合句法解析树的汉-越神经机器翻译方法专利的具体信息内容。
1.融合句法解析树的汉-越神经机器翻译方法,其特征在于:
所述方法的具体步骤如下:
Step1、收集汉语-越南语双语平行语料作为训练语料;
Step2、训练语料的预处理:对汉语、越南语的训练语料进行去停用词、分词及词性标记;
Step3、利用句法解析工具对经过预处理的训练语料进行句法解析,得到汉语、越南语的句法解析树;
Step4、对得到的汉语、越南语句法解析树进行深度优先遍历,获得每个单词对应的句法标签序列;
Step5、对步骤Step4得到的汉语、越南语进行向量化的表示,采用数字为每种句法标签定义特征编码,然后根据定义的特征编码对每个单词对应的句法标签序列进行向量化表示;
Step6、将步骤Step5得到的句法标签向量与源语言词嵌入向量、位置嵌入向量拼接作为编码器的输入,训练汉语-越南语神经机器翻译模型,并采用BLEU值评估模型的性能;
Step7、重复循环步骤Step2-Step5,对输入文本进行预处理,得到输入的词向量序列、位置嵌入向量与句法标签向量序列;
Step8、将步骤Step6得到的汉语-越南语神经机器翻译模型载入神经机器翻译解码引擎,将步骤Step7得到的输入的词向量、位置嵌入向量与句法标签向量拼接并输入神经机器翻译解码引擎,输出解码得到的译文。
2.根据权利要求1所述的融合句法解析树的汉-越神经机器翻译方法,其特征在于:所述步骤Step2中,对越南语训练语料进行分词及词性标记时采用了基于CRF的越南语分词及词性标记模型对越南语进行分词及词性标记。
3.根据权利要求1所述的融合句法解析树的汉-越神经机器翻译方法,其特征在于:所述步骤Step4中,获取句法标签序列时,通过对句法解析树根节点到叶子节点的深度优先遍历,得到句子中每个单词的句法标签序列。
4.根据权利要求1所述的融合句法解析树的汉-越神经机器翻译方法,其特征在于:所述步骤Step5中,根据句法标签序列生成句法标签向量的具体步骤如下:
(1)为每种句法标签定义唯一的数字表示作为标签的特征编码;
(2)根据定义的标签特征编码将每个单词对应的句法标签序列表示为向量形式;
(3)将所有句法标签序列向量转化为64维的向量表征,采用自左向右的填充方式,空白处用0表示。
5.根据权利要求4所述的融合句法解析树的汉-越神经机器翻译方法,其特征在于:所述步骤Step5中,通过步骤Step4获得每个单词对应的句法标签序列后,为了对以上句法标签进行向量化表示,对每种句法标签定义固定的特征编码,再根据定义的标签编码将每个单词对应的句法标签序列表示为以下形式:
gi=((w1l1+b1),(w2l2+b2),…,(wtlt+bt)) (1)
其中,gi表示原句中第i个单词的句法标签向量,l={l1,l2,…,lt}为句法标签序列中预定义的每个标签编码,t为每个词对应的句法标签数量,b={b1,b2,…,bt}表示偏置项,初始值为0;对于每个句法标签对应的权重wt,根据标签所在句法解析树的层次对权重进行初始化,越靠近叶子节点的标签对当前节点的影响越大,因此将权值w={w1,w2,…,wt}初始化为{0.1,0.2,…,0.1*t},将句法标签向量定义为64维的向量表征,采用自左向右的填充方式,空白处用0表示。
6.根据权利要求1所述的融合句法解析树的汉-越神经机器翻译方法,其特征在于:所述步骤Step6中,将每个单词的词嵌入向量、位置嵌入向量与句法标签序列向量通过向量拼接的方式融合,然后输入到机器翻译模型的编码器中,训练神经机器翻译模型。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种面向神经网络机器翻译的英文词法分析方法及系统 | 2020-05-11 | 962 |
组织机构名汉英翻译方法 | 2020-05-21 | 483 |
中间语系统、中间语引擎、中间语翻译系统和相应方法 | 2020-05-21 | 496 |
面向计算机辅助翻译的输入方法与装置 | 2020-05-26 | 150 |
一种提取中文人名地名的方法及装置 | 2020-05-22 | 568 |
电子临床自由文本的阅读者驱动的释义 | 2020-05-23 | 494 |
基于机器翻译引擎的翻译方法及装置 | 2020-05-12 | 936 |
一种MerCube机器翻译管理控制系统及方法、计算机程序 | 2020-05-16 | 516 |
机器翻译引擎选择方法及装置 | 2020-05-13 | 424 |
一种基于发布会场景的多语同传翻译终端控制装置 | 2020-05-21 | 358 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。