首页 / 专利库 / 人工智能 / 候选译文 / 基于神经网络机器翻译的术语翻译方法、存储介质和装置

基于神经网络机器翻译的术语翻译方法、存储介质和装置

阅读:982发布:2020-05-13

专利汇可以提供基于神经网络机器翻译的术语翻译方法、存储介质和装置专利检索,专利查询,专利分析的服务。并且本 发明 涉及 机器翻译 领域,公开了一种基于神经网络机器翻译的术语翻译方法,包括如下步骤:(1)以键值对(key,value)数据格式定义术语库;(2)若待译语句中任一词汇包含在所述术语库的key值中,则用术语库中对应的value值进行术语翻译;(3)整体返回术语翻译后的结果。本发明还提供了一种存储介质及一种基于神经网络机器翻译的术语翻译装置。本发明能够提高神经网络机器翻译的术语翻译效果,提高术语翻译的准确率。,下面是基于神经网络机器翻译的术语翻译方法、存储介质和装置专利的具体信息内容。

1.一种基于神经网络机器翻译的术语翻译方法,其特征在于,包括如下步骤:
(1)以键值对(key,value)数据格式定义术语库;
(2)若待译语句中任一词汇包含在所述术语库的key值中,则用术语库中对应的value值进行术语翻译;
(3)整体返回术语翻译后的结果。
2.根据权利要求1所述的方法,其特征在于,步骤(1)中所述术语库key中存储的待译术语词汇经过预处理。
3.根据权利要求2所述的方法,其特征在于,所述预处理包括分词和子词切分。
4.根据权利要求1所述的方法,其特征在于,步骤(2)中所述术语翻译,通过集束搜索算法进行。
5.根据权利要求4所述的方法,其特征在于,所述术语翻译的过程包括:将术语库中的术语译文词汇加入到集束搜索的候选集中。
6.根据权利要求5所述的方法,其特征在于,将所述术语译文词汇加入到集束搜索的候选集中的过程包括:如原候选集中已有待译词汇的译文词汇,则将该译文词汇全部替换为所述术语译文词汇;如原候选集中无所述译文词汇,则根据集束搜索产生的对齐信息,将所述术语译文词汇的对齐词汇替换成标记符。
7.一种存储介质,其特征在于,所述存储介质内存储有实现如权利要求1至7中任一项所述的基于神经网络机器翻译的术语翻译方法的程序。
8.一种基于神经网络机器翻译的术语翻译装置,其特征在于,包括:
术语库定义模,用于以键值对(key,value)数据格式定义术语库;
翻译模块,用于以术语库中对应的术语译文词汇翻译包含术语库的术语的待翻译句子;
译码模块,用于将术语翻译的结果整体返回。
9.根据权利要求8所述的术语翻译装置,其特征在于,还包括预处理模块,用于对待译术语进行预处理。
10.根据权利要求8或9所述的术语翻译装置,其特征在于,所述翻译模块中包括集束搜索单元,用于对待译语句进行集束搜索。

说明书全文

基于神经网络机器翻译的术语翻译方法、存储介质和装置

技术领域

[0001] 本发明涉及机器翻译领域,具体地涉及一种基于神经网络机器翻译的术语翻译方法。本发明还涉及一种存储介质和一种神经网络机器翻译装置。

背景技术

[0002] 在神经网络机器翻译中,翻译完全依赖神经网络模型生成的结果,人工不可干预,虽然翻译质量上相比以往的统计机器翻译有大幅度提高,但是在翻译过程中的人工可干预程度不如统计机器翻译。所以遇见一些已知的翻译错误,神经网络机器翻译只能通过重新训练模型或者增量训练来优化,而不能立即制定相应规则进行解决。术语翻译就属于这其中非常重要的一项内容。
[0003] 术语翻译是指针对一些具有规定翻译方法的词汇或词组,这些词汇或词组往往在篇章或句子中有着特定的翻译,这种翻译与上下文关系密切。例如“crane”在机械领域往往应该翻译成“起重机”而不是“鹤”。在我们确定的领域进行翻译的时候,指定这些术语词汇的翻译就成为一项非常重要的工作。
[0004] 现有的术语翻译的主要方法还是依赖将术语当成未知词输入到神经网络机器翻译模型的编码器中,通常情况在解码器中也会存在相同的未知词标记,这样再替换成相应的术语翻译即可达到想要的术语翻译的结果。
[0005] 然而现有技术有两个致命的缺点:1.无法保证翻译的质量,在一句话存在术语较多的情况下翻译质量明显下降。2.可能会有术语无法翻译的情况,由于是将未知词标记输入到编码器中,解码器会在部分情况下不输出未知词标记的情况,导致最终术语无法按照指定的解释进行翻译。

发明内容

[0006] 本发明所要解决的技术问题是主要解决传统神经网络机器翻译中,术语翻译翻译质量低、甚至无法得到正确翻译结果的问题,提高神经网络机器翻译的术语翻译质量。
[0007] 为了实现上述目的,本发明第一方面提供一种基于神经网络机器翻译的术语翻译方法,包括如下步骤:(1)以键值对(key,value)数据格式定义术语库;(2)若待译语句中任一词汇包含在所述术语库的key值中,则用术语库中对应的value值进行术语翻译;(3)整体返回术语翻译后的结果。
[0008] 优选地,步骤(1)中所述术语库key中存储的待译术语词汇经过预处理。在该优选技术方案中,经过预处理将待译术语词汇进行规范和整理,便于待译术语词汇的存储和搜索。
[0009] 进一步优选地,所述预处理包括分词和子词切分。在该优选技术方案中,通过分词和子词切分,将待译术语词汇分解为最小子词单元,能够保证术语翻译的准确性,并减小术语库的存储量。
[0010] 优选地,步骤(2)中所述术语翻译,通过集束搜索算法进行。在该优选技术方案中,通过集束搜索算法,能够更好地体现神经网络机器翻译的优点,得到质量更高的译文。
[0011] 具体地,所述术语翻译的过程包括:将术语库中的术语译文词汇加入到集束搜索的候选集中。通过该具体技术方案,将术语译文词汇加入候选集中,使得最终的译文体现术语翻译的结果。
[0012] 进一步地,将所述术语译文词汇加入到集束搜索的候选集中的过程包括:如原候选集中已有待译词汇的译文词汇,则将该译文词汇全部替换为所述术语译文词汇;如原候选集中无所述译文词汇,则根据集束搜索产生的对齐信息,将所述术语译文词汇的对齐词汇替换成标记符。通过该具体技术方案,能够保证集束搜索算法形成的候选集中与待译术语词汇相对应的译文词汇均为正确的术语译文词汇。
[0013] 本发明第二方面提供一种存储介质,所述存储介质内存储有实现本发明第一方面所提供的基于神经网络机器翻译的术语翻译方法的程序。
[0014] 本发明第三方面提供一种基于神经网络机器翻译的术语翻译装置,包括:术语库定义模,用于;以键值对(key,value)数据格式定义术语库;翻译模块,用于以术语库中对应的术语译文词汇翻译包含术语库的术语的待翻译句子;译码模块,用于将术语翻译的结果整体返回。
[0015] 优选地,本发明的基于神经网络机器翻译的术语翻译装置还包括预处理模块,用于对待译术语进行预处理。在该优选技术方案中,通过对待译术语的预处理,能够减小术语库的大小,提高术语的检索速度。
[0016] 优选地,所述翻译模块中包括集束搜索单元,用于对待译语句进行集束搜索。通过该优选技术方案,能够利用集束搜索算法的优势,从多个待译语句的可能译文方案中,较为方便地优选出最佳译文方案。
[0017] 通过上述技术方案,本发明的基于神经网络机器翻译的术语翻译方法,由于采用了键值对数据格式的术语库,并在翻译过程中对待译语句进行术语过滤,能够实现对术语的精准翻译,提高含术语语句的翻译质量。在本发明的优选技术方案中,对术语库的key值进行预处理,存储术语词汇的基本单元,减小了术语库的大小,提高了术语的检索效果;采用集束搜索算法能够从与待译词汇相对应的多个译文词汇中选取最优词汇,提高了翻译的质量。本发明的基于神经网络机器翻译的术语翻译装置,由于采用了本发明的基于神经网络机器翻译的术语翻译方法,也具有上述优点。附图说明
[0018] 图1是本发明的方法实施例流程图
[0019] 图2是本发明一种实施方式整体翻译工作流程图。

具体实施方式

[0020] 以下结合附图对本发明的具体实施方式进行详细说明,应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,本发明的保护范围并不局限于下述的具体实施方式。
[0021] 如图1所示,本发明实施例的基于神经网络机器翻译的术语翻译方法包括如下步骤:
[0022] (1)搜集特定行业内需要指定翻译的术语,形成术语翻译资料,并将术语翻译资料以(key,value)键值对数据格式存储到机器翻译装置中形成术语库,以便于术语翻译资料的存储与检索。
[0023] (2)在术语库的key值中逐一搜索待译语句中的每一个待译词汇,如果术语库的key值中存在某个待译词汇,则用术语库中对应的value值即术语译文词汇对该待译词汇进行术语翻译。
[0024] (3)对待翻译语句中的各个词汇进行解码,得到整体翻译结果。
[0025] 作为本发明的方法的一种实施方式,在步骤(1)中,在形成术语库的过程中,存入术语库key中的待译术语词汇经过预处理,以形成较小的独立术语单元。这样可以精简存入术语库中的总术语词汇数量,以较小的存储容量实现更为丰富的术语库。
[0026] 作为本发明的方法的一种实施方式,对存入术语库key中的待译术语词汇进行预处理的方法包括在需要时对待译术语词汇进行分词和子词切分。例如术语“中华人民共和国”指定翻译为“PRC”,在将该术语存入术语库时,对术语进行预处理时,对术语“中华人民共和国”进行分词切分,形成分词“中华人民共和国”;再进行子词切分,得到子词“中华|人民|共和国”。形成最小的独立术语单元。
[0027] 在本发明的方法的一些实施例中,在进行术语翻译时,通过集束搜索算法进行翻译。集束搜索算法能够有效提高机器翻译的译文质量。
[0028] 在本发明的方法的一些实施例中,在术语翻译的过程中,将在术语库中搜索到的术语译文词汇加入到集束搜索的候选集中,形成包含术语译文词汇的新的候选集。
[0029] 作为本发明的方法的一种实施方式,将术语译文词汇加入到集束搜索的候选集中的过程为:在术语库中搜索到术语译文词汇后,检查原候选集中是否已经存在该待译术语作为普通词汇解释的常规译文词汇。如原候选集中已有常规译文词汇,则将该常规译文词汇全部替换为术语译文词汇。如原候选集中没有该待译术语的译文词汇,则根据集束搜索产生的对齐信息,将所述术语译文词汇的对齐词汇替换成标记符。通常用来表示,N代表是第N个key值相对应的对齐词汇,与待译语句中其他词汇的集束搜索的对齐词汇共同形成集束搜索的候选集。
[0030] 下面通过一个汉英翻译的简单实例,描述本发明的基于神经网络机器翻译的术语翻译方法在实际机器翻译中的工作流程。
[0031] 如需要将语句“我来自中华人民共和国”翻译成英语,本发明的基于神经网络机器翻译的术语翻译方法在实际机器翻译中的工作流程如图2所示,在进行语句翻译之前,首先进行术语翻译资料的预处理。如将“中华人民共和国”认定为术语,指定翻译为“PRC”,则先对“中华人民共和国”进行预处理,形成分词“中华人民共和国”,再进行子词切分,得到“中华|人民|共和国”,建立一个key值为“中华|人民|共和国”,value值为“PRC”的术语数据库
[0032] 开始进行翻译时,将句子“我来自中华人民共和国”作为待翻译语句输入机器,机器对句子“我来自中华人民共和国”进行预处理,形成“我”、“来自”和“中华人民共和国”的分词,再做子词切分,形成子词“中华|人民|共和国”。
[0033] 从术语库的key值中分别检测各个分词的值“我”、“来自”和“中华人民共和国”,然后使用正向最大匹配法查找待译文本中是否含有术语库中存在的已经经过预处理的术语词汇。如果各个分词的值在术语库的key值中均没有检测到,则默认待翻译句子中不存在术语,不需要进行术语翻译步骤。如本例中的“中华|人民|共和国”没有被认定为术语时,术语库中没有存入相应的信息,则按正常的神经网络进行集束搜索,形成如下候选集:
[0034]
[0035] 对集束搜索结果进行整体解码,得到最终的整体翻译结果“I am from People’s Republic of China”。
[0036] 如果在术语库的key值中检测到某个分词的值,如本例中的“中华人民共和国”,则在按正常的神经网络进行集束搜索而形成的候选集中加入与key值“中华人民共和国”相对应的value值“PRC”,具体的做法为:检查集束搜索的候选集,如果候选集中已经存在该待译术语的常规译文词汇,即此例中与“中华|人民|共和国”的常规译文“China People Republic”、“People’s Republic of China”和“PRC”,则将候选集中的该译文词汇(“China People Republic”、“People’s Republic of China”和“PRC”)全部替换为与key值相对应的value值(“PRC”)。形成集束搜索的新的候选集。最终候选集如下:
[0037]
[0038] 可以看到,经过约束,集束搜索的结果中均包含了“PRC”。对集束搜索结果进行整体解码,最终的整体翻译结果“I am from PRC”。
[0039] 如果候选集中没有译文词汇,即根据正常的神经网络进行的集束搜索无法搜索到该术语词汇的译文,则根据集束搜索产生的对齐信息,将key翻译的对齐词汇替换成一个标记符进行编码。在此例中,如原候选集中没有“中华人民共和国”的译文词(“China People Republic”、“People’s Republic of China”或“PRC”等),则使用来表示术语库中的术语词汇“中华人民共和国”,“_1”代表“中华人民共和国”是第一个需要指定翻译的术语。如果待译文本中还有其他的需要指定翻译的术语且在翻译候选集的词汇中均不存在相应的译文词汇,则依次表示为等。在这种情况,直接将带有UNK标记的待翻译文本作为输入进行翻译,形成集束搜索的新的候选集。最终候选集如下:
[0040]
[0041] 对集束搜索结果进行整体解码,得到的翻译结果为“I am from UNK_1”。也就是,用标记直接代替待翻译词汇“中华人民共和国”作为候选集编码进入候选集中,解码结果也带有标记。最后再将标记的词汇依次替换为指定的术语翻译结果即可得到最终翻译结果。在本例中,再将翻译结果中的UNK_1替换成指定的术语翻译结果PRC,得到最终的翻译结果“I am from PRC”。
[0042] 本发明的基于神经网络机器翻译的术语翻译方法,能够克服现有的神经网络机器翻译方法在术语翻译方面的固有缺陷,能够有效提高带术语的语句的翻译质量。同时,由于对待译术语进行了预处理,以分词、子词的形式建立术语库,也减小了术语无法翻译的情况的出现。
[0043] 本发明的基于神经网络机器翻译的翻译装置的一个实施例包括术语库定义模块:用于定义键值对(key,value)数据格式的术语库;翻译模块:用于翻译待译语句,在待译语句中包含术语库中存在的待译术语时,使用术语库中的对应的术语译文词汇翻译对待译语句进行翻译;译码模块,用于将术语翻译的结果整体返回。
[0044] 在本发明的翻译装置的一些实施例中,还包括预处理模块,该预处理模块用于对待译术语进行预处理,形成更加便于检索和存储的术语库。
[0045] 在本发明的翻译装置的一些实施例中,翻译模块中包括集束搜索单元,用于对待译语句进行集束搜索,进行经过编码的候选集。
[0046] 本发明的基于神经网络机器翻译的翻译装置能够执行本发明的基于神经网络机器翻译的术语翻译方法。也具有与本发明的方法同样的优点。
[0047] 在本发明的描述中,参考术语“一个实施例”、“一些实施例”、“一种实施方式”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本发明中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0048] 以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于此。在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,包括各个具体技术特征以任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。但这些简单变型和组合同样应当视为本发明所公开的内容,均属于本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈