技术领域
[0001] 本
发明属于翻译技术领域,尤其涉及一种用于辅助译员进行翻译的方法及其辅助翻译系统。
背景技术
[0002] 现阶段翻译技术可以分为三种:人工翻译、
计算机辅助翻译以及
机器翻译。人工翻译准确度较高,但是速度较慢,并且准确度取决于译员自身的能
力水平;机器翻译速度快,然而大部分机器翻译的结果并不能直接拿来使用,因为通常会存在明显的错翻以及语法错误,还是需要通过人工翻译进行进一步校正;计算机辅助翻译则是介于二者之间的一种翻译方法,其基本思路是由计算机对待译语料进行初步翻译,初步翻译结果中,待译语料中的绝大部分都能准确翻译,只有少部分特殊术语、或者由于待译语料领域特殊导致的普通术语的含义特殊化或者其他原因等导致的部分子集的翻译结果不甚准确,需要进行二次人工检查并替换为准确的术语对应翻译。
[0003] 为了实现二次人工检查并将初步翻译结果中的不准确部分替换为准确术语,目前译员会根据实际情况,例如待译语料的领域、上下文特点等,事前配置一个待译语料的特殊术语库。在得到计算机的初步翻译结果后,再将其中的不准确部分查找出来进行替换。
[0004]
现有技术中,这个过程是非常低效率的,主要体现在:首先,由于不同翻译引擎对于同一个术语的(不准确)翻译结果可能表现不同,甚至同一个翻译引擎对于同一个术语的(不准确)翻译结果在不同上下文中也可能表现不同,查找这部分不准确部分变得困难,无法进行自动查找而只能手动查找,再实现手动替换;
其次,译员预先配置的特殊术语库并没有发生实际作用。现有的翻译引擎并没有对接该术语库的功能。即使某些翻译工具可以自定义某些术语的特殊翻译结果以供参考,但是该过程仍然是手动的一一输入配置,对于大规模语料翻译,这种手动操作显然是不可行的。
[0005] 因此,目前的计算机辅助翻译技术存在一定的问题。
发明内容
[0006] 为解决现有技术中计算机辅助翻译过程存在的效率低下的问题,本发明提出了一种辅助翻译的方法以及对应的计算机辅助翻译系统。利用本发明提出的技术方案,在翻译过程中,可以自动实现翻译结果中特殊术语的自动查找匹配,并且结合译员预先配置的特殊术语库,将其自动替换,从而快速的得出准确的最终翻译结果,避免了背景技术部分现有技术存在的低效问题。
[0007] 在本发明的第一个方面,提供了一种辅助翻译的方法,该方法主要包括如下步骤:1)将特殊术语库的术语加载进AC自动机,形成高效率的多模式字符串匹配机;
2) 使用AC自动机匹配,将匹配上的源术语替换成特殊标记(无法被翻译阵列识别);
3) 将替换后的待翻译语料进入翻译阵列,翻译阵列返回带特殊标记的翻译过的语料;
4) 再次使用术语库,将特殊标记替换回需要替换的目标术语。
[0008] 其中,所述翻译阵列包含多个翻译引擎;所述翻译整列选择所述多个翻译引擎之一对所述待译语料进行翻译,并返回结果;当所述被选择的翻译引擎返回不及时或无法响应时,所述翻译阵列自动切换为其他翻译引擎。
[0009] 所述特殊术语库包含多种语种的术语库,所述AC自动机根据待译语料的属性,自动选择对应语种的术语库并通知所述翻译阵列选择相应翻译引擎的相应语种翻译功能。
[0010] 在本发明的另一个方面,提供了一种计算机辅助翻译系统,该系统主要包括术语库模
块、AC自动机、翻译阵列模块以及输入、输出模块。其中,术语库模块连接AC自动机,AC自动机接收输入模块输入的待译语料(源语种)与翻译阵列模块进行数据交互,并结合术语库模块,通过输出模块输出翻译结果(目标语种)。
[0011] 所述术语库模块包括多种语种的术语库,当所述翻译阵列选择的翻译引擎功能改变时,AC自动机自动加载对应语种的术语库。所述AC自动机根据输入的待译语料的属性,自动选择对应语种的术语库并通知所述翻译阵列选择相应翻译引擎的相应语种翻译功能。
[0012] 作为本发明的一个创新点,上述方法引入了AC自动机技术。AC自动机(Aho-Corasick automation),又称trie图,是一种DFA。在翻译过程中引入AC自动机技术,是
发明人在长期的翻译过程中发现的有效方法,而现有技术并没有出现该做法;作为本发明的另一个创新点,是采用AC自动机技术在待译语料被翻译之前就进行匹配处理。不同于现有技术中是等待机器翻译结果出来之后再进行手动查找并手动替换的低效率做法, 本发明的方法在机器翻译之前就执行匹配替换。由于是在机器翻译之前替换,要替换的术语可以通过AC自动机自动查找出来并自动替换,从而大大的提高了效率,减轻了负担;
作为本发明的第三个创新点,采用翻译阵列进行前后处理,保证术语链指关系发现的效果和服务高可用。由于不同的翻译引擎对于不同特色标记和句式的处理不一致,将多个翻译引擎组合形成翻译阵列,对喂入的不同句式和标记进行规则匹配,保证最合适的替换效果,同时使用阵列可以保证整个服务保证高可用,在某些引擎返回不及时和出问题的时候,能实时切换。
[0013] 最后,也是最重要的一点,本发明摒弃了以前的术语链指关系确认的方法中,需要从翻译引擎中使用模型进行翻译时是将平行语料中术语的链指关系通过模型参数指示出来和翻译模型强
捆绑的做法,本通用方法和翻译模型是解耦的,互相独立,是一个可拔插组件,可以和任意翻译引擎对接,完成平行语料中术语链指关系的识别。
[0014] 在本发明中,技术特征名称“术语库”、“特殊术语库”具备相同含义,其表示译员根据实际情况自己预先配置的某些术语的翻译结果对照库,该术语可能本身就是通常的术语但是在某种情况下具备特殊含义;也可能本身就是一个不常见的术语,翻译引擎无法给出正确结果。
[0015] 以一个非限制的例子为例,术语“magazine”本身最常见的翻译结果是“杂志”,机器自动翻译也通常给出该结果,但是译员根据实际翻译的语料判定在待译语料(例如该语料涉及枪械制造)中的含义应当是“弹匣”,因此译员建立了一个包含“magazine(源术语)—弹匣(目标术语)”的术语库,当然,该对应关系还需要包含其他匹配要素,例如语义上下文、匹配条件等,这些均由AC自动机识别;同样的,本发明中“翻译阵列”、“翻译引擎”、“翻译工具”、“翻译模型”功能相同,属于同一种类型的构件,例如google翻译、sougou翻译、百度翻译以及其他翻译工具。其具体含义本领域技术人员根据上下文可以合理确定,并相互替代使用。
[0016] 更具体的技术方案实现以及细节,将在本发明的具体
实施例中进一步展现。结果显示,在本发明中,由于使用AC自动机进行多模式串字符匹配,保证了在源语句中匹配字典中术语,特别是在术语库特别大时,匹配此语句中出现了哪些术语,整个时间成本可以下降到原来的对数级别。
[0017] 作为本领域人员,本发明还可以采用计算机装置以及相应的计算机存贮指令实现。
附图说明
[0018] 图1(a-d)是现有的翻译引擎的翻译结果图2是本发明的辅助翻译的方法的
流程图图3是本发明的计算机辅助翻译系统的架构图
图4是本发明与现有技术的时间成本对比图
具体实施例
[0019] 在本实施例中,以一个简单的例子为例,待译语料为“give me a magazine”,来从原理上示意性的描述本发明的各个查找、替换步骤。当然,实际翻译过程远不止简单的查找、替换就能完成(否则就不必采用AC自动机技术),还包括其他AC自动机对翻译过程实现的步骤,本领域技术人员应当理解,该例子仅仅是原理性示意,便于公众阅读,整个技术方案实现应当以
权利要求限定的整个技术方案的实质为准。
[0020] 参照图2,本发明的辅助翻译方法,包括如下步骤:(1)将特殊术语库的术语加载进AC自动机。
[0021] 在该步骤中,所述特殊术语库是译员预先配置的某种翻译结果对照库。之所以要配置该
数据库,是由于机器翻译或者计算机翻译通常只是机械的给出最可能的翻译结果,而不会结合具体的语料上下文。如前所述,对于“give me a magazine”,大多数翻译引擎的翻译结果如图1(a-c)所示:给我一本杂志。
[0022] 然而,译员如果面对的是一个描述枪战的待译语料,其准确的翻译结果应当是:给我一个弹匣。此时,“magazine”并没有得到准确翻译,因此,译员需要预先建立“一个包含“magazine—弹匣”的术语库,该术语库可以根据语义上下文予以限定;(2)使用AC自动机对待译语料进行匹配,将匹配上的源术语替换成特殊标记。
[0023] 具体而言,“magazine”属于AC自动机根据自动匹配上的源术语,匹配过程可以考虑语义上下文由AC自动机机制实现。
[0024] 该源术语由于不能得到正确的翻译,本发明中将其替换为某种特殊标记,例如“%……%”,只要这种标记不能被翻译引擎识别即可;(3)将替换后的待翻译语料进入翻译阵列,翻译阵列返回带特殊标记的翻译过的语料。
[0025] 具体而言,进入翻译阵列的待译语料为“give me a %……%”,返回的翻译过的语料为“给我一个%……%”,如图1中图(d)所示;(4)再次使用术语库,将特殊标记替换回需要替换的目标术语。
[0026] 此时,“给我一个%……%”可以输出正确的翻译结果:给我一个弹匣。
[0027] 根据上述步骤可以看出,由于将术语库与AC自动机结合,上述过程可以自动化实现并且保证结果准确,极大的提高了效率。
[0028] 相反,如果采用现有技术,即使预先配置了术语库,该过程也无法自动实现,还以上述“give me a magazine”为例,由于“magazine”存在多种通用含义(杂志、期刊、文本、军械……),如果一个待译语料中存在多个类似词,现有技术通常是直接将“give me a magazine”输入翻译引擎,于是输出结果中,有的是“给我一本杂志”,有的是“给我一份期刊”,有的是“给我一份文本”……,结果都不准确,译员接下来只能手动查找,而不能自动查找(因为计算机无法确定该查找哪个词),译员一一手动查找出翻译结果中的“杂志、期刊、文本、军械”等,再将其手动替换为“弹匣”。该过程效率及其低下。而本发明由于采用术语库加载进AC自动机的技术,当待译语料输入之后,在翻译之前自动完成统一的匹配、查找、替换,在翻译之后也可以自动完成统一的查找、替换,从而自动输出正确结果。使用AC自动机进行多模式串字符匹配,保证了在源语句中匹配字典中术语,特别是在术语库特别大时,匹配此语句中出现了哪些术语,整个时间成本可以下降到原来的对数级别。
[0029] 参照图3,本发明的计算机辅助翻译系统,包括术语库模块、AC自动机、翻译阵列模块以及输入、输出模块。其中,术语库模块连接AC自动机,AC自动机接收输入模块输入的待译语料(源语种)与翻译阵列模块进行数据交互,并结合术语库模块,通过输出模块输出翻译结果(目标语种)。
[0030] 作为进一步的改进,所述翻译阵列模块与所述AC自动机解耦,二者可以互相独立,配置为可插拔组件。AC自动机可以与其他任意翻译引擎对接,翻译阵列模块中的翻译组件也可以实现替换,从而完成任意语言的翻译。
[0031] 进一步的, 所述术语库包含多种语种的术语库,当所述翻译阵列选择的翻译引擎功能改变时,AC自动机自动加载对应语种的术语库。
[0032] 作为优选,所述翻译阵列中至少包含2种以上的翻译引擎组件,在某些引擎返回不及时和出问题的时候,能实时切换。
[0033] 作为优选,所述特殊术语库包含多种语种的术语库,所述AC自动机根据待译语料的属性,自动选择对应语种的术语库并通知所述翻译阵列选择相应翻译引擎的相应语种翻译功能。
[0034] 参照图4,是对于不同数量级的翻译语料,采用现有技术和本发明所述的的方法,达到同一准确度翻译结果时时间成本对比图。
[0035] 图中,实线为现有技术方法,虚线为本发明所述方法。可见,语料规模越大,本发明的优势越明显。