机器翻译技术主要分为:基于规则的机器翻译、基于语料库的机器翻 译。
在基于语料库的机器翻译中,主要的翻译资源来源于语料库。基于语 料库的机器翻译又分为:基于实例的机器翻译、基于统计的机器翻译。在 基于统计的机器翻译中,基于短语的统计机器翻译方法是目前最主要的自 动翻译方法之一。
基于短语的统计机器翻译方法的基本翻译单元是短语,且所应用的翻 译知识是从语料库中的平行双语语料获得的短语表和语言模型,短语表由 平行双语语料中互为翻译的双语短语对组成。在此,短语的定义是连续的 词
片段。
常规的基于短语的统计机器翻译的过程主要包括:首先,对于待翻译 的输入句子,使用精确匹配方法搜索短语表,找到与该输入句子对应的、 所有完全匹配的双语短语对;然后,基于这些双语短语对以及语言模型, 采用统计思想选出该输入句子的
目标语言译文片段的组合中得分最高的那 一个,作为输入句子的正确目标语言译文。
图1示出了实现上述过程的常规的基于短语的统计机器翻译系统的 方
框图。如图1所示,该系统10主要包括输入单元11、查找单元12、译 文生成单元13、输出单元14、短语表存储单元15以及语言模型存储单元 16等。
其中,输入单元11是该系统10与外部的
接口,该系统10通过输入 单元11从外部获得待翻译的输入句子。
查找单元12进行短语的精确匹配。具体地,其对通过输入单元11获 得的待翻译的输入句子,使用精确匹配
算法在短语表存储单元15所存储的 短语表中查找与该输入句子对应的、完全匹配的双语短语对。
并且,译文生成单元13生成输入句子的正确目标语言译文。具体地, 其基于查找单元12所查找的双语短语对以及语言模型存储单元16中所存 储的语言模型,利用统计模型选出该输入句子的、可能的目标语言译文中 得分最高的那一个,作为该输入句子的正确目标语言译文。
由译文生成单元13生成的该目标语言译文通过输出单元14输出。
图2示出了采用图1的上述系统进行的机器翻译示例。在该示例中, 对于输入句子“我觉得她那故事的结尾很激动人心”,图1的系统利用短 语的精确匹配技术,在短语表中找到与该输入句子对应的、四个完全匹配 的双语短语对:(P1)我觉得<->I found;(P2)她<->her;(P3)那故事的结尾 <->the end of the story;(P4)很激动人心<->very exciting。并且,根据这四 个双语短语对,系统使用统计模型得到最终的译文“I found her the end of the story very exciting”。
从上面可以看出,在常规的基于短语的统计机器翻译系统中,对于待 翻译的输入句子,使用精确匹配方法在短语表中搜索完全匹配的双语短语 对来得到输入句子的译文。精确匹配方法要求两个待匹配的短语必须完全 一致。但是,通常情况下,预先建立的语料库中的平行双语语料都是非常 有限的,可能不会
覆盖较长的短语。这样,对于待翻译的输入句子中较长 的短语,精确匹配方法很难在短语表中找到完全匹配的双语短语对。这样, 在翻译过程中,只能将较长的短语切分成几个较短的短语来一一进行匹配。 但是,由于较长的短语相对于较短的短语来说包含有更多的上下文信息, 所以对于输入句子利用较短的短语的匹配所得到的目标语言译文通常劣于 利用较长的短语的匹配所得到的目标语言译文。
下面就结合附图对本发明的各个优选实施例进行详细说明。
图3是根据本发明实施例的基于短语的统计机器翻译方法的流程图。
如图3所示,首先在步骤305,获得待翻译的输入句子。
在步骤310,进行短语的模糊匹配。
具体地,在该步骤中,对于上述输入句子,使用短语的模糊匹配方法 在预先设定的短语表中为该输入句子中的各短语查找相同的或最相似的双 语短语对,进而
修改最相似的双语短语对,从而得到各短语的正确译文。
在步骤315,生成输入句子的目标语言译文。
具体地,基于在步骤310获得的双语短语对以及预先设定的语言模型, 利用统计模型选出上述输入句子的、可能的目标语言译文中得分最高的那 一个,作为该输入句子的正确目标语言译文。
在步骤320,输出所生成的上述目标语言译文。
下面详细描述上面的步骤310的过程。图4是根据本发明一个实施例 的、该步骤310的短语的模糊匹配过程的详细流程图。图5是采用图3、4 的方法进行的机器翻译示例。
在本实施例中,短语的模糊匹配的过程是根据基于实例的机器翻译 (Example-Based Machine Translation,EBMT)思想来实现的。基于实 例的机器翻译方法的主要过程是:首先,搜索例句库,查找与输入句子相 似的例句;然后,识别出相似例句与输入句子之间的不同之处;最后,根 据翻译模型消除相似例句中的不同,从而生成输入句子的译文。关于基于 实例的机器翻译方法的详细信息,可以参考Harold Somers在1999年发表 的“Review Article:Example-based Machine Translation”,Machine Translation,14(2):113-157。
如图4所示,本实施例的短语的模糊匹配过程首先在步骤405,为上 述输入句子中的各短语,从预先设定的短语表中查找相同的或最相似的双 语短语对。
例如,参照图5,假设输入句子仍是“我觉得她那故事的结尾很激动 人心”,则在为该输入句子中的各短语从短语表中查找相同的或最相似的 双语短语对的过程中,对于短语“我觉得”,找到了完全匹配的双语短语 对“(P1)我觉得<->I found”;对于短语“她那故事的结尾”,找到了最相 似的双语短语对“(S3)那故事的结尾<->the end of the story”;对于短语“很 激动人心”,找到了完全匹配的双语短语对“(P4)很激动人心<->very exciting”。
其中,对于上述“她那故事的结尾”这样在短语表中没有完全匹配的 双语短语对的较长的短语,查找其最相似的双语短语对的过程是:首先, 从短语表中找出包含与该短语中相同的词汇最多的多个相似的候选双语短 语对;然后,依次计算这多个相似的候选双语短语对与该短语之间的编辑 距离,其中编辑距离是从相似的候选双语短语对中的
源语言短语转换到该 短语所需要的插入、删除和替换操作的数目;最后,选出与该短语之间的 编辑距离最小的那一个相似的候选双语短语对,作为该短语的最相似的双 语短语对。
例如,参照图5,对于短语“她那故事的结尾”,在短语表中找到了 多个相似的候选双语短语对“(S1)故事的情节<->the plot ofthe story”、“(S2) 电影的结尾<->the end of the film”和“(S3)那故事的结尾<->the end of the story”。
在此情况下,对于上述候选双语短语对(S1)、(S2)和(S3),分别计算其 与上述短语“她那故事的结尾”之间的编辑距离,从而得到:(S1)与该短 语之间的编辑距离是2,即需要在(S1)的源语言短语中进行“她那”的插入 以及“情节”与“结尾”的替换两项操作;(S2)与该短语之间的编辑距离 也是2,即需要在(S2)的源语言短语中进行“她那”的插入以及“电影”与 “故事”的替换两项操作;(S3)与该短语之间的编辑距离是1,即仅需要在 (S3)的源语言短语中进行“她”的插入一项操作。
从而,可以得到与该短语“她那故事的结尾”之间的编辑距离最小的 双语短语对“(S3)那故事的结尾<->the end of the story”,作为该短语的最 相似的双语短语对。
在步骤410,对于上述输入句子中未查找到完全匹配的双语短语对、 而是查找到最相似的双语短语对的短语的每一个,识别出为其查找到的最 相似的双语短语对与该短语之间的差异。也就是说,识别出该最相似的双 语短语对中的源语言短语与该短语之间不同的词汇。
具体地,在本步骤中,可以根据具体情况采用以下方法中的一种来判 断上述最相似的双语短语对中的源语言短语与该短语中的词汇是否相同:
1)直接原样比较上述最相似的双语短语对中的源语言短语与上述短语 之间的各词汇是否一致。
2)如果上述短语是英文,则比较上述最相似的双语短语对中的源语言 短语与该短语之间的各词汇的原形是否一致。
3)利用同义词词典,检查上述最相似的双语短语对中的源语言短语与 上述短语之间的不同的词汇是否表达了相同的意思。
例如,如果图5的示例中为上述短语“她那故事的结尾”找到的最相 似的双语短语对是“那小说的结尾<->the end of the novel”,则虽然从字 面来看其中的“小说”与该较长的短语中的“故事”是不同的词汇,但如 果同义词词典中定义“小说”与“故事”属于同义词,则它们就表达了相 同的意思,这样,可以认为“小说”和“故事”属于意思相同的词汇,而 不认为它们是不同的部分。
4)利用翻译词典,检查上述最相似的双语短语对中的源语言短语与上 述短语之间的不同的词汇是否表达了相同的意思。
同样,如果图5的示例中为上述短语“她那故事的结尾”找到的最相 似的双语短语对是“那小说的结尾<->the end of the novel”,则如果能够 在翻译词典中查找到“故事”可以翻译为“story”或“novel”,“小说” 可以翻译为“novel”,则可以认为“小说”和“故事”属于意思相同的词 汇,而不认为它们是不同的部分。
在步骤415,对于上述输入句子中未查找到完全匹配的双语短语对、 而是查找到最相似的双语短语对的短语的每一个,修改其最相似的双语短 语对中与该短语之间的差异,以得到该短语的目标语言译文。
也就是说,修改该最相似的双语短语对中与该短语之间不同的词汇。 具体地,首先修改该最相似的双语短语对中的源语言短语中与该短语意思 不同的词汇,使得修改后的该源语言短语与该短语一致,然后修改该最相 似的双语短语对中的目标语言短语中的相应词汇,从而得到该短语的目标 语言译文。
例如,对于图5的示例中为短语“她那故事的结尾”找到的最相似的 双语短语对“(S3)那故事的结尾<->the end of the story”而言,由于其与该 短语之间的不同部分是缺少词汇“她”,所以首先在(S3)的源语言短语中 的“那”之前插入“她”,使得修改后的该源语言短语与上述短语一致, 然后通过查找词典得到“她->her”,并以此根据源语言短语修改(S3)的目 标语言短语中的相应词汇,即用“her”替换目标语言短语中的第二个“the”, 从而得到上述短语的正确目标语言译文“the end of her story”。
从而,参照图5,对于输入句子“我觉得她那故事的结尾很激动人心”, 根据通过短语的模糊匹配所获得的各双语短语对:(P1)我觉得<->I found; (P5)“她那故事的结尾”<->the end of her story;(P4)很激动人心<->very exciting,使用统计模型能够得到该输入句子的得分最高的最终目标语言译 文“I found the end of her story very exciting”。
以上就是对本实施例的基于短语的统计机器翻译方法的详细描述。在 本实施例中,通过对短语进行模糊匹配,能够为输入句子中较长的短语生 成高质量的译文,从而能够基于较长的短语来实现输入句子的翻译,相对 于基于短语的精确匹配的翻译系统来说,能够有效地提高译文质量。并且, 比较图2的示例中基于短语的精确匹配而得到的译文与图5中根据本实施 例基于短语的模糊匹配而得到的译文也可以看出,基于短语的模糊匹配而 得到的译文明显好于基于短语的精确匹配而得到的译文。
此外,需要说明的是,虽然在图4的过程中利用基于实例的机器翻译 方法来实现图3的步骤310的短语的模糊匹配过程,但是,并不限于此, 在其他实施例中,可以采用任何现在已知或将来可知的翻译思想来实现短 语的模糊匹配。
此外,还需要说明的是,虽然在图4的过程中所说明的是为输入句子 中在短语表中没有完全匹配的双语短语对的短语,从多个相似的候选双语 短语对中选出一个编辑距离最小的最相似的双语短语对,并根据该最相似 的双语短语对得到该短语的目标语言译文的情况,但是,这仅是示例性的, 在实际实现中,可以是为该短语从多个相似的候选双语短语对中选出前N (大于等于2)个编辑距离较小的相似双语短语对,并在根据编辑距离最 小的最相似的双语短语对不能获得该短语的正确译文时,向下使用次相似 的双语短语对,等等。
在同一发明构思下,本发明提供一种基于短语的统计机器翻译系统。 下面结合附图对其进行描述。
图6是根据本发明实施例的基于短语的统计机器翻译系统的方框图。 如图6所示,本实施例的基于短语的统计机器翻译系统60包括:输入单元 61、短语模糊匹配单元62、译文生成单元63、输出单元64、短语表存储 单元65以及语言模型存储单元66。
输入单元61是该系统60与外部的接口,该系统60通过输入单元61 从外部获得待翻译的输入句子。
短语模糊匹配单元62在预先设定的、存储在短语表存储单元65中的 短语表中,为上述输入句子中的短语进行模糊匹配,以找到各短语的目标 语言译文。
译文生成单元63根据短语模糊匹配单元62的匹配结果以及预先设定 的、存储在语言模型存储单元66中的语言模型,利用统计模型选出该输入 句子的、可能的目标语言译文中得分最高的那一个,作为该输入句子的正 确目标语言译文。
并且,由译文生成单元63生成的该目标语言译文通过输出单元64输 出。
下面详细描述上述短语模糊匹配单元62。图7是根据本发明一个实施 例的上述短语模糊匹配单元的方框图。本实施例的短语模糊匹配单元62 是根据基于实例的机器翻译方法实现的。
具体地,如图7所示,本实施例的短语模糊匹配单元62包括:相同/ 相似双语短语查找单元621、差异识别单元622以及修改单元623。
相同/相似双语短语查找单元621为上述输入句子中的各短语,从短语 表存储单元65所存储的短语表中查找相同的或最相似的双语短语对。
具体地,相同/相似双语短语查找单元621对于上述输入句子中的各短 语:从上述短语表中为该短语找出包含与该短语中相同的词汇最多的多个 相似的候选双语短语对;依次计算这多个相似的候选双语短语对与上述短 语之间的编辑距离,其中该编辑距离是从相似的候选双语短语对中的源语 言短语转换到该短语所需要的插入、删除和替换操作的数目;以及从上述 多个相似的候选双语短语对中选出与上述短语之间的编辑距离最小的那一 个,作为该短语的最相似的双语短语对。
差异识别单元622对于上述输入句子的短语中被查找到最相似的双语 短语对的短语的每一个,识别出其最相似的双语短语对与该短语之间的差 异。也就是说,识别出该最相似的双语短语对中的源语言短语与该短语之 间意思不同的词汇。
具体地,差异识别单元622对于上述输入句子的短语中被查找到最相 似的双语短语对的短语的每一个,直接地或利用同义词词典/翻译词典,识 别出其最相似的双语短语对中的源语言短语与该短语之间意思不同的词 汇。
修改单元623对于上述输入句子的短语中被查找到最相似的双语短语 对的短语的每一个,修改其最相似的双语短语对中与该短语之间的差异, 以得到该短语的目标语言译文。
具体地,修改单元623对于上述输入句子的短语中被查找到最相似的 双语短语对的短语的每一个,修改其最相似的双语短语对中的源语言短语 中与上述短语意思不同的词汇,使得修改后的该源语言短语与该短语一致; 然后根据修改后的源语言短语,修改该最相似的双语短语对中的目标语言 短语中的相应词汇。
需要说明的是,虽然在本实施例中根据基于实例的机器翻译方法来实 现短语模糊匹配单元62,但是,并不限于此,在其他实施例中,可以采用 任何现在已知或将来可知的翻译思想来实现该短语模糊匹配单元。
以上就是对本实施例的基于短语的统计机器翻译系统的详细描述。
本实施例的基于短语的统计机器翻译系统60及其各个组成部分,可以 由专用的
电路或芯片构成,也可以通过计算机(处理器)执行相应的程序 来实现。
以上虽然通过一些示例性的实施例对本发明的基于短语的统计机器翻 译方法和系统进行了详细的描述,但是以上这些实施例并不是穷举的,本 领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此, 本发明并不限于这些实施例,本发明的范围仅以所附
权利要求为准。