首页 / 专利库 / 人工智能 / 候选译文 / 目标语言单词变形的方法及装置

目标语言单词变形的方法及装置

阅读:151发布:2020-07-15

专利汇可以提供目标语言单词变形的方法及装置专利检索,专利查询,专利分析的服务。并且本 发明 提供一种基于双语语料库训练 目标语言 单词 变形 模型的方法及装置、目标语言单词变形方法及装置、以及将 源语言 文本翻译为目标语言译文的翻译方法及翻译系统。在该基于双语语料库训练目标语言单词变形模型的方法中,双语语料库包括多对进行了对齐的源语言语料和目标语言语料,所述方法包括:建立初始的目标语言单词变形模型;预处理上述双语语料库中的源语言语料和目标语言语料;基于上述预处理后的源语言语料和目标语言语料, 抽取 包含目标语言单词变形信息的模板;以及利用上述模板,训练上述目标语言单词变形模型。,下面是目标语言单词变形的方法及装置专利的具体信息内容。

1.一种基于双语语料库训练目标语言单词变形模型的方法,其中上 述双语语料库包括多对进行了对齐的源语言语料和目标语言语料,所述方 法包括:
建立初始的目标语言单词变形模型;
预处理上述双语语料库中的源语言语料和目标语言语料;
基于上述预处理后的源语言语料和目标语言语料,抽取包含目标语言 单词变形信息的模板;以及
利用上述模板,训练上述目标语言单词变形模型。
2.根据权利要求1所述的基于双语语料库训练目标语言单词变形模 型的方法,其中,上述预处理上述双语语料库中的源语言语料和目标语言 语料的步骤包括:
对于上述多对进行了对齐的源语言语料和目标语言语料的每一对,
预处理上述源语言语料,以使预处理后的源语言语料中的源语言 单词为原形并标有词性;以及
预处理上述目标语言语料,以使预处理后的目标语言语料中的目 标语言单词为原形并标有词性。
3.根据权利要求1或2所述的基于双语语料库训练目标语言单词变 形模型的方法,其中,上述抽取包含目标语言单词变形信息的模板的步骤 包括:
对于上述预处理后的多对进行了对齐的源语言语料和目标语言语料的 每一对,
对齐上述预处理后的源语言语料和上述预处理后的目标语言语料 中的单词,以获得词对齐信息;
搜索在原始的上述目标语言语料和上述预处理后的目标语言语料 中不一致的目标语言单词;
根据上述词对齐信息,获得与上述不一致的目标语言单词对齐的 源语言单词;以及
根据上述不一致的目标语言单词、对齐的源语言单词以及对齐的 源语言单词在原始的上述源语言语料中的上下文信息,生成上述模板。
4.根据权利要求1至3任意一项所述的基于双语语料库训练目标语 言单词变形模型的方法,其中,上述目标语言单词变形信息包括:源语言 单词的词性;作为条件的上述源语言单词的上下文信息的组合;以及作为 动作的与上述源语言单词对齐的目标语言单词的变形行为。
5.根据权利要求4所述的基于双语语料库训练目标语言单词变形模 型的方法,其中,上述上下文信息的组合包括:前一个单词;前一个单词 与后一个单词;前面相隔一个单词;后面相隔一个单词。
6.根据权利要求1至5任意一项所述的基于双语语料库训练目标语 言单词变形模型的方法,其中,上述源语言是汉语,上述目标语言是英语。
7.根据权利要求6所述的基于双语语料库训练目标语言单词变形模 型的方法,其中,上述预处理上述源语言语料的步骤包括:
将上述源语言语料切分为源语言单词序列;以及
对上述源语言单词序列中的每个源语言单词标明词性。
8.根据权利要求1至7任意一项所述的基于双语语料库训练目标语 言单词变形模型的方法,其中,上述语料是句子、短语、段落中的至少一 个。
9.根据权利要求1至8任意一项所述的基于双语语料库训练目标语 言单词变形模型的方法,其中,上述目标语言单词变形模型是概率模型。
10.根据权利要求1至8任意一项所述的基于双语语料库训练目标语 言单词变形模型的方法,其中,上述目标语言单词变形模型是模式识别模 型。
11.一种目标语言单词变形方法,其中,源语言文本被翻译为目标语 言译文,并且上述源语言文本被预处理为使得其所包含的源语言单词为原 形并标有词性,上述方法包括:
利用权利要求1至10任意一项所述的基于双语语料库训练目标语言单 词变形模型的方法,训练目标语言单词变形模型;以及
利用上述目标语言单词变形模型,对上述目标语言译文中的目标语言 单词进行变形。
12.根据权利要求11所述的目标语言单词变形方法,其中,上述对上 述目标语言译文中的目标语言单词进行变形的步骤包括:
根据每一个上述源语言单词的词性和上述目标语言单词变形模型,确 定是否存在对应的模板;以及
如果存在上述对应的模板,则
验证该源语言单词的上下文信息是否满足上述对应的模板中的条 件;
如果满足上述条件,则对上述目标语言译文中与该源语言单词对 齐的目标语言单词执行上述对应的模板中的动作。
13.根据权利要求12所述的目标语言单词变形方法,其中,在上述验 证步骤中的验证结果是该源语言单词满足多个上述对应的模板的条件时, 对与该源语言单词对齐的目标语言单词分别执行上述多个对应的模板中的 动作,以得到多个候选目标语言译文;
上述方法还包括:
对于上述多个候选目标语言译文的每一个,
根据目标语言的语言模型,计算该候选目标语言译文的流利度得 分;
根据上述目标语言单词变形模型,计算获得该候选目标语言译文 所使用的模板的得分;
获得上述流利度得分与上述模板的得分的组合的得分,作为该候 选目标语言译文的得分;
选择上述多个候选目标语言译文的得分中的最高得分所对应的候选目 标语言译文,作为最终的目标语言译文。
14.一种将源语言文本翻译为目标语言译文的翻译方法,包括:
预处理上述源语言文本,以获得上述源语言文本的源语言单词序列, 其中上述源语言单词序列中的源语言单词被还原为原形并标有词性;
利用基于语料库的翻译模型,将上述预处理后的源语言文本翻译为初 始目标语言译文;以及
利用权利要求11至13任意一项所述的目标语言单词变形方法,编辑 上述初始目标语言译文,以获得最终的目标语言译文。
15.一种基于双语语料库训练目标语言单词变形模型的装置,其中上 述双语语料库包括多对进行了对齐的源语言语料和目标语言语料,所述装 置包括:
初始模型建立单元,用于建立初始的目标语言单词变形模型;
语料预处理单元,用于预处理上述双语语料库中的源语言语料和目标 语言语料;
模板抽取单元,用于基于上述预处理后的源语言语料和目标语言语料, 抽取包含目标语言单词变形信息的模板;以及
训练单元,用于利用上述模板,训练上述目标语言单词变形模型。
16.根据权利要求15所述的基于双语语料库训练目标语言单词变形模 型的装置,其中,上述语料预处理单元包括:
源语言语料预处理单元,用于预处理上述源语言语料,以使预处理后 的源语言语料中的源语言单词为原形并标有词性;以及
目标语言语料预处理单元,用于预处理上述目标语言语料,以使预处 理后的目标语言语料中的目标语言单词为原形并标有词性。
17.根据权利要求15或16所述的基于双语语料库训练目标语言单词变 形模型的装置,其中,上述模板抽取单元包括:
对齐单元,用于对于上述预处理后的多对进行了对齐的源语言语料和 目标语言语料的每一对,对齐上述预处理后的源语言语料和上述预处理后 的目标语言语料中的单词,以获得词对齐信息;
搜索单元,用于搜索在原始的上述目标语言语料和上述预处理后的目 标语言语料中不一致的目标语言单词;
获取单元,用于根据上述词对齐信息,获得与上述不一致的目标语言 单词对齐的源语言单词;以及
模板生成单元,用于根据上述不一致的目标语言单词、对齐的源语言 单词以及对齐的源语言单词在原始的上述源语言语料中的上下文信息,生 成上述模板。
18.根据权利要求15至17任意一项所述的基于双语语料库训练目标语 言单词变形模型的装置,其中,上述目标语言单词变形信息包括:源语言 单词的词性;作为条件的上述源语言单词的上下文信息的组合;以及作为 动作的与上述源语言单词对齐的目标语言单词的变形行为。
19.根据权利要求18所述的基于双语语料库训练目标语言单词变形模 型的装置,其中,上述上下文信息的组合包括:前一个源语言单词;前一 个源语言单词与后一个源语言单词;前面相隔一个源语言单词;后面相隔 一个源语言单词。
20.根据权利要求15至19任意一项所述的基于双语语料库训练目标语 言单词变形模型的装置,其中,上述源语言是汉语,上述目标语言是英语。
21.根据权利要求20所述的基于双语语料库训练目标语言单词变形模 型的装置,其中,上述源语言语料预处理单元包括:
切分单元,用于将上述源语言语料切分为源语言单词序列;以及
词性标注单元,用于对上述源语言单词序列中的每个源语言单词标明 词性。
22.根据权利要求15至21任意一项所述的基于双语语料库训练目标语 言单词变形模型的装置,其中,上述语料是句子、短语、段落中的至少一 个。
23.根据权利要求15至22任意一项所述的基于双语语料库训练目标语 言单词变形模型的装置,其中,上述目标语言单词变形模型是概率模型。
24.根据权利要求15至22任意一项所述的基于双语语料库训练目标语 言单词变形模型的装置,其中,上述目标语言单词变形模型是模式识别模 型。
25.一种目标语言单词变形装置,其中,源语言文本被翻译为目标语 言译文,并且上述源语言文本被预处理为使得其所包含的源语言单词为原 形并标有词性,上述装置包括:
目标语言单词变形模型,其是利用权利要求15至24任意一项所述的 基于双语语料库训练目标语言单词变形模型的装置训练的;以及
单词变形单元,用于利用上述目标语言单词变形模型,对上述目标语 言译文中的目标语言单词进行变形。
26.根据权利要求25所述的目标语言单词变形装置,其中,上述单词 变形单元包括:
模板确定单元,用于根据每一个上述源语言单词的词性和上述目标语 言单词变形模型,确定是否存在对应的模板;以及
条件验证单元,用于在上述模板确定单元的结果是存在上述对应的模 板时,验证该源语言单词的上下文信息是否满足上述对应的模板中的条件; 以及
动作执行单元,用于在上述条件验证单元的验证结果是上述对应的模 板中的条件满足时,对与该源语言单词对齐的目标语言单词执行上述对应 的模板中的动作。
27.根据权利要求26所述的目标语言单词变形装置,其中,在上述条 件验证单元的验证结果是该源语言单词满足多个上述对应的模板的条件 时,上述动作执行单元对与该源语言单词对齐的目标语言单词分别执行上 述多个对应的模板中的动作,以得到多个候选目标语言译文;
上述装置还包括:
流利度计算单元,用于对于上述多个候选目标语言译文的每一个,根 据目标语言的语言模型,计算该候选目标语言译文的流利度得分;
模板得分计算单元,用于根据上述目标语言单词变形模型,计算获得 该候选目标语言译文所使用的模板的得分;
组合得分获得单元,用于获得上述流利度得分与上述模板的得分的组 合的得分,作为该候选目标语言译文的得分;
选择单元,用于选择上述多个候选目标语言译文的得分中的最高得分 所对应的候选目标语言译文,作为最终的目标语言译文。
28.一种将源语言文本翻译为目标语言译文的翻译系统,包括:
文本预处理装置,用于预处理上述源语言文本,以获得上述源语言文 本的源语言单词序列,其中上述源语言单词序列中的源语言单词被还原为 原形并标有词性;
基于语料库的翻译模型,用于将上述预处理后的源语言文本翻译为初 始目标语言译文;以及
权利要求25至27任意一项所述的目标语言单词变形装置,用于编辑 上述初始目标语言译文,以获得最终的目标语言译文。

说明书全文

技术领域

发明涉及基于语料库的自动机器翻译技术中的目标语言单词变形, 具体地,涉及基于双语语料库训练目标语言单词变形模型的方法及装置、 目标语言单词变形方法及装置、以及将源语言文本翻译为目标语言文本的 翻译方法及翻译系统。

背景技术

在很多语言中都存在单词变形的情况,例如,在英语语言中,动词有 时态的变化,名词有数量的变化。这样,根据单词变形,可以获得时间、 数量、情感等信息,而这些信息可用于准确理解该语言的句子。
目前,自动机器翻译有两种主要的技术:基于规则的方法和基于语料 库的方法。基于规则的方法利用翻译规则训练并建立翻译模型,然后利用 训练好的翻译模型进行翻译;而基于语料库的方法是利用双语语料库训练 并建立翻译模型。
在基于规则的方法中,通过翻译规则可以生成目标语言单词的变形, 然而,翻译规则通常由手工编写,这需要花费较多的时间。并且,翻译规 则必须使用深层的句法分析信息,而对于口语翻译来说,句子的结构非常 灵活,很难获得准确的句子分析结果。
在基于语料库的方法中,目标语言单词的变形来源于双语语料库,只 有双语语料库包含某个目标语言单词的变形,基于该双语语料库的翻译模 型才会输出该目标语言单词的变形。因此,双语语料库的大小在很大程度 上会影响译文的精度
关于上述的基于规则的方法和基于语料库的方法,已经在由赵军等 编著的“机器翻译原理”(哈尔滨工业大学出版社,2001年5月)、D.J. Arnold,Lorna Balkan,Siety Meijer,R.Lee Humphreys和Louisa Sadler 所著的“Machine Translation:an Introductory Guide”(Blackwells-NCC, 1994)、和John Hutchins所著的“Machine Translation over Fifty Years” (发表于Histoire,Epistemologies,Language,Tome XXII,pp.7-31,2001) 中进行了详细描述。

发明内容

本发明正是基于上述技术问题而提出的,其目的在于提供一种基于双 语语料库训练目标语言单词变形模型的方法及装置、目标语言单词变形方 法及装置、以及将源语言文本翻译为目标语言文本的翻译方法及翻译系统。
根据本发明的第一个方面,提供一种基于双语语料库训练目标语言单 词变形模型的方法,其中上述双语语料库包括多对进行了对齐的源语言语 料和目标语言语料,所述方法包括:建立初始的目标语言单词变形模型; 预处理上述双语语料库中的源语言语料和目标语言语料;基于上述预处理 后的源语言语料和目标语言语料,抽取包含目标语言单词变形信息的模板; 以及利用上述模板,训练上述目标语言单词变形模型。
根据本发明的第二个方面,提供一种目标语言单词变形方法,其中, 源语言文本被翻译为初始目标语言译文,并且上述源语言文本被预处理为 使得其所包含的源语言单词为原形并标有词性,上述方法包括:利用上述 的基于双语语料库训练目标语言单词变形模型的方法,训练目标语言单词 变形模型;以及利用上述目标语言单词变形模型,对上述目标语言译文中 的目标语言单词进行变形。
根据本发明的第三个方面,提供一种将源语言文本翻译为目标语言译 文的翻译方法,包括:预处理上述源语言文本,以获得上述源语言文本的 源语言单词序列,其中上述源语言单词序列中的源语言单词被还原为原形 并标有词性;利用基于语料库的翻译模型,将上述预处理后的源语言文本 翻译为初始目标语言译文;以及利用上述的目标语言单词变形方法,编辑 上述初始目标语言译文,以获得最终的目标语言译文。
根据本发明的第四个方面,提供一种基于双语语料库训练目标语言单 词变形模型的装置,其中上述双语语料库包括多对进行了对齐的源语言语 料和目标语言语料,所述装置包括:初始模型建立单元,用于建立初始的 目标语言单词变形模型;语料预处理单元,用于预处理上述双语语料库中 的源语言语料和目标语言语料;模板抽取单元,用于基于上述预处理后的 源语言语料和目标语言语料,抽取包含目标语言单词变形信息的模板;以 及训练单元,用于利用上述模板,训练上述目标语言单词变形模型。
根据本发明的第五个方面,提供一种目标语言单词变形装置,其中, 源语言文本被翻译为目标语言译文,并且上述源语言文本被预处理为使得 其所包含的源语言单词为原形并标有词性,上述装置包括:目标语言单词 变形模型,其是利用上述的基于双语语料库训练目标语言单词变形模型的 装置训练的;以及单词变形单元,用于利用上述目标语言单词变形模型, 对上述目标语言译文中的目标语言单词进行变形。
根据本发明的第六个方面,提供一种将源语言文本翻译为目标语言译 文的翻译系统,包括:文本预处理装置,用于预处理上述源语言文本,以 获得上述源语言文本的源语言单词序列,其中上述源语言单词序列中的源 语言单词被还原为原形并标有词性;基于语料库的翻译模型,用于将上述 预处理后的源语言文本翻译为初始目标语言译文;以及上述的目标语言单 词变形装置,用于编辑上述初始目标语言译文,以获得最终的目标语言译 文。
附图说明
图1是根据本发明的一个实施例的基于双语语料库训练目标语言单词 变形模型的方法的流程图
图2是图1所示的实施例中的抽取模板步骤的流程图;
图3是根据本发明的一个实施例的目标语言单词变形方法的流程图;
图4是图3所示的实施例中的单词变形步骤的流程图;
图5是根据本发明的一个实施例的将源语言文本翻译为目标语言译文 的翻译方法的流程图;
图6是根据本发明的一个实施例的基于双语语料库训练目标语言单词 变形模型的装置的示意性方框图
图7是图6的实施例中的模板抽取单元的示意性方框图;
图8是根据本发明的一个实施例的目标语言单词变形装置的示意性方 框图;
图9是图8的实施例中的单词变形单元的示意性方框图;
图10是根据本发明的一个实施例的将源语言文本翻译为目标语言译 文的翻译系统的示意性方框图。

具体实施方式

相信通过以下结合附图对本发明的最佳实施例的详细描述,本发明的 上述和其它目的、特征和优点会变得更加明显。
图1是根据本发明的一个实施例的基于双语语料库训练目标语言单词 变形模型的方法的流程图。下面结合附图,对本实施例进行详细描述。利 用本实施例的方法训练的目标语言单词变形(Target Language Word Inflection,简称TLWI)模型将被用于结合下面实施例描述的目标语言单 词变形方法和将源语言文本翻译为目标语言译文的翻译方法。
在本实施例中,双语语料库包括多对进行了对齐的源语言语料和目标 语言语料,并且这些语料可以是短语、句子或段落的形式。为了便于说明, 在本实施例和后面的实施例中,假定语料是句子的形式,即双语语料库是 双语例句库,那么双语例句库中的源语言句子和目标语言句子是句子对齐 的。
如图1所示,首先在步骤101,建立初始的目标语言单词变形模型。 在本实施例中,TLWI模型可以是直接的概率模型,例如采用 P(action|condition)形式的概率模型,也可以是模式识别模型,例如基于支 持向量机(SVM)的模式识别模型、基于决策树的模式识别模型等。
接着,在步骤105,对双语例句库中的源语言句子和目标语言句子进 行预处理。具体地,对于双语例句库中的多对进行了对齐的源语言句子和 目标语言句子的每一对,对源语言句子进行预处理,以使预处理后的源语 言句子中的源语言单词为原形并标有词性,同时,对目标语言句子进行预 处理,以使预处理后的目标语言句子中的目标语言单词为原形并标有词性。
下面以源语言是汉语,目标语言是英语为例,具体说明该步骤105。 首先,汉语句子被切分成汉语词序列,并标出该汉语词序列中的每个汉语 词的词性。切分汉语句子的技术,对于本领域的普通技术人员是已知的, 此处省略说明。然后,将英语句子中的每个英语单词还原成原形,并标注 其词性。
接着,在步骤110,基于经过步骤105的预处理后的每一对进行了对 齐的源语言句子和目标语言句子,抽取包含目标语言单词变形信息的模板。
图2示出了抽取模板步骤110的流程图。如图2所示,首先在步骤1101, 将预处理后的源语言句子中的源语言单词和预处理后的目标语言句子中的 目标语言单词进行对齐,从而获得词对齐信息。在该步骤中,可以使用现 有或未来的任何一种对齐技术来执行词对齐。
然后,在步骤1105,搜索在原始的目标语言句子和对应的预处理后的 目标语言句子中不一致的目标语言单词,即,在目标语言句子中搜索出发 生了变形的目标语言单词。
在步骤1110,根据在步骤1101中获得的词对齐信息,在预处理后的 源语言句子中获取与在步骤1105中搜索出的不一致的目标语言单词对齐 的源语言单词。
然后,在步骤1115,根据在步骤1105中搜索出的不一致的目标语言 单词、在步骤1110中获取的与不一致的目标语言单词对齐的源语言单词以 及该对齐的源语言单词在原始的源语言句子中的上下文信息,生成包含目 标语言单词变形信息的模板。
在本实施例中,目标语言单词变形信息包括:源语言单词的词性;该 源语言单词的上下文信息的组合,作为条件;以及与该源语言单词对齐的 目标语言单词的变形行为,作为动作。也就是说,所生成的模板由词性部 分、条件部分和动作部分组成。
进一步地,在模板的条件部分中的源语言单词的上下文信息的组合可 以是预先定义的,例如,包括:a)前一个源语言单词;b)前一个源语言 单词与后一个源语言单词;c)前面相隔一个源语言单词;d)后面相隔一 个源语言单词。
例如,汉语句子由7个汉语词组成,即“C1/P1C2/P2C3/P3C4/P4C5/P5 C6/P6C7/P7”,其中Ci代表汉语词,Pi代表词性。假设“C4/P4”是与变化 的英语单词“W4/P4”对齐的汉语词,如果采用上面的例子作为上下文信 息的组合,则所生成的模板的条件是:a)-1C3;b)-1C3+1C5;c)-2C2; d)+2C6。
当然,本领域的普通技术人员可以理解,上下文信息的组合不限于上 述的组合形式,还可以包括其它组合形式。
返回图1,在抽取了包含目标语言单词变形信息的模板之后,在步骤 115,利用这些模板,训练目标语言单词变形模型。具体地,根据目标语言 单词变形模型所采用的模型,采用相应的训练算法。这些训练算法对于本 领域的普通技术人员是已知的,此处省略说明。
下面结合一个具体的例子,说明本实施例的基于双语语料库训练目标 语言单词变形模型的方法。
假设汉英双语例句库中的一对进行了对齐的汉语句子和英语句子为:
Chs:那个女孩刚洗过这些苹果。
Eng:The girl just washed these apples.
对这两个句子进行预处理,得到预处理后的汉语句子和英语句子分别为:
Chs:那个/pron女孩/n刚/adv洗/v过/u这些/pron苹果/n。/w
Eng:The/art girl/n just/adv wash/v these/pron apple/n./w
表1示出了预处理后的汉语句子:
表1
  单词 词性
  那个 pron(代词) 女孩 n(名词) 刚 adv(副词) 洗 v(动词) 过 u(助词) 这些 pron(代词) 苹果 n(名词) 。 w(标点)
表2示出了预处理后的英语句子:
表2
  单词 词性 The art(冠词) girl n(名词) just adv(副词) wash v(动词) these pron(代词) apple n(名词) . w(标点)
然后,对经过预处理的汉语句子和英语句子进行词对齐,得到词对齐 信息,如表3所示。
表3
  汉语单词 英语单词 那个 The 女孩 girl 刚 just 洗 wash 过 -
  这些 these 苹果 apple 。 .
然后,在预处理后的英语句子中搜索与原始的英语句子中的英语单词 不一致的英语单词,通过比较,获得2个不一致的英语单词,即:
  预处理前 预处理后 washed wash apples apple
那么,在汉语句子中与这两个不一致的英语单词对齐的汉语单词分别 是“洗”和“苹果”。
利用两个不一致的英语单词、对齐的汉语单词及其在原始的汉语句子 中的上下文信息,生成包含英语单词变形信息的模板,如表4所示。
表4
  词性 条件 动作 P1 v(动词) -1刚+1过 v+ed P2 n(名词) -1这些 n+s
如表4所示,模板P1是根据“wash|washed”的变形生成的,其表 示在汉语句子中,对于词性是v(动词)的汉语单词,如果该汉语单词的 前一个汉语单词是“刚”而后一个汉语单词是“过”,那么与该汉语单词 对齐的英语单词的变形是词尾加上“ed”。模板P2是根据“apple|apples” 的变形生成的,其表示在汉语句子中,对于词性是n(动词)的汉语单词, 如果该汉语单词的前一个汉语单词是“这些”,那么与该汉语单词对齐的 英语单词的变形是词尾加上“s”。
最后,在基于汉英双语例句库抽取了所有的模板之后,利用这些模板, 训练TLWI模型。
通过以上描述可以看出,本实施例的基于双语语料库训练目标语言单 词变形模型的方法在预处理后的双语语料库的基础上对TLWI模型进行训 练,仅使用语料的浅层的分析信息而无需精确的深层分析信息,并且训练 好的TLWI模型适用于口语翻译系统和其它基于语料库的翻译系统,可以 提高译文质量
在同一个发明构思下,图3是根据本发明的一个实施例的目标语言单 词变形方法的流程图。下面结合附图,对本实施例进行详细描述。对于那 些与前面实施例相同的部分,适当省略其说明。
本实施例的目标语言单词变形方法是对目标语言译文的进一步改进。 在本实施例中,目标语言译文是利用基于语料库的翻译模型对源语言文本 翻译得到的,并且源语言文本被预处理为使得其所包含的源语言单词为原 形并标有词性。
上述的基于语料库的翻译模型可以是现有或未来的任何一种基于语料 库的翻译模型,例如统计机器翻译(Statistical Machine Translation,简称 SMT)模型等。
如图3所示,在步骤301,利用前面的实施例描述的基于双语语料库 训练目标语言单词变形模型的方法,训练TLWI模型。
接着,在步骤310,利用所训练的TLWI模型,对目标语言译文中的 目标语言单词进行变形。
图4示出了单词变形步骤310的流程图。如图4所示,首先在步骤3101, 根据源语言文本中的每一个源语言单词的词性和TLWI模型,确定是否存 在对应的模板。
如果存在对应的模板,则在步骤3105,验证该源语言单词的上下文信 息是否满足该模板中的条件。如果满足该模板中的条件,则在步骤3110, 对目标语言译文中与该源语言单词对齐的目标语言单词执行该模板中的变 形动作。如果不满足,则对下一个源语言单词执行步骤3101。
如果在步骤3101中确定该源语言单词没有对应的模板,则继续对下一 个源语言单词执行步骤3101。
通过以上步骤,可以找到目标语言译文中需要变形的目标语言单词并 进行变形。
进一步地,当步骤3105的验证结果是该源语言单词满足多个对应的模 板的条件时,则在步骤3110中,对与该源语言单词对齐的目标语言单词分 别执行多个对应的模板中的变形动作,从而得到多个候选目标语言译文。 然后,在步骤3115,对于多个候选目标语言译文的每一个,根据目标语言 的语言模型,计算该候选目标语言译文的流利度得分,并在步骤3120,根 据TLWI模型,计算获得该候选目标语言译文所使用的模板的得分。然后, 在步骤3125,将该流利度得分和模板的得分进行组合并获得该组合的得 分,该组合例如是乘积、加权和等。这样,该组合的得分就是该候选目标 语言译文的得分。
最后,在步骤3130,选择所有候选目标语言译文的得分中的最高得分 所对应的候选目标语言译文,作为最终的目标语言译文。
以上所描述的从多个候选目标语言译文中选择最终的目标语言译文的 步骤可以通过下式表示:
e ^ = arg max e { P LM ( e ) f TLWI ( e ) }
其中,e表示候选目标语言译文,PLM(●)表示目标语言的语言模型, fTLWI(●)表示TLWI模型,argmax{●}表示取最大值,表示最终的目标语 言译文。
通过以上描述可以看出,本实施例的目标语言单词变形方法利用所训 练的TLWI模型,对目标语言译文中的目标语言单词进行变形,从而提高 译文的质量,并且对于多个候选目标语言译文,通过结合语言模型和TLWI 模型,选择最佳的单词变形,从而获得最佳的目标语言译文。
在同一发明构思下,图5是根据本发明的一个实施例的将源语言文本 翻译为目标语言译文的翻译方法的流程图。下面结合附图,对本实施例进 行详细描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图5所示,首先在步骤501,对输入的源语言文本进行预处理,以 获得该源语言文本的源语言单词序列,其中源语言单词序列中的源语言单 词被还原为原形并标有词性。例如,如果源语言文本是汉语句子,那么在 步骤501中,将汉语句子切分为汉语词序列,然后对该汉语词序列中的每 个汉语词标注词性。
接着,在步骤505,利用基于语料库的翻译模型,将预处理后的源语 言文本翻译为初始目标语言译文。如前所述,该基于语料库的翻译模型可 以是SMT模型等。
然后,在步骤510,利用前面实施例所描述的目标语言单词变形方法, 编辑在步骤505中得到的初始目标语言译文,以获得最终的目标语言译文。
下面结合一个例子,说明本实施例的翻译方法,其中,源语言是汉语, 目的语言是英语,基于语料库的翻译模型是SMT模型。输入的句子是“这 些男孩子刚看过电视”,首先对该句子进行预处理,得到预处理后的句子 为“这些/pron男孩子/n刚/adv看/v过/u电视/n。/w”。然后,利用 SMT模型,得到初始英语译文是“These/pron boy/n just/adv watch/v TV/n./w”。接着,利用TLWI模型编辑初始英语译文,即,将“boy”变 形为“boys”,将“watch”变形为“watched”,从而得到最终的英语译 文是“These boys just watched TV.”。
通过以上描述可以看出,本实施例的将源语言文本翻译为目标语言译 文的翻译方法使用基于语料库的翻译模型进行翻译,并进一步利用TLWI 模型,对目标语言译文中的目标语言单词进行变形,从而得到更准确的译 文。
在同一发明构思下,图6是根据本发明的一个实施例的基于双语语料 库训练目标语言单词变形模型的装置的示意性方框图。下面结合附图,对 本实施例进行详细描述。利用本实施例的装置训练的目标语言单词变形 TLWI模型将被用于结合下面实施例描述的目标语言单词变形装置和将源 语言文本翻译为目标语言译文的翻译系统。
如前所述,双语语料库包括多对进行了对齐的源语言语料和目标语言 语料,其中语料可以是短语、句子和段落中的任何一种。通常,双语语料 库采用句子形式,即双语例句库。
如图6所示,本实施例的基于双语语料库训练目标语言单词变形模型 的装置600包括:初始模型建立单元601,其建立初始的TLWI模型;语 料预处理单元602,其预处理双语语料库中的源语言语料和目标语言语料; 模板抽取单元603,其基于通过语料预处理单元602得到的预处理后的源 语言语料和目标语言语料,抽取包含目标语言单词变形信息的模板;以及 训练单元604,其利用由模板抽取单元603抽取的模板,训练TLWI模型。
如前所述,TLWI模型可以采用概率模型、模式识别模型等,并且训 练单元604使用相应的训练算法对TLWI模型进行训练。
在语料预处理单元602中,由源语言语料预处理单元对双语语料库中 的源语言语料进行预处理,以使预处理后的源语言语料中的源语言单词为 原形并标有词性,同时,由目标语言语料预处理单元对目标语言语料进行 预处理,以使预处理后的目标语言语料中的目标语言单词为原形并标有词 性。
例如,当源语言语料是汉语句子,目标语言语料是英语句子时,在源 语言语料预处理单元中,首先由切分单元将汉语句子切分为汉语单词序列, 然后由词性标注单元对该汉语单词序列中的每个汉语单词标明词性。在目 标语言语料处理单元中,将英语句子中的每个英语单词还原为原形,并对 每个英语单词表明词性。
图7示出了模板抽取单元603的示意性方框图。如图7所示,模板抽 取单元603包括:对齐单元6031,其对于上述预处理后的多对进行了对齐 的源语言语料和目标语言语料的每一对,对预处理后的源语言语料和预处 理后的目标语言语料中的单词进行对齐,以获得词对齐信息;搜索单元 6032,其搜索在原始的目标语言语料和预处理后的目标语言语料中不一致 的目标语言单词;获取单元6033,用于根据通过对齐单元6031获得的词 对齐信息,获得与搜索单元6032所搜索的不一致的目标语言单词对齐的源 语言单词;以及模板生成单元6034,用于根据不一致的目标语言单词、对 齐的源语言单词以及该对齐的源语言单词在原始的源语言语料中的上下文 信息,生成包含目标单词变形信息的模板。这样,对于双语语料库中的每 一对源语言语料和目标语言语料,都生成相应的模板。所有这些模板被存 储在模板存储单元6035中,用于训练TLWI模型。
如前所述,目标语言单词变形信息包括:源语言单词的词性;该源语 言单词的上下文信息的组合,作为条件;以及与该源语言单词对齐的目标 语言单词的变形行为,作为动作。源语言单词的上下文信息的组合可以预 先确定,例如,可以包括:该源语言单词的前一个源语言单词;该源语言 单词的前一个源语言单词与后一个源语言单词;该源语言单词的前面相隔 一个源语言单词;该源语言单词的后面相隔一个源语言单词。当然,上下 文信息的组合并不局限于此,还可以采用其它的组合形式。
应当指出,本实施例中的基于双语语料库训练目标语言单词变形模型 的装置600及其各个组成部分可以用专用的电路或芯片构成,也可以通过 计算机(处理器)执行相应的程序来实现。并且,本实施例的基于双语语 料库训练目标语言单词变形模型的装置600在操作上可以实现图1和图2 所示的实施例的基于双语语料库训练目标语言单词变形模型的方法。
在同一发明构思下,图8是根据本发明的一个实施例的目标语言单词 变形装置的示意性方框图。下面结合附图,对本实施例进行详细描述。对 于那些与前面实施例相同的部分,适当省略其说明。
在本实施例中,通过基于语料库的翻译模型,源语言文本被翻译为目 标语言译文,并且源语言文本被预处理为使得其所包含的源语言单词为原 形并标有词性,预处理后的源语言文本被存储在相关的存储单元中。
如图8所示,本实施例的目标语言单词变形装置800包括:TLWI模 型801,其是利用前面实施例所描述的基于双语语料库训练目标语言单词 变形模型的装置600训练的;以及单词变形单元802,其利用TLWI模型 801,对目标语言译文中的目标语言单词进行变形。
图9示出了单词变形单元802的示意性方框图。如图9所示,当对目 标语言单词进行变形时,在单词变形单元802中,首先,模板确定单元8021 根据预处理后的源语言文本中的每一个源语言单词的词性和TLWI模型 801,确定是否存在对应的模板。接着,在模板确定单元8021的确定结果 是存在对应的模板时,条件验证单元8022验证该源语言单词的上下文信息 是否满足该对应的模板中的条件。然后,在条件验证单元8022的验证结果 是满足对应的模板中的条件时,动作执行单元8023对与该源语言单词对齐 的目标语言单词执行该对应的模板中的变形动作,从而得到最终的目标语 言译文。
进一步地,在条件验证单元8022的验证结果是该源语言单词满足多个 对应的模板的条件时,动作执行单元8023对与该源语言单词对齐的目标语 言单词分别执行多个对应的模板中的变形动作,以得到多个候选目标语言 译文,并将这些候选目标语言译文存储在一个存储单元中。然后,对于多 个候选目标语言译文的每一个,在流利度计算单元中,根据目标语言的语 言模型,计算该候选目标语言译文的流利度得分,并在模板得分计算单元 中,根据TWLI模型801,计算获得该候选目标语言译文所使用的模板的 得分。然后,由组合得分获得单元获得该流利度得分与该模板的得分的组 合的得分,作为该候选目标语言译文的得分。该组合例如可以是乘积、加 权和等。最后,选择单元选择多个候选目标语言译文的得分中的最高得分 所对应的候选目标语言译文,作为最终的目标语言译文。
应当指出,本实施例中的目标语言单词变形装置800及其各个组成部 分可以用专用的电路或芯片构成,也可以通过计算机(处理器)执行相应 的程序来实现。并且,本实施例的目标语言单词变形装置800在操作上可 以实现图3和图4所示的实施例的目标语言单词变形方法。
在同一发明构思下,图10是根据本发明的一个实施例的将源语言文本 翻译为目标语言译文的翻译系统的流程图。下面结合附图,对本实施例进 行详细描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图10所示,本实施例的将源语言文本翻译为目标语言译文的翻译系 统1000包括:文本预处理装置1001,其预处理输入的源语言文本,以获 得源语言文本的源语言单词序列,其中该源语言单词序列中的源语言单词 被还原为原形并标有词性;基于语料库的翻译模型1002,其将经过文本预 处理装置1001预处理后的源语言文本翻译为初始目标语言译文;以及目标 语言单词变形装置,其可以是前面实施例所描述的目标语言单词变形装置 800,用于对初始目标语言译文进行编辑,以获得最终的目标语言译文。
例如,如果源语言文本是汉语句子,则在文本预处理装置1001中,将 汉语句子切分成汉语单词序列,然后对该汉语单词序列中的每个汉语单词 标注词性。
如前所述,基于语料库的翻译模型可以是现有的或未来的任何一种基 于语料库的翻译模型,例如SMT模型。
应当指出,本实施例中的将源语言文本翻译为目标语言译文的翻译系 统1000及其各个组成部分可以用专用的电路或芯片构成,也可以通过计算 机(处理器)执行相应的程序来实现。并且,本实施例的翻译系统1000 在操作上可以实现图5所示的实施例的将源语言文本翻译为目标语言译文 的翻译方法。
以上虽然通过一些示例性的实施例详细描述了本发明的基于双语语料 库训练目标语言单词变形模型的方法和装置、目标语言单词变形方法和装 置、以及将源语言文本翻译为目标语言译文的翻译方法和翻译系统,但是 以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和范 围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的 范围仅由所附的权利要求限定。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈