首页 / 专利库 / 人工智能 / 计算机辅助翻译 / 计算机辅助翻译的方法和装置

计算机辅助翻译的方法和装置

阅读:721发布:2020-06-14

专利汇可以提供计算机辅助翻译的方法和装置专利检索,专利查询,专利分析的服务。并且本 发明 提供了 计算机辅助翻译 的方法和计算机辅助翻译的装置。根据本发明的计算机辅助翻译的方法包括:为待翻译的第一语种的句子,在进行了对齐的双语例句库中查找相似的第一语种的例句,其中,上述进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息;当与上述相似的第一语种的例句相比上述待翻译的第一语种的句子具有至少一个相同部分和至少一个区别部分时,为上述至少一个区别部分的每一个分别准备相应的译文;将与上述相似的第一语种的例句对应的第二语种的例句以及上述至少一个区别部分的每一个的译文组合,生成参考译文;以及利用上述相似的第一语种的例句以及与其对应的第二语种的例句的对齐信息,提示上述待翻译的第一语种的句子中的上述至少一个相同部分和/或上述至少一个区别部分的每一个以及其在上述参考译文中对应的部分的对应关系。,下面是计算机辅助翻译的方法和装置专利的具体信息内容。

1. 一种计算机辅助翻译的方法,包括以下步骤:
为待翻译的第一语种的句子,在进行了对齐的双语例句库中查找相似 的第一语种的例句,其中,上述进行了对齐的双语例句库包括多对相对应 的第一语种和第二语种的例句以及每对例句之间的对齐信息;
当与上述相似的第一语种的例句相比上述待翻译的第一语种的句子具 有至少一个相同部分和至少一个区别部分时,为上述至少一个区别部分的 每一个分别准备相应的译文;
将与上述相似的第一语种的例句对应的第二语种的例句以及上述至少 一个区别部分的每一个的译文组合,生成参考译文;以及
利用上述相似的第一语种的例句以及与其对应的第二语种的例句的对 齐信息,提示上述待翻译的第一语种的句子中的上述至少一个相同部分和/ 或上述至少一个区别部分的每一个以及其在上述参考译文中对应的部分的 对应关系。
2. 根据权利要求1所述的计算机辅助翻译的方法,其中,上述提示 步骤包括分别对应地显示上述待翻译的第一语种的句子中的上述至少一个 相同部分和/或上述至少一个区别部分的每一个以及其在上述参考译文中 的部分。
3. 根据权利要求1或2所述的计算机辅助翻译的方法,进一步包括: 允许用户编辑上述参考译文。
4. 根据权利要求1-3中任何一项所述的计算机辅助翻译的方法,进 一步包括:允许用户设定上述待翻译的第一语种的句子和上述参考译文之 间的对齐信息。
5. 根据权利要求1-4中任何一项所述的计算机辅助翻译的方法,进 一步包括:将用户确认后的第二语种的参考译文和上述待翻译的第一语种 的句子以及它们之间的对齐信息保存到上述双语例句库中。
6. 根据权利要求1-5中任何一项所述的计算机辅助翻译的方法,其 中,为上述至少一个区别部分的每一个分别准备相应的译文的步骤包括从 上述双语例句库中查找与该区别部分对应的第二语种的译文。
7. 一种计算机辅助翻译的方法,包括以下步骤:
为待翻译的第一语种的句子,在进行了对齐的双语例句库中查找相似 的第一语种的例句,其中,上述进行了对齐的双语例句库包括多对相对应 的第一语种和第二语种的例句以及每对例句之间的对齐信息;
判断上述相似的第一语种的例句与上述待翻译的第一语种的句子的相 似性是否小于一个预定阈值
当上述相似的第一语种的例句与上述待翻译的第一语种的句子的相似 性小于上述预定阈值时,利用上述进行了对齐的双语例句库中的多个例句 对的组合获得参考译文,其中上述多个例句对的每一个的第一语种的例句 包含上述待翻译的第一语种的句子的至少一个片段;以及
利用上述多个例句对的对齐信息,提示上述待翻译的第一语种的句子 中的每个片段与上述参考译文中的相应的片段的对应关系。
8. 根据权利要求7所述的计算机辅助翻译的方法,其中,上述提示 步骤包括分别对应地显示上述待翻译的第一语种的句子中的每个片段和其 在上述参考译文中的片段。
9. 根据权利要求7或8所述的计算机辅助翻译的方法,其中,利用 动态规划算法获得上述多个例句对的组合。
10. 根据权利要求9所述的计算机辅助翻译的方法,其中,上述动态 规划算法包括以下步骤:
将上述待翻译的第一语种的句子分割成多个片段;以及
为每个上述分割的多个片段,在上述双语例句库中查找包括该片段的 例句对。
11. 根据权利要求10所述的计算机辅助翻译的方法,其中,上述动 态规划算法还包括以下步骤:
如果在上述双语例句库中没有包括上述片段的例句对,将上述片段再 次分割成多个片段;以及
为每个上述再次分割的多个片段,在上述双语例句库中查找包括该片 段的例句对。
12. 根据权利要求10或11所述的计算机辅助翻译的方法,还包括以 下步骤:
计算上述多个片段的每一个的权重;
根据上述计算的权重,计算上述多个例句对的组合的得分;
其中,将得分最高的例句对的组合作为上述多个例句对的组合。
13. 根据权利要求12所述的计算机辅助翻译的方法,其中,所述计 算上述多个片段的每一个的权重的步骤基于每个片段的长度、在所述双语 例句库中出现的次数或上述多个例句对的对齐信息进行。
14. 根据权利要求7所述的计算机辅助翻译的方法,还包括:
当上述相似的第一语种的例句与上述待翻译的第一语种的句子的相似 性大于上述预定阈值,并且与上述相似的第一语种的例句相比上述待翻译 的第一语种的句子具有至少一个相同部分和至少一个区别部分时,为上述 至少一个区别部分的每一个准备相应的译文;
将与上述相似的第一语种的例句对应的第二语种的例句以及上述至少 一个区别部分的每一个的译文组合,生成参考译文;以及
利用上述相似的第一语种的例句以及与其对应的第二语种的例句的对 齐信息,提示上述待翻译的第一语种的句子中的上述至少一个相同部分和/ 或上述至少一个区别部分的每一个以及其在上述参考译文中对应的部分的 对应关系。
15. 根据权利要求14所述的计算机辅助翻译的方法,其中,上述提 示步骤包括分别对应地显示上述待翻译的第一语种的句子中的上述至少一 个相同部分和/或上述至少一个区别部分的每一个以及其在上述参考译文 中的部分。
16. 根据权利要求14或15所述的计算机辅助翻译的方法,其中,为 上述至少一个区别部分的每一个分别准备相应的译文的步骤包括从上述双 语例句库中查找与该区别部分对应的第二语种的译文。
17. 根据权利要求7-16中任何一项所述的计算机辅助翻译的方法,进 一步包括:允许用户编辑上述参考译文。
18. 根据权利要求7-17中任何一项所述的计算机辅助翻译的方法,进 一步包括:允许用户设定上述待翻译的第一语种的句子和上述参考译文之 间的对齐信息。
19. 根据权利要求7-18中任何一项所述的计算机辅助翻译的方法,进 一步包括:将用户确认后的第二语种的参考译文和上述待翻译的第一语种 的句子以及它们之间的对齐信息保存到上述双语例句库中。
20. 一种计算机辅助翻译的装置,包括:
查找单元(searching unit),用于为待翻译的第一语种的句子,在进 行了对齐的双语例句库中查找相似的第一语种的例句,其中,上述进行了 对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对 例句之间的对齐信息;
翻译单元(translating unit),用于当与上述相似的第一语种的例句 相比上述待翻译的第一语种的句子具有至少一个相同部分和至少一个区别 部分时,为上述至少一个区别部分的每一个分别准备相应的译文;
组合单元(combining unit),用于将与上述相似的第一语种的例句对 应的第二语种的例句以及上述至少一个区别部分的每一个的译文组合,生 成参考译文;以及
提示单元(indicating unit),用于利用上述相似的第一语种的例句以 及与其对应的第二语种的例句的对齐信息,提示上述待翻译的第一语种的 句子中的上述至少一个相同部分和/或上述至少一个区别部分的每一个以 及其在上述参考译文中对应的部分的对应关系。
21. 根据权利要求20所述的计算机辅助翻译的装置,其中,上述提 示单元包括显示单元(displaying unit),用于分别对应地显示上述待翻译 的第一语种的句子中的上述至少一个相同部分和/或上述至少一个区别部 分的每一个以及其在上述参考译文中的部分。
22. 根据权利要求20或21所述的计算机辅助翻译的装置,还包括编 辑单元(editing unit),用于允许用户编辑由上述组合单元生成的参考译文。
23. 根据权利要求20-22中任何一项所述的计算机辅助翻译的装置, 还包括设定单元(setting unit),用于允许用户设定上述待翻译的第一语种 的句子和上述参考译文之间的对齐信息。
24. 根据权利要求20-23中任何一项所述的计算机辅助翻译的装置, 还包括保存单元(storing unit),用于将用户确认后的第二语种的参考译文 和上述待翻译的第一语种的句子以及它们之间的对齐信息保存到上述双语 例句库中。
25. 根据权利要求20-24中任何一项所述的计算机辅助翻译的装置, 其中,上述翻译单元配置为从上述双语例句库中查找上述至少一个区别部 分的每一个的译文。
26. 一种计算机辅助翻译的装置,包括:
查找单元(searching unit),用于为待翻译的第一语种的句子,在进 行了对齐的双语例句库中查找相似的第一语种的例句,其中,上述进行了 对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对 例句之间的对齐信息;
判断单元(determining unit),用于判断上述相似的第一语种的例句 与上述待翻译的第一语种的句子的相似性是否小于一个预定阈值;
组合单元(combining unit),用于当上述相似的第一语种的例句与上 述待翻译的第一语种的句子的相似性小于上述预定阈值时,利用上述进行 了对齐的双语例句库中的多个例句对的组合获得参考译文,其中上述多个 例句对的每一个的第一语种的例句包含上述待翻译的第一语种的句子的至 少一个片段;以及
提示单元(indicating unit),用于利用上述多个例句对的对齐信息, 提示上述待翻译的第一语种的句子中的每个片段与上述参考译文中的相应 的片段的对应关系。
27. 根据权利要求26所述的计算机辅助翻译的装置,其中,上述提 示单元包括显示单元(displaying unit),用于分别对应地显示上述待翻译 的第一语种的句子中的每个片段和其在上述参考译文中的片段。
28. 根据权利要求26或27所述的计算机辅助翻译的装置,其中,上 述组合单元配置为利用动态规划算法获得上述多个例句对的组合。
29. 根据权利要求28所述的计算机辅助翻译的装置,其中,上述组 合单元还包括分割单元(dividing unit),将上述待翻译的第一语种的句子 分割成多个片段;以及
上述查找单元进一步配置为,为每个上述分割的多个片段,在上述双 语例句库中查找包括该片段的例句对,以获得上述多个例句对的组合。
30. 根据权利要求29所述的计算机辅助翻译的装置,其中,上述分 割单元进一步配置为,如果在上述双语例句库中没有包括上述片段的例句 对,将上述片段再次分割成多个片段;以及
上述查找单元进一步配置为,为每个上述再次分割的多个片段,在上 述双语例句库中查找包括该片段的例句对。
31. 根据权利要求29或30所述的计算机辅助翻译的装置,其中,上 述组合单元还包括计算单元(calculating unit),计算上述多个片段的每一 个的权重;以及
上述计算单元进一步配置为,根据上述计算的权重,计算上述多个例 句对的组合的得分;
其中,将得分最高的例句对的组合作为上述多个例句对的组合。
32. 根据权利要求31所述的计算机辅助翻译的装置,其中,上述计 算单元基于每个片段的长度、在所述双语例句库中出现的次数或上述多个 例句对的对齐信息计算上述权重。
33. 根据权利要求26所述的计算机辅助翻译的装置,还包括:
翻译单元(translating unit),用于当上述相似的第一语种的例句与 上述待翻译的第一语种的句子的相似性大于上述预定阈值,并且与上述相 似的第一语种的例句相比上述待翻译的第一语种的句子具有至少一个相同 部分和至少一个区别部分时,为上述至少一个区别部分的每一个准备相应 的译文;
上述组合单元进一步配置为,将与上述相似的第一语种的例句对应的 第二语种的例句以及上述至少一个区别部分的每一个的译文组合,生成参 考译文;以及
上述提示单元进一步配置为,利用上述相似的第一语种的例句以及与 其对应的第二语种的例句的对齐信息,提示上述待翻译的第一语种的句子 中的上述至少一个相同部分和/或上述至少一个区别部分的每一个以及其 在上述参考译文中对应的部分的对应关系。
34. 根据权利要求33所述的计算机辅助翻译的装置,其中,上述提 示单元包括显示单元(displaying unit),用于分别对应地显示上述待翻译 的第一语种的句子中的上述至少一个相同部分和/或上述至少一个区别部 分的每一个以及其在上述参考译文中的部分。
35. 根据权利要求33或34所述的计算机辅助翻译的装置,其中,上 述翻译单元配置为从上述双语例句库中查找上述区别部分的译文。
36. 根据权利要求26-35中任何一项所述的计算机辅助翻译的装置, 还包括编辑单元(editing unit),用于允许用户编辑由上述组合单元生成的 参考译文。
37. 根据权利要求26-36中任何一项所述的计算机辅助翻译的装置, 还包括设定单元(setting unit),用于允许用户设定上述待翻译的第一语种 的句子和上述参考译文之间的对齐信息。
38. 根据权利要求26-37中任何一项所述的计算机辅助翻译的装置, 还包括保存单元(storing unit),用于将用户确认后的第二语种的参考译文 和上述待翻译的第一语种的句子以及它们之间的对齐信息保存到上述双语 例句库中。

说明书全文

技术领域

发明涉及信息处理技术,具体地,涉及基于双语对齐技术的计算机 辅助翻译(Computer Aided Translation,CAT)技术。

背景技术

计算机辅助翻译系统是一种利用计算机来帮助人工翻译的系统。辅助 翻译系统使用翻译记忆(Translation Memory)技术来存储已经翻译过的 句子及其译文作为翻译实例(Translation Example)。在用户进行翻译的 过程中,系统会自动查找与输入句子相似的例句及其译文,并将查到的例 句的译文提供给用户作为参考译文,从而对人工翻译提供帮助。但是,用 户必须根据输入句子和例句之间的差异手工编辑参考译文来确定最终正确 的译文。
目前,机器辅助翻译系统在显示参考例句时,输入句子和参考例句的 源语言句子中的相同部分(或区别部分)会被突出显示。但是这些突出显 示的部分在例句的译文中对应的译文部分没有被标识或识别出来。所以, 在译文中包含了不需要的译文片段。因此,在编辑参考译文的过程中,翻 译者必须反复对照输入句子和例句源语言句子中的相同或区别部分,来确 定所需的译文片段。这个过程中翻译者需要浏览整个参考例句,降低了翻 译效率。

发明内容

为了解决上述现有技术中存在的问题,本发明提供了计算机辅助翻译 的方法和计算机辅助翻译的装置。
根据本发明的一个方面,提供了一种计算机辅助翻译的方法,包括: 为待翻译的第一语种的句子,在进行了对齐的双语例句库中查找相似的第 一语种的例句,其中,上述进行了对齐的双语例句库包括多对相对应的第 一语种和第二语种的例句以及每对例句之间的对齐信息;当与上述相似的 第一语种的例句相比上述待翻译的第一语种的句子具有至少一个相同部分 和至少一个区别部分时,为上述至少一个区别部分的每一个分别准备相应 的译文;将与上述相似的第一语种的例句对应的第二语种的例句以及上述 至少一个区别部分的每一个的译文组合,生成参考译文;以及利用上述相 似的第一语种的例句以及与其对应的第二语种的例句的对齐信息,提示上 述待翻译的第一语种的句子中的上述至少一个相同部分和/或上述至少一 个区别部分的每一个以及其在上述参考译文中对应的部分的对应关系。
根据本发明的另一个方面,提供了一种计算机辅助翻译的方法,包括: 为待翻译的第一语种的句子,在进行了对齐的双语例句库中查找相似的第 一语种的例句,其中,上述进行了对齐的双语例句库包括多对相对应的第 一语种和第二语种的例句以及每对例句之间的对齐信息;判断上述相似的 第一语种的例句与上述待翻译的第一语种的句子的相似性是否小于一个预 定阈值;当上述相似的第一语种的例句与上述待翻译的第一语种的句子的 相似性小于上述预定阈值时,利用上述进行了对齐的双语例句库中的多个 例句对的组合获得参考译文,其中上述多个例句对的每一个的第一语种的 例句包含上述待翻译的第一语种的句子的至少一个片段;以及利用上述多 个例句对的对齐信息,提示上述待翻译的第一语种的句子中的每个片段与 上述参考译文中的相应的片段的对应关系。
根据本发明的另一个方面,提供了一种计算机辅助翻译的装置,包括: 查找单元(searching unit),用于为待翻译的第一语种的句子,在进行了 对齐的双语例句库中查找相似的第一语种的例句,其中,上述进行了对齐 的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句 之间的对齐信息;翻译单元(translating unit),用于当与上述相似的第 一语种的例句相比上述待翻译的第一语种的句子具有至少一个相同部分和 至少一个区别部分时,为上述至少一个区别部分的每一个分别准备相应的 译文;组合单元(combining unit),用于将与上述相似的第一语种的例句 对应的第二语种的例句以及上述至少一个区别部分的每一个的译文组合, 生成参考译文;以及提示单元(indicating unit),用于利用上述相似的第 一语种的例句以及与其对应的第二语种的例句的对齐信息,提示上述待翻 译的第一语种的句子中的上述至少一个相同部分和/或上述至少一个区别 部分的每一个以及其在上述参考译文中对应的部分的对应关系。
根据本发明的另一个方面,提供了一种计算机辅助翻译的装置,包括: 查找单元(searching unit),用于为待翻译的第一语种的句子,在进行了对 齐的双语例句库中查找相似的第一语种的例句,其中,上述进行了对齐的 双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之 间的对齐信息;判断单元(determining unit),用于判断上述相似的第一 语种的例句与上述待翻译的第一语种的句子的相似性是否小于一个预定阈 值;组合单元(combining unit),用于当上述相似的第一语种的例句与上 述待翻译的第一语种的句子的相似性小于上述预定阈值时,利用上述进行 了对齐的双语例句库中的多个例句对的组合获得参考译文,其中上述多个 例句对的每一个的第一语种的例句包含上述待翻译的第一语种的句子的至 少一个片段;以及提示单元(indicating unit),用于利用上述多个例句对 的对齐信息,提示上述待翻译的第一语种的句子中的每个片段与上述参考 译文中的相应的片段的对应关系。
附图说明
相信通过以下结合附图对本发明具体实施方式的说明,能够使人们更 好地了解本发明上述的特点、优点和目的。
图1是根据本发明的一个实施例的计算机辅助翻译的方法的流程图
图2是根据图1的实施例的显示参考译文的示意图;
图3是根据本发明的另一个实施例的计算机辅助翻译的方法的流程 图;
图4是根据图3的实施例的查找最佳例句对组合的方法的流程图;
图5是根据图3的实施例的显示参考译文的示意图;
图6是根据图3的实施例的进行显示和编辑的流程图;
图7是根据图3的实施例的突出显示编辑部分的示意图;
图8是根据图3的实施例的例句对的对齐信息的示意图;
图9是根据本发明的另一个实施例的计算机辅助翻译的装置的方框 图;以及
图10是根据本发明的另一个实施例的计算机辅助翻译的装置的方框 图。

具体实施方式

下面就结合附图对本发明的各个实施例进行详细的说明。
图1是根据本发明的一个实施例的计算机辅助翻译的方法的流程图。 如图1所示,首先,在步骤101,输入待翻译的第一语种的句子。
例如:Mary played a small role in the drama.
接着,在步骤102,为待翻译的第一语种的句子,在进行了对齐的双 语例句库中查找相似的第一语种的例句,其中,进行了对齐的双语例句库 是由专业人员(例如,翻译人员)手工或计算机自动进行了词对齐的双语 例句库,其包括多对互为译文的相对应的第一语种和第二语种的例句以及 每对例句之间的对齐信息。例如查找到的相似例句对及其对齐信息如下。

接着,在步骤103,将待翻译的第一语种的句子和相似的第一语种的 例句进行比较,如果待翻译的第一语种的句子和相似的第一语种的例句不 完全相同,找出它们之间的区别部分,并可以利用相似的第一语种的例句 和与其对应的第二语种的例句之间的词对齐信息,确定所述区别部分在对 应的第二语种的例句中位置
对于上述实例,待翻译句子和相似例句之间的区别在于Mary和John, 以及small和critical。这两个区别部分在与相似例句对应的中文例句中的 位置分别为第一位置和第五位置。
接着,在步骤104,为待翻译的第一语种的句子和相似的第一语种的 例句之间的区别部分准备相应的译文。这里,可以从字典里查找所述区别 部分的译文,或优选从上述双语例句库中查找,本发明对此并没有限制。
具体地,可以得到Mary和small的译文分别为“玛丽”和“小”。
接着,在步骤105,将与相似的第一语种的例句对应的第二语种的例 句以及上述区别部分的译文组合,生成参考译文,其中根据在步骤103中 确定的区别部分在对应的第二语种的例句中的位置,用所述区别部分的译 文替换与相似的第一语种的例句对应的第二语种的例句中的区别部分。
在此步骤中,用“玛丽”代替中文例句中的第一位置处的“约翰”, 并用“小”代替中文例句中的第五位置处的“重要”,从而得到如下参考 译文。

最后,在步骤106,利用上述相似的第一语种的例句与其对应的第二 语种的例句的对齐信息,提示上述待翻译的第一语种的句子中的相同部分 和/或区别部分以及其在上述参考译文中对应的部分的对应关系。这里,提 示区别部分和/或相同部分的方法可以多种多样,例如利用方框、下划线、 不同颜色、不同字体或其组合等,以一种模式显示对应的区别部分,而以 另一种模式显示对应的相同部分,本发明对此并没有限制。
具体地,如图2所示,利用第一模式C1显示在待翻译句子中的 “Mary”、相似例句对的源语言句子中的“John”、相似例句对的目标语 言句子中的“约翰”以及参考译文中的“玛丽”,利用第二模式C2显示 在待翻译句子中的“small”、相似例句对的源语言句子中的“critical”、 相似例句对的目标语言句子中的“重要”以及参考译文中的“小”,而以 正常模式显示对应的相同部分。
通过本实施例的计算机辅助翻译的方法,利用进行了对齐的双语例句 库构造参考译文,在参考译文中不会包含不需要的译文片段,从而提高了 翻译效率。此外,对于待翻译句子、相似例句对和参考译文中对应的部分 用同一模式显示,使用户对参考译文的组成、出处及翻译质量一目了然。 同时,用户只需关注相似例句对中与待翻译句子相关的部分,从而进一步 提高了翻译效率。
此外,本实施例的计算机辅助翻译的方法还允许用户对参考译文进行 编辑,例如增加、删除、修改译文,或通过直接拖拽译文片段方便地编辑 译文。当用户编辑参考译文中的任何一部分时,其在待翻译句子、相似例 句对中对应的部分会同时被突出显示。这些将在下面的实施例中参考图6 和7进行详细描述。
此外,本实施例的计算机辅助翻译的方法还允许用户对待翻译句子和 参考译文之间的对齐信息进行设定,并可以将用户确认后的参考译文和待 翻译句子以及它们之间的对齐信息保存到上述双语例句库中,从而扩充了 上述进行了对齐的双语例句库。
在同一发明构思下,图3是根据本发明的另一个实施例的计算机辅助 翻译的方法的流程图。下面就结合该图,对本实施例进行描述。对于那些 与前面实施例相同的部分,适当省略其说明。
如图3所示,首先,在步骤301,输入待翻译的第一语种的句子。
例如:
There is a red jacket on the bed.
或者
Mary played a small role in the drama.
接着,在步骤302,为待翻译的第一语种的句子,在进行了对齐的双 语例句库中查找相似的第一语种的例句,其中,进行了对齐的双语例句库 是由专业人员(例如,翻译人员)手工或计算机自动进行了词对齐的双语 例句库,其包括多对互为译文的相对应的第一语种和第二语种的例句以及 每对例句之间的对齐信息。例如,为上述两个实例查找到的相似例句对及 其对齐信息分别如下。

或者

接着,在步骤303,判断相似例句与待翻译句子之间的相似性是否大 于预先设定的阈值φ。
计算两个字符串相似性的方法例如参见Levenshtein,V.的文献 “Binary codes capable of corresting deletions,insertions,and reversals.” Soviet Physics-Doklady 10,10(1996),707-710,在此引入其整个内容作为参 考。其中,利用“编辑距离”来衡量两个字符串的相似性。编辑距离是从 原字符串转换到目标字符串所需要的最少插入、删除和替换的操作次数。 通过操作次数的多少确定两个字符串的相似性情况。如果原字符串和目标 字符串完全一致,那么编辑距离是零,否则编辑距离是所述操作的次数。
例如,如果s=“test”,t=“test”,那么s和t之间的编辑距离等于0, 因为两个句子完全一样。如果s=“test”,t=“tent”,那么s和t之间的 编辑距离等于1,因为有一次替换操作“s”→“n”发生。
通常,应用归一化的编辑距离作为两个字符串之间的相似性:
d’(s,t)=1-d(s,t)/max(|s|,|t|)
其中,d(s,t)是编辑距离,d’(s,t)是归一化的编辑距离,|s|是 字符串s的长度,以及|t|是字符串t的长度。归一化的编辑距离的取值在 0-1之间,如果原字符串和目标字符串完全不一样,那么编辑距离是0,如 果原字符串和目标字符串完全一致,那么编辑距离是1。在此情况下,相 似性的阈值φ可以预先设定为0-1之间的任何数值,例如0.6,其可以根据 用户的需求进行设定,在此并不限制。
因此,当待翻译句子为“There is a red jacket on the bed.”时,可以 计算其和相似例句“There is such a thing in agitation.”之间的编辑距离d (s,t)=25,待翻译句子的长度|s|=32,相似例句的长度|t|=34,则归一 化的编辑距离d’(s,t)=1-25/max(32,34)=0.265。
如果φ=0.6,则在步骤303判断待翻译句子和相似例句之间的相似性 小于预先设定的阈值φ,方法进行到步骤304。
在步骤304,利用上述进行了对齐的双语例句库获得最佳例句对组合, 其中最佳例句对组合的每一个的第一语种的例句包含上述待翻译的第一语 种的句子的至少一个片段。
在上述进行了对齐的双语例句库中获得最佳例句对组合的方法可以有 多种,本实施例采用动态规划算法,具体的流程图如图4所示,下面将参 考图4描述获得最佳例句对组合的具体过程。
动态规划算法开始于步骤401,对于待翻译句子的从ith单词到jth单词 的连续片段[wi,wj],在步骤401,计算包含连续片段[wi,wj]的例句对组合 的得分δ(i,j)。
接着,在步骤402,输入连续片段[wi,wj]。
接着,在步骤403,将最大得分MaxScore设定为0。
接着,在步骤404,判断在上述进行了对齐的双语例句库中是否存在 包含连续片段[wi,wj]的例句对。
如果在步骤404判断为是,则方法进行到步骤405,其中,计算连续 片段[wi,wj]的权重Ψ(i,j,fre)作为上述最大得分MaxScore。该权重基于连 续片段[wi,wj]的长度、在所述双语例句库中出现的次数或例句对的对齐信 息计算。其中,连续片段[wi,wj]的长度越长,权重越大;连续片段[wi,wj] 在所述双语例句库中出现的次数越多,权重越大;以及如果在根据例句对 的对齐信息切分例句对获得的片段中包含连续片段[wi,wj],则权重大,否 则权重小。
然后,在步骤413,返回MaxScore和例句对,并在步骤414结束。
如果在步骤404中找不到包含连续片段[wi,wj]的例句对,则方法进行 到步骤406。
在步骤406,判断是否存在mi,mj满足i<mi<mj<j。
如果在步骤406判断为否,则在步骤414结束。
如果在步骤406判断存在mi,mj满足i<mi<mj<j,则将连续片段[wi,wj] 分割为连续片段[wi,m1]、[m1,m2]和[m2,wj],并且方法进行到步骤407。
在步骤407,分别计算包含连续片段[wi,m1]的例句对组合的得分δ(i, m1),以及包含连续片段[m2,wj]的例句对组合的得分δ(m2,j)。
接着,在步骤408,计算惩罚因子γ(m1,m2),对于两个片段重叠或中 间存在没有覆盖的单词,那么γ将给一个小于零的惩罚值。
接着,在步骤409,计算得分Score=δ(i,m1)+δ(m2,j)+r(m1,m2)。
接着,在步骤410,判断得分Score是否大于最大得分MaxScore,如 果得分Score大于最大得分MaxScore,则将得分Score赋予最大得分 MaxScore,并进行到步骤412,如果得分Score小于最大得分MaxScore, 则直接进行到步骤412。
在步骤412,判断是否存在不同的mi,mj满足i<mi<mj<j,如果存在, 则继续对连续片段[wi,wj]进行分割,并返回到步骤407,如果不存在,则 方法进行到步骤413,返回MaxScore和例句对,并在步骤414结束。
最后,将得分最高的例句组合作为所需的最佳例句对组合,例如包括 三对例句:
第一例句对

第二例句对

第三例句对

对于待翻译句子“There is a red jacket on the bed.”,第一例句对的源 语言句子中的“There is”和待翻译句子的片段[1..2]相同,其对应的译文 是“有”;第二例句对的源语言句子中的“a red jacket”和待翻译句子的片 段[3..5]相同,其对应的译文是“一件红色的夹克”;第三例句对的源语言 句子中的“on the bed”和待翻译句子的片段[6..8]相同,其对应的译文是 “在床上”。
返回到步骤304,在上述进行了对齐的双语例句库中获得最佳例句对 组合之后,方法进行到步骤307,在此步骤,根据该最佳例句对组合,系 统合并所有片段对应的译文来生成参考译文。也就是说,合并待翻译句子 的片段[1..2]、片段[3..5]和片段[6..8]的译文“有”、“一件红色的夹克”和“在 床上”,得到参考译文为“有一件红色的夹克在床上”。
最后,在步骤308,利用上述多个例句对的对齐信息,提示上述待翻 译的第一语种的句子中的每个片段与上述参考译文中的相应的片段的对应 关系。这里,提示相应片段的对应关系的方法可以多种多样,例如利用方 框、下划线、不同颜色、不同字体或其组合等,分别以不同的模式显示各 个片段的对应关系,本发明对此并没有限制。
具体地,如图5所示,分别地利用模式C1显示待翻译句子中的“There is”、第一例句对的源语言句子中的“There is”、第一例句对的目标语句 子中的“有”和参考译文中的“有”,利用模式C2显示待翻译句子中的 “a red jacket”、第二例句对的源语言句子中的“a red jacket”、第二例 句对的目标语句子中的“一件红色的夹克”和参考译文中的“一件红色的 夹克”,利用模式C3显示待翻译句子中的“on the bed”、第三例句对的 源语言句子中的“on the bed”、第三例句对的目标语句子中的“在床上” 和参考译文中的“在床上”。
此外,如果例句对的源语言句子和目标语音句子比较长,那么例句对 中没有参考价值的部分没有被显示出来,例如,在图5中的第一例句对中, 只有例句的前面部分被显示出来。如果用户希望浏览整个例句或了解例句 对的对齐情况,那么使用鼠标点击例句,该例句及对齐信息被显示出来, 如图8所示。
此外,本实施例的计算机辅助翻译的方法还允许用户对参考译文进行 编辑,例如增加、删除、修改译文,或通过直接拖拽译文片段方便地编辑 译文,如图6所示。当用户编辑参考译文中的任何一部分时,其在待翻译 句子、相似例句中对应的部分会同时被突出显示,如图7所示。
具体地,图6是根据图3的实施例的进行显示和编辑的流程图,在图 6中,单元608是片段索引表,该片段索引表存储了每个片段在其句子中 对应的单词(该表中的数据来源于图5中的句子)。单元601是鼠标点击 片段的操作;单元602是用户编辑参考译文中片段的操作;单元603表示 待翻译句子中的片段;单元604表示例句对中的片段;单元605表示参考 译文中的片段;单元606是对应片段查找模;单元607是片段突出显示 模块。当用户执行单元601点击单元603、604、605中任何一个或执行单 元602编辑单元605时,单元606在单元608中查找被操作的片段所对应 的其它相关片段的信息。然后单元607在待翻译句子、例句对和参考译文 中突出显示所操作的片段和其对应的片段。
图7是根据图3的实施例的突出显示编辑部分的示意图,在图7中, 利用模式C4突出显示待翻译句子中的“on the bed”、第三例句对的源语 言句子中的“on the bed”、第三例句对的目标语句子中的“在床上”和参 考译文中的“在床上”。
图8是根据图3的实施例的例句对的对齐信息的示意图,在图8中, 示出了图5中的第一例句对及其对齐信息。
返回到步骤303,当待翻译句子为“Mary played a small role in the drama.”时,可以计算其和相似例句“John played a critical role in the drama.”之间的编辑距离d(s,t)=12,待翻译句子的长度|s|=38,相似 例句的长度|t|=41,则归一化的编辑距离d’(s,t)=1-12/max(38,41) =0.707。
如果φ=0.6,则在步骤303判断待翻译句子和相似例句之间的相似性 大于预先设定的阈值φ,方法进行到步骤305。
在步骤305,将待翻译的第一语种的句子和相似的第一语种的例句进 行比较,如果待翻译的第一语种的句子和相似的第一语种的例句不完全相 同,找出它们之间的区别部分,并可以利用相似的第一语种的例句和与其 对应的第二语种的例句之间的词对齐信息,确定所述区别部分在对应的第 二语种的例句中位置。
对于上述实例,待翻译句子和相似例句之间的区别在于Mary和John, 以及small和critical。这两个区别部分在与相似例句对应的中文例句中的 位置分别为第一位置和第五位置。
接着,在步骤306,为待翻译的第一语种的句子和相似的第一语种的 例句之间的区别部分准备相应的译文。这里,可以从字典里查找所述区别 部分的译文,或优选从上述双语例句库中查找,本发明对此并没有限制。
具体地,可以得到Mary和small的译文分别为“玛丽”和“小”。
接着,在步骤307,将与相似的第一语种的例句对应的第二语种的例 句以及上述区别部分的译文组合,生成参考译文,其中根据在步骤305中 确定的区别部分在对应的第二语种的例句中的位置,用所述区别部分的译 文替换与相似的第一语种的例句对应的第二语种的例句中的区别部分。
在此步骤中,用“玛丽”代替中文例句中的第一位置处的“约翰”, 并用“小”代替中文例句中的第五位置处的“重要”,从而得到如下参考 译文。

最后,在步骤308,利用上述相似的第一语种的例句与其对应的第二 语种的例句的对齐信息,提示上述待翻译的第一语种的句子中的相同部分 和/或区别部分以及其在上述参考译文中对应的部分的对应关系。这里,提 示区别部分和/或相同部分的方法可以多种多样,例如利用方框、下划线、 不同颜色、不同字体或其组合等,以一种模式显示对应的区别部分,而以 另一种模式显示对应的相同部分,本发明对此并没有限制。
具体地,如图2所示,利用第一模式C1显示在待翻译句子中的 “Mary”、相似例句对的源语言句子中的“John”、相似例句对的目标语 言句子中的“约翰”以及参考译文中的“玛丽”,利用第二模式C2显示 在待翻译句子中的“small”、相似例句对的源语言句子中的“critical”、 相似例句对的目标语言句子中的“重要”以及参考译文中的“小”,而以 正常模式显示对应的相同部分。
通过本实施例的计算机辅助翻译的方法,利用进行了对齐的双语例句 库构造参考译文,在参考译文中不包含不需要的译文片段,并且可以在双 语例句库中找不到相似例句的情况下,利用例句组合构造参考译文,从而 提高了翻译效率。此外,对于待翻译句子、例句对和参考译文中对应的部 分用同一模式显示,使用户对参考译文的组成、出处及翻译质量一目了然。 同时,用户只需关注相似例句对中与待翻译句子相关的部分,从而进一步 提高了翻译效率。
此外,本实施例的计算机辅助翻译的方法还允许用户对参考译文进行 编辑,例如增加、删除、修改译文,或通过直接拖拽译文片段方便地编辑 译文。当用户编辑参考译文中的任何一部分时,其在待翻译句子、例句对 中对应的部分会同时被突出显示。
此外,本实施例的计算机辅助翻译的方法还允许用户对待翻译句子和 参考译文之间的对齐信息进行设定,并可以将用户确认后的参考译文和待 翻译句子以及它们之间的对齐信息保存到上述双语例句库中,从而扩充了 上述进行了对齐的双语例句库。
在同一发明构思下,图9是根据本发明的另一个实施例的计算机辅助 翻译的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些 与前面实施例相同的部分,适当省略其说明。
本实施例的计算机辅助翻译装置900包括:查找单元(searching unit) 901,用于为待翻译的第一语种的句子,在进行了对齐的双语例句库中查找 相似的第一语种的例句,其中,上述进行了对齐的双语例句库包括多对相 对应的第一语种和第二语种的例句以及每对例句之间的对齐信息;翻译单 元(translating unit)902,用于当与上述相似的第一语种的例句相比上述 待翻译的第一语种的句子具有至少一个相同部分和至少一个区别部分时, 为上述至少一个区别部分的每一个分别准备相应的译文;组合单元 (combining unit)903,用于将与上述相似的第一语种的例句对应的第二 语种的例句以及上述至少一个区别部分的每一个的译文组合,生成参考译 文;以及提示单元(indicating unit)904,用于利用上述相似的第一语种 的例句以及与其对应的第二语种的例句的对齐信息,提示上述待翻译的第 一语种的句子中的上述至少一个相同部分和/或上述至少一个区别部分的 每一个以及其在上述参考译文中对应的部分的对应关系。
优选,上述翻译单元902配置为从上述双语例句库中查找上述至少一 个区别部分的每一个的译文。
优选,提示单元904包括显示单元(displaying unit),用于利用方框、 下划线、不同颜色、不同字体或其组合等,以一种模式显示对应的区别部 分,而以另一种模式显示对应的相同部分,本发明对此并没有限制。
具体地,如图2所示,利用第一模式C1显示在待翻译句子中的 “Mary”、相似例句对的源语言句子中的“John”、相似例句对的目标语言 句子中的“约翰”以及参考译文中的“玛丽”,利用第二模式C2显示在待 翻译句子中的“small”、相似例句对的源语言句子中的“critical”、相似例 句对的目标语言句子中的“重要”以及参考译文中的“小”,而以正常模式 显示对应的相同部分。
通过使用本实施例的计算机辅助翻译装置900,利用进行了对齐的双 语例句库构造参考译文,在参考译文中不会包含不需要的译文片段,从而 提高了翻译效率。此外,对于待翻译句子、相似例句对和参考译文中对应 的部分,利用显示单元用同一模式显示,使用户对参考译文的组成、出处 及翻译质量一目了然。同时,用户只需关注相似例句对中与待翻译句子相 关的部分,从而进一步提高了翻译效率。
此外,计算机辅助翻译装置900还可以包括编辑单元(editing unit), 用于允许用户编辑由上述组合单元903生成的参考译文,例如增加、删除、 修改译文,或通过直接拖拽译文片段方便地编辑译文。当用户编辑参考译 文中的任何一部分时,其在待翻译句子、相似例句对中对应的部分会同时 被上述显示单元突出显示。
此外,计算机辅助翻译装置900还可以包括设定单元(setting unit) 和保存单元(storing unit),用于允许用户对待翻译句子和参考译文之间的 对齐信息进行设定,并可以将用户确认后的参考译文和待翻译句子以及它 们之间的对齐信息保存到上述双语例句库中,从而扩充了上述进行了对齐 的双语例句库。
在同一发明构思下,图10是根据本发明的另一个实施例的计算机辅助 翻译的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些 与前面实施例相同的部分,适当省略其说明。
本实施例的计算机辅助翻译装置1000包括:查找单元(searching unit) 1001,用于为待翻译的第一语种的句子,在进行了对齐的双语例句库中查 找相似的第一语种的例句,其中,上述进行了对齐的双语例句库包括多对 相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息;判断 单元(determining unit)1002,用于判断上述相似的第一语种的例句与上 述待翻译的第一语种的句子的相似性是否小于一个预定阈值;组合单元 (combining unit)1003,用于当上述相似的第一语种的例句与上述待翻译 的第一语种的句子的相似性小于上述预定阈值时,利用上述进行了对齐的 双语例句库中的多个例句对的组合获得参考译文,其中上述多个例句对的 每一个的第一语种的例句包含上述待翻译的第一语种的句子的至少一个片 段;以及提示单元(indicating unit)1004,用于利用上述多个例句对的对 齐信息,提示上述待翻译的第一语种的句子中的每个片段与上述参考译文 中的相应的片段的对应关系。
优选,上述提示单元1004包括显示单元(displaying unit),用于利用 方框、下划线、不同颜色、不同字体或其组合等,分别以不同的模式显示 各个片段的对应关系,本发明对此并没有限制。
具体地,如图5所示,分别地利用模式C1显示待翻译句子中的“There is”、第一例句对的源语言句子中的“There is”、第一例句对的目标语句 子中的“有”和参考译文中的“有”,利用模式C2显示待翻译句子中的 “a red jacket”、第二例句对的源语言句子中的“a red jacket”、第二例 句对的目标语句子中的“一件红色的夹克”和参考译文中的“一件红色的 夹克”,利用模式C3显示待翻译句子中的“on the bed”、第三例句对的 源语言句子中的“on the bed”、第三例句对的目标语句子中的“在床上” 和参考译文中的“在床上”。
此外,如果例句对的源语言句子和目标语音句子比较长,那么例句对 中没有参考价值的部分没有被显示出来,例如,在图5中的第一例句对中, 只有例句的前面部分被显示出来。如果用户希望浏览整个例句或了解例句 对的对齐情况,那么使用鼠标点击例句,该例句及对齐信息被显示出来, 如图8所示。
优选,上述组合单元1003还可以包括分割单元(dividing unit)和计 算单元(calculating unit),并配置为利用动态规划算法获得上述多个例句 对的组合,具体过程与上述参考图4的实施例相同,在此不在赘述。
优选,本实施例的计算机辅助翻译装置1000还包括:翻译单元 (translating unit),用于当上述相似的第一语种的例句与上述待翻译的 第一语种的句子的相似性大于上述预定阈值,并且与上述相似的第一语种 的例句相比上述待翻译的第一语种的句子具有至少一个相同部分和至少一 个区别部分时,为上述至少一个区别部分的每一个准备相应的译文;上述 组合单元1003进一步配置为,将与上述相似的第一语种的例句对应的第二 语种的例句以及上述至少一个区别部分的每一个的译文组合,生成参考译 文;以及上述提示单元1004进一步配置为,利用上述相似的第一语种的例 句以及与其对应的第二语种的例句的对齐信息,提示上述待翻译的第一语 种的句子中的上述至少一个相同部分和/或上述至少一个区别部分的每一 个以及其在上述参考译文中对应的部分的对应关系。
优选,上述翻译单元进一步配置为从上述双语例句库中查找上述区别 部分的译文。
优选,上述提示单元1004包括显示单元(displaying unit),用于利用 方框、下划线、不同颜色、不同字体或其组合等,以一种模式显示对应的 区别部分,而以另一种模式显示对应的相同部分,本发明对此并没有限制。
具体地,如图2所示,利用第一模式C1显示在待翻译句子中的 “Mary”、相似例句对的源语言句子中的“John”、相似例句对的目标语言 句子中的“约翰”以及参考译文中的“玛丽”,利用第二模式C2显示在待 翻译句子中的“small”、相似例句对的源语言句子中的“critical”、相似例 句对的目标语言句子中的“重要”以及参考译文中的“小”,而以正常模式 显示对应的相同部分。
通过本实施例的计算机辅助翻译装置1000,利用进行了对齐的双语例 句库构造参考译文,在参考译文中不包含不需要的译文片段,并且可以在 双语例句库中找不到相似例句的情况下,利用例句组合构造参考译文,从 而提高了翻译效率。此外,对于待翻译句子、例句对和参考译文中对应的 部分,利用显示单元用同一模式显示,使用户对参考译文的组成、出处及 翻译质量一目了然。同时,用户只需关注相似例句对中与待翻译句子相关 的部分,从而进一步提高了翻译效率。
此外,本实施例的计算机辅助翻译装置1000还可以包括编辑单元 (editing unit),用于允许用户对参考译文进行编辑,例如增加、删除、 修改译文,或通过直接拖拽译文片段方便地编辑译文。当用户编辑参考译 文中的任何一部分时,其在待翻译句子、例句对中对应的部分会同时被上 述显示单元突出显示。
此外,本实施例的计算机辅助翻译装置1000还可以包括设定单元 (setting unit)和保存单元(storing unit),用于允许用户对待翻译句子 和参考译文之间的对齐信息进行设定,并可以将用户确认后的参考译文和 待翻译句子以及它们之间的对齐信息保存到上述双语例句库中,从而扩充 了上述进行了对齐的双语例句库。
以上虽然通过一些示例性的实施例详细地描述了本发明的计算机辅助 翻译的方法和计算机辅助翻译的装置,但是以上这些实施例并不是穷举的, 本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此, 本发明并不限于这些实施例,本发明的范围仅由所附权利要求为准。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈