首页 / 专利库 / 人工智能 / 候选译文 / 基于双语片段的交互式机器翻译方法

基于双语片段的交互式机器翻译方法

阅读:270发布:2020-05-23

专利汇可以提供基于双语片段的交互式机器翻译方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种基于双语 片段 的交互式 机器翻译 方法,步骤为:建立数学模型:对于每个 源语言 片段,对译员提供多个翻译选项,其中最优译文通过数学模型获得;设计译员界面:包括交互区和编辑区,交互区给出短语切分后的源语句和翻译选项,编辑区在译员完成确认并点击“翻译”按钮时,给出机器译文;解码:在译员完成交互区中双语片段的确认之后,捕获译员对每个片段fi的翻译选项的选择和源语句的当前切分结果,通过多栈解码 算法 实现基于短语的统计机器翻译 解码器 。本发明改进了交互协议,允许译员确认双语片段,给译员提供更多的线索,并给予解码器更直接的指导,减少 人机交互 过程中的人类劳动,促进交互式机器翻译效率和翻译 质量 的提升。,下面是基于双语片段的交互式机器翻译方法专利的具体信息内容。

1.一种基于双语片段的交互式机器翻译方法,其特征在于包括以下步骤:
1)建立数学模型:对于每个源语言片段,对译员提供多个翻译选项,其中最优译文通过数学模型获得;
2)设计译员界面:包括交互区和编辑区,交互区给出短语切分后的源语句和翻译选项,编辑区在译员完成确认并点击“翻译”按钮时,给出机器译文;
3)解码:在译员完成交互区中双语片段的确认之后,捕获译员对每个片段fi的翻译选项的选择和源语句的当前切分结果,通过多栈解码算法实现基于短语的统计机器翻译解码器
2.按权利要求1所述的基于双语片段的交互式机器翻译方法,其特征在于:所述数学模型通过以下公式实现:
为(1)
其中ei是译员确认的fi的正确译文,fi为第i个源语言片段,t为候选译文,N为双语片段数量,i为双语片段序号,P为候选译文的翻译概率,S为源语句。
3.按权利要求1所述的基于双语片段的交互式机器翻译方法,其特征在于:译员界面还具有三个辅助功能,即片段拆分-合并、翻译选项重排序以及后缀预测,其中片段拆分-合并是在每个片段上方,设置两种双向箭头,一种双向向外指示的箭头为拆分箭头,将片段拆分为两个较短的片段;另一种双向向内指示的箭头是合并箭头,将当前片段和当前片段的下一个片段合并为一个较长的片段。
4.按权利要求3所述的基于双语片段的交互式机器翻译方法,其特征在于:如果短语表中不存在更短或更长的片段,那么两种双向箭头不出现;否则如果短语表中存在更短或更长的片段,当鼠标置于片段上方时,箭头出现。
5.按权利要求3所述的基于双语片段的交互式机器翻译方法,其特征在于所述翻译选项重排序为:译员在开始翻译之前选择默认模式或重新排序模式;当产生新片段时,其翻译选项也随之改变,默认情况下,片段的选项按短语表中的顺序排列和显示;选择重新排序模式时,短语表中排名最高的N个翻译选项被重新排序,以产生一个新的选项列表。
6.按权利要求5所述的基于双语片段的交互式机器翻译方法,其特征在于重新排序为:
对于每个源语言短语p,设置一个新的选项列表T,首先将原始短语表中分数最高的选项加入T中,然后遍历余下的N-1个选项,找到与T中选项具有最高多样性的选项,加入T中,重复上述两个过程,直至N个选项都被重排序完毕;翻译选项ta和tb之间的多样性由以下公式进行计算:
其中c(ta,tb)是翻译选项ta和翻译选项tb之间重复单词的个数,a和b为翻译选项的序号。
7.按权利要求5所述的基于双语片段的交互式机器翻译方法,其特征在于后缀预测为:
在编辑区,译员点击“预测”按钮,从系统中获得预测的后缀;点击按钮时,光标的当前位置被记录,光标前的字符被作为前缀;经过确认的双语片段和前缀都被作为约束条件,来寻找最优后缀;当生成一个新后缀时,替换当前后缀。
8.按权利要求7所述的基于双语片段的交互式机器翻译方法,其特征在于:如果解码器没有找到任何相符的候选译文,则后缀不会被更改。
9.按权利要求1所述的基于双语片段的交互式机器翻译方法,其特征在于所述解码包括以下过程:
构造一个集合作为解码的约束:
C={S,,...,}    (3)
其中pi是片段fi在源语句中的位置;fi代表各个片段,S是译员对每个片段fi的翻译选项的选择和源语句的当前切分结果,ei是译员确认的fi的正确译文;N为双语片段数量。
将S作为源语句在解码过程中的唯一切分结果;
每个源语言短语即片段的翻译选项由进行限制,只有包含ei的翻译选项会被保留,并参与以后的解码过程。
10.按权利要求9所述的基于双语片段的交互式机器翻译方法,其特征在于:译员必须点击选项,才能使这个选项与其源语言片段成为确认的双语片段,如果一个片段的任何翻译选项都未被点击过,那么这个片段及其选项不能作为解码约束。

说明书全文

基于双语片段的交互式机器翻译方法

技术领域

[0001] 本发明涉及一种自然语言翻译技术,具体为一种基于双语片段的交互式机器翻译方法。

背景技术

[0002] 统计机器翻译和神经机器翻译技术使机器翻译系统的性能得到了很大改善。但是,在很多有较高质量要求的任务中,机器翻译的输出质量仍然不够,而必须由人类译员在后编辑过程中进行修改才可以使用。
[0003] 为了增强人机协作,Foster提出了交互式机器翻译技术。在交互式机器翻译系统中,反复进行一种修改-预测过程。首先,交互式机器翻译系统提供一个初始译文。然后,译员确认其中的最长正确前缀,并修改下一个单词。接下来,系统预测一个被期待比先前更好的新后缀。这个过程不断重复,直到获得正确译文。
[0004] 最近,这种自左向右的协议(即上段所述的交互过程)被扩展,以使人机交互更为灵活。在扩展的协议中,译员可以确认应被保留在译文中的片段。但是,该协议仍然存在三个问题:第一,被确认片段的位置是未知的,所以搜索过程只能以一种软约束的形式被优化;第二,译员的确认被限制在系统提供的译文上,而无法获得关于其它翻译选项的线索;第三,从错误译文中识别正确片段往往需要很多的认知劳动,特别是译文质量较低的时候。

发明内容

[0005] 针对现有技术中存在的上述问题,本发明要解决的问题是提供一种可给译员提供更多的线索、给予解码器更直接的指导的基于双语片段的交互式机器翻译方法。
[0006] 为解决上述技术问题,本发明采用的技术方案是:
[0007] 本发明一种基于双语片段的交互式机器翻译方法,包括以下步骤:
[0008] 1)建立数学模型:对于每个源语言片段,对译员提供多个翻译选项,其中最优译文通过数学模型获得;
[0009] 2)设计译员界面:包括交互区和编辑区,交互区给出短语切分后的源语句和翻译选项,编辑区在译员完成确认并点击“翻译”按钮时,给出机器译文;
[0010] 3)解码:在译员完成交互区中双语片段的确认之后,捕获译员对每个片段fi的翻译选项的选择和源语句的当前切分结果,通过多栈解码算法实现基于短语的统计机器翻译解码器。
[0011] 所述数学模型通过以下公式实现:
[0012]
[0013] 其中ei是译员确认的fi的正确译文,fi为第i个源语言片段,t为候选译文,N为双语片段数量,i为双语片段序号,P为候选译文的翻译概率,S为源语句。
[0014] 译员界面还具有三个辅助功能,即片段拆分-合并、翻译选项重排序以及后缀预测,其中片段拆分-合并是在每个片段上方,设置两种双向箭头,一种双向向外指示的箭头为拆分箭头,将片段拆分为两个较短的片段;另一种双向向内指示的箭头是合并箭头,将当前片段和当前片段的下一个片段合并为一个较长的片段。
[0015] 如果短语表中不存在更短或更长的片段,那么两种双向箭头不出现;否则如果短语表中存在更短或更长的片段,当鼠标置于片段上方时,箭头出现。
[0016] 所述翻译选项重排序为:译员在开始翻译之前选择默认模式或重新排序模式;当产生新片段时,其翻译选项也随之改变,默认情况下,片段的选项按短语表中的顺序排列和显示;选择重新排序模式时,短语表中排名最高的N个翻译选项被重新排序,以产生一个新的选项列表。
[0017] 重新排序为:
[0018] 对于每个源语言短语p,设置一个新的选项列表T,首先将原始短语表中分数最高的选项加入T中,然后遍历余下的N-1个选项,找到与T中选项具有最高多样性的选项,加入T中,重复上述两个过程,直至N个选项都被重排序完毕;翻译选项ta和tb之间的多样性由以下公式进行计算:
[0019]
[0020] 其中c(ta,tb)是翻译选项ta和翻译选项tb之间重复单词的个数,a和b为翻译选项的序号。
[0021] 后缀预测为:在编辑区,译员点击“预测”按钮,从系统中获得预测的后缀;点击按钮时,光标的当前位置被记录,光标前的字符被作为前缀;经过确认的双语片段和前缀都被作为约束条件,来寻找最优后缀;当生成一个新后缀时,替换当前后缀。
[0022] 如果解码器没有找到任何相符的候选译文,则后缀不会被更改。
[0023] 所述解码包括以下过程:
[0024] 构造一个集合作为解码的约束:
[0025] C={S,,...,}   (3)
[0026] 其中pi是片段fi在源语句中的位置;fi代表各个片段,S是译员对每个片段fi的翻译选项的选择和源语句的当前切分结果,ei是译员确认的fi的正确译文;N为双语片段数量。
[0027] 将S作为源语句在解码过程中的唯一切分结果;
[0028] 每个源语言短语即片段的翻译选项由进行限制,只有包含ei的翻译选项会被保留,并参与以后的解码过程。
[0029] 译员必须点击选项,才能使这个选项与其源语言片段成为确认的双语片段,如果一个片段的任何翻译选项都未被点击过,那么这个片段及其选项不能作为解码约束。
[0030] 本发明具有以下有益效果及优点:
[0031] 1.本发明改进了交互协议,允许译员确认双语片段,给译员提供更多的线索,并给予解码器更直接的指导,减少人机交互过程中的人类劳动,促进交互式机器翻译效率和翻译质量的提升,确认双语片段比从错误的译文中识别正确的片段更容易。
[0032] 2.本发明还设计了一个面向真实译员的界面,允许译员拆分和合并切分后的短语,并提供了增加翻译选项多样性的重排序方法,这些都有助于提高真实场景中的交互式翻译效率。真实译员的实验结果表明,在三个汉英翻译任务上,新协议提高了交互式机器翻译的效率和质量。附图说明
[0033] 图1为本发明基于双语片段的交互式机器翻译协议实例图;
[0034] 图2为本发明基于双语片段的交互式机器翻译系统的译员界面图。

具体实施方式

[0035] 下面结合说明书附图对本发明作进一步阐述。
[0036] 针对交互式机器翻译中存在的问题,本发明改进了交互协议,允许译员确认双语片段,给译员提供更多的线索,并给予解码器更直接的指导,减少人机交互过程中的人类劳动,促进交互式机器翻译效率和翻译质量的提升。
[0037] 本发明一种基于双语片段的交互式机器翻译方法包括以下步骤:
[0038] 1)建立数学模型:对于每个源语言片段,对译员提供多个翻译选项,其中最优译文通过数学模型获得;
[0039] 2)设计译员界面:包括交互区和编辑区,交互区给出短语切分后的源语句和翻译选项,编辑区在译员完成确认并点击“翻译”按钮时,给出机器译文;
[0040] 3)解码:在译员完成交互区中双语片段的确认之后,捕获译员对每个片段fi的翻译选项的选择和源语句的当前切分结果,通过多栈解码算法实现基于短语的统计机器翻译解码器。
[0041] 步骤1)中,源语言片段与它们的目标语言对应片段对齐。对于每个源语言片段,提供了多个翻译选项。译员可以确认形如的双语片段。最优译文通过以下公式获得:
[0042]
[0043] 其中ei是译员确认的fi的正确译文,fi代表各个片段;,t为候选译文,N为双语片段数量,i为双语片段序号,P为候选译文的翻译概率,S为源语句。
[0044] 在公式(1)中,搜索空间是与这些双语片段相符的翻译假设。
[0045] 如图1所示,给出了新协议的一个例子。译员确认了三个双语片段(即图中的带框部分),而后解码器给出了一个更好的译文;然后,译员输入一个前缀“A”,并再次解码,就得到了正确译文IT-2。
[0046] 步骤2)中,本发明采用了如图2所示的译员界面。该界面由两个区域组成,一个是交互区,其中给出了短语切分后的源语句和翻译选项,片段和选项左对齐。当鼠标置于一个源语言片段上时,会显示一个带有K-best翻译选项的菜单,译员可以点击确认最优选项;另一个是编辑区,在译员完成确认并点击“翻译”按钮时,给出机器译文。这里译员可以随意进行修改,直至接受译文。交互过程和编辑过程可以交替进行。
[0047] 基于短语的统计机器翻译的一个突出特点是较长短语的译文的提取。以较长短语作为基本的翻译单位,能有效地缓解词语消歧问题,取得良好效果。因此,在界面中优先显示较长的片段和它们的译文,并采用正向最大匹配算法,用短语表对源语句进行初始切分。显示的翻译选项是短语表中排名最高的K个选项。
[0048] 译员界面还提供了三个辅助功能:片段拆分-合并、翻译选项重排序和后缀预测。
[0049] a.片段拆分-合并
[0050] 片段拆分-合并是在每个片段上方,设置两种双向箭头,一种双向向外指示的箭头为拆分箭头,将片段拆分为两个较短的片段;另一种双向向内指示的箭头是合并箭头,将当前片段和当前片段的下一个片段合并为一个较长的片段。
[0051] 如果短语表中不存在更短或更长的片段,那么箭头不出现。否则当鼠标置于片段上方时,箭头将会出现。一旦产生了新片段,其翻译选项也随之改变。
[0052] b.翻译选项重排序
[0053] 默认情况下,片段的选项按短语表中的顺序排列和显示。然而,得分最高的选项有时非常相似。因此本发明提供了另一种模式,增加了选项的多样性。译员可以在开始翻译之前选择默认模式或重新排序模式。
[0054] 在这个模式下,短语表中排名最高的N个翻译选项被重新排序,以产生一个新的选项列表。对于每个源语言短语p,设置一个新的选项列表T(初始为空)。首先,将原始短语表中分数最高的选项加入T中。然后,遍历余下的N-1个选项,找到与T中选项具有最高多样性的选项,加入T中。重复该过程,直至N个选项都被重排序完毕。翻译选项ta和tb之间的多样性由以下公式进行计算:
[0055]
[0056] 其中c(ta,tb)是ta和tb之间重复单词(词形还原后)的个数,a和b为翻译选项的序号。
[0057] c.后缀预测
[0058] 对于后缀预测的辅助功能,需要在解码器中再增加一个约束,即翻译假设必须匹配给定的前缀tp。
[0059] 在编辑区,译员可以点击“预测”按钮,从系统中获得预测的后缀。点击按钮时,光标的当前位置被记录,光标前的字符被作为前缀。经过确认的双语片段和前缀都被作为约束条件,来寻找最优后缀。一旦生成一个新后缀,它将替换当前后缀。如果解码器没有找到任何相符的假设,则后缀不会被更改。
[0060] 步骤3)中,解码过程为:
[0061] 在译员完成交互区中双语片段的确认之后,系统捕获译员对每个片段fi的翻译选项的选择和源语句的当前切分结果S。构造一个集合作为解码的约束:
[0062] C={S,,...,}   (3)
[0063] 其中pi是片段fi在源语句中的位置;fi代表各个片段,S是译员对每个片段fi的翻译选项的选择和源语句的当前切分结果,ei是译员确认的fi的正确译文;
[0064] 将S作为源语句在解码过程中的唯一切分结果;
[0065] 每个源语言短语即片段的翻译选项由进行限制,只有包含ei的翻译选项会被保留,并参与以后的解码过程。
[0066] 记录pi是为了避免一个片段多次出现时造成的歧义。译员必须点击选项,才能使这个选项与其源语言片段成为确认的双语片段。如果一个片段的任何翻译选项都未被点击过,那么这个片段及其选项不能作为解码约束。
[0067] 表1给出了一个真实的交互式机器翻译对比实例。
[0068] 表1.交互式机器翻译协议对比实例
[0069]
[0070]
[0071] 本实施例中,基于前缀的协议经历了6次解码,包括2次时态变化(“study”和“consider”)、1次漏词追加(“functions”)和1次词序调整(“of”)。相比之下,本发明协议在确认双语片段后只进行了两次解码,并且内容词的正确翻译选项全部显示在列表中。译员可以直接点击它们进行确认。
[0072] (1)数据设置
[0073] 本发明用真实译员测试了三种不同的汉英翻译任务。“法律”是LDC2000T47语料库的法律文本。“议会记录”是LDC2000T50语料库的议会记录文本。“新闻”是LDC2000T46语料库的新闻文本。表2给出了这些语料库的主要信息(S、T和V分别表示句子数、单词数和词汇表的大小。K和M分别代表千和万)。
[0074] 表2.测试语料的主要信息
[0075]
[0076] 这些数据的中文部分用ICTCLAS分词工具进行了预处理,英文部分被标记化和小写化。用GIZA++训练了词对齐模型,用IRSTLM训练了5-gram语言模型,用Moses构建了基于短语的统计机器翻译模型,其中包括14个默认特征,用MERT来调整特征权重。
[0077] 实验中评估了三个交互式机器翻译系统。Baseline是基于前缀的系统,BiSeg是无选项重排序功能的系统,BiSeg+D是带有选项重排序功能的系统。在译员界面中,显示的翻译选项的数量设置为10,重排序的翻译选项的数量设置为20。
[0078] (2)评价指标
[0079] 在交互式机器翻译领域,由于真实译员的实验代价较高,所以主要采用自动评估指标来评估原型系统。在这些指标中,译员行为是模拟的,而不是交互过程中的真实译员行为。但是,对交互式机器翻译系统的直接评估仍然需要真实译员进行实验。本发明从效率和质量两个方面对交互式机器翻译系统的性能进行真实译员的评估。用三个指标对翻译效率进行评价:翻译时间、键盘敲击和鼠标行为比率(KSMR)和解码次数。
[0080] 翻译质量用BLEU值评价,以原始双语语料中的英文部分作为参考译文,评价译员的翻译质量。译员接受的最终译文都是正确的,尽管与参考译文并不完全相同。
[0081] (3)参与者和过程
[0082] 9名研究生(6名女性)自愿作为非职业译员参加实验。他们都是以汉语为母语的人,精通英语。本实施例将参与者随机分为3组(G1~G3),每组3人。每个语料库的测试集随机分为3个部分(C1~C3),每部分有25个句子。评价以表3所示的平衡方式进行。
[0083] 表3.翻译任务排列
[0084]
[0085]
[0086] (4)结果和分析
[0087] 表4给出了测试语料库上三个译员组的平均时间。括号内的数字是本发明系统和基线系统之间的相对差。
[0088] 表4.不同的交互式机器翻译系统的翻译时间
[0089]
[0090] 可以看出,本发明系统的翻译时间显著低于基线系统。这表明人类劳动显著减少。翻译选项多样性可以进一步减少人类劳动。
[0091] 表5给出了三个语料上的KSMR值。
[0092] 表5.不同的交互式机器翻译系统的KSMR值
[0093]
[0094] 可以看出,本发明系统的KSMR值显著高于基线系统。但是,这些鼠标行为并不需要花费太多的思考和行动时间,所以它们对翻译效率的影响很小。
[0095] 表6给出了三个语料上的评价解码次数。
[0096] 表6.不同的交互式机器翻译系统的解码次数
[0097]
[0098]
[0099] 表6显示,新协议中解码次数显著减少。
[0100] 表7给出了三个语料上的翻译质量(BLEU值)。
[0101] 表7.不同的交互式机器翻译系统的翻译质量
[0102]
[0103] 结果表明,本发明系统的翻译质量好于基线系统。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈