首页 / 专利库 / 人工智能 / 候选译文 / 面向计算机辅助翻译的输入方法与装置

面向计算机辅助翻译的输入方法与装置

阅读:657发布:2020-05-25

专利汇可以提供面向计算机辅助翻译的输入方法与装置专利检索,专利查询,专利分析的服务。并且本 发明 是一种面向 计算机辅助翻译 的输入方法,包括步骤S1:对 源语言 句子进行分词;步骤S2:获得分词后的源语言句子对应的 机器翻译 译文候选列表和最优机器翻译译义候选;获得多元文法提示短语;步骤S3:响应按键选择多元文法提示短语或者接收输入按键序列,获得输入法短语候选;步骤S4:响应用户按键选择多元文法提示短语或者输入法短语候选后,获得多元文法提示短语,重复步骤S3,直到用户完成录入源语言句子的译文。本发明还提供面向计算机辅助翻译的输入装置,该装置包括:分词模 块 、翻译模块、第一生成模块、第二生成模块、输入装置界面。本发明充分利用机器翻译知识,能使按键节省率至少上升11.04%,大幅提升人工翻译的效率。,下面是面向计算机辅助翻译的输入方法与装置专利的具体信息内容。

1.一种面向计算机辅助翻译的输入方法,包括以下步骤:
步骤S1:对源语言句子进行分词;
步骤S2:利用机器翻译引擎,得到分词后的所述源语言句子对应的机器翻译译文候选列表,并将其中打分最高的机器翻译译文候选作为最优机器翻译译文输出到输入装置界面;利用所述最优机器翻译译文的前N个词生成初始的N个多元文法提示短语,并输出到输入装置界面,等待用户按键选择;其中,所述N个多元文法提示短语是连续多个词组成的提示短语,所述提示短语包括:第一个提示短语为一元文法,只包含一个词;第二个提示短语为二元文法,包含两个词,所述两个词含有第一个提示短语的词和第二个提示词,且第一个提示短语的词是第二个提示短语的前缀;以此类推,第N-1个提示短语的所有词是第N个提示短语的前缀,第N个提示短语为N元文法包含N个词;
步骤S3:对用户按键选择的多元文法提示短语进行响应,或者接收用户的输入按键序列;利用对数线性模型,对所述机器翻译译文候选列表和输入按键序列计算,生成M个输入法短语候选并输出到输入装置界面,等待用户按键选择;
步骤S4:对用户按键选择的所述输入法短语候选进行响应,或者接收用户的输入按键序列,判断用户是否已经完成录入源语言句子的译文,如果是则结束,如果否则利用已录入译文部分和所述机器翻译译文候选列表进行最大前缀匹配生成更新后的N个多元文法提示短语,输出到输入装置界面,等待用户按键选择,并跳转到步骤S3;
其中,N、M为预先设定的正整数。
2.根据权利要求1所述的面向计算机辅助翻译的输入方法,其特征在于,所述利用对数线性模型,对机器翻译译文候选列表和输入按键序列计算,生成M个输入法短语候选,包括以下步骤:
步骤S31:对输入按键序列进行分字,得到分字后的输入按键序列;所述分字后的输入按键序列由分字符隔开的编码单元组成,每个编码单元是对应字的文字输入法编码的全部或者文字输入法编码的前缀;
步骤S32:将输入法短语候选列表初始化为空,对所述分字后的输入按键序列中每一个编码单元依次进行如下计算:
根据文字输入法编码规则,对所述编码单元计算得到目标字候选集合;
利用解码算法对所述目标字候选集合、输入法短语候选列表和机器翻译译文候选列表计算,得到新的输入法短语候选列表;
利用对数线性模型对所述新的输入法短语候选列表中的每一个输入法短语候选进行打分并按降序排列;如果所述新的输入法短语候选列表的长度超过设定的阈值M时,仅保留前M个打分最高的输入法短语候选;每个输入法短语候选包含的目标字候选的数目等于已解码的编码单元数目,每个输入法短语候选包含的目标字有效候选的顺序与已解码的编码单元顺序一致;
用所述新的输入法短语候选列表替代所述输入法短语候选列表;
步骤S33:完成所述分字后的输入按键序列中所有编码单元的计算之后,所述输入法短语候选列表的长度为M,并按打分降序排列,其中M为预先设定的大于零的正整数。
3.根据权利要求2所述的面向计算机辅助翻译的输入方法,其特征在于,所述对数线性模型使用的特征包括:
(1)打字模型概率;
(2)语言模型概率;
(3)输入法短语候选中的词的出现概率;
(4)输入法短语候选出现概率;
(5)输入法短语候选中的词是否在机器翻译译文候选中的二值特征;
(6)输入法短语候选是否在机器翻译译文候选中的二值特征;
(7)输入法短语候选是否在用户术语库中的二值特征。
4.根据权利要求1所述的面向计算机辅助翻译的输入方法,其特征在于,所述利用已录入译文部分和所述机器翻译译文候选列表进行最大前缀匹配生成更新后的N个多元文法提示短语的步骤,具体包括以下步骤:
步骤S41:响应用户按键选择多元文法提示短语或者输入法短语候选后,对已录入译文部分进行分词得到分词后的已录入译文部分;
步骤S42:如果所述最优机器翻译译文包含分词后的已录入译文部分的最后一个词,则利用最大前缀匹配算法,对最优机器翻译译文候选和分词后的已录入译文部分计算,生成更新后的N个多元文法提示短语;
步骤S43:如果所述最优机器翻译译文不包含分词后的已录入译文部分的最后一个词,则在机器翻译译文候选列表中选择所有包含分词后的已录入译文部分的最后一个词的机器翻译译文候选,得到次优机器翻译译文候选列表,并将其中打分最高的机器翻译译文候选作为次优机器翻译译文;利用前缀匹配算法,对次优机器翻译译文候选和分词后的已录入译文部分计算,生成更新后的N个多元文法提示短语。
5.一种使用权利要求1所述的面向计算机辅助翻译的输入方法的面向计算机辅助翻译的输入装置,其特征在于,该装置包括:分词模、翻译模块、第一生成模块、第二生成模块、输入装置界面,其中:
分词模块,用于将源语言句子和已录入译文部分生成并输出分词后的源语言句子和分词后的已录入译文部分;
翻译模块与分词模块连接,利用机器翻译引擎,得到分词后的所述源语言句子对应的机器翻译译文候选列表,并将其中打分最高的机器翻译译文候选作为最优机器翻译译文输出到输入装置界面的模块;
第一生成模块与翻译模块、输入装置界面连接,用于对机器翻译译文候选列表和输入按键序列计算,利用对数线性模型,生成M个输入法短语候选并输出到输入装置界面;
第二生成模块与翻译模块、输入装置界面连接,用于对已录入译文部分和机器翻译译文候选列表计算,进行最大前缀匹配生成更新后的N个多元文法提示短语并输出到输入装置界面;
输入装置界面,用于显示最优机器翻译译文、输入法短语候选和多元文法提示短语,并接收用户按键选择命令和输入按键序列,录入源语言句子的译文。
6.一种面向计算机辅助翻译的输入装置,包括:
对源语言句子进行分词的装置;
利用机器翻译引擎,得到分词后的所述源语言句子对应的目标语言机器翻译译文候选列表,并将其中打分最高的机器翻译译文候选作为最优机器翻译译文输出到输入装置界面、利用所述最优机器翻译译文的前N个词生成初始的N个多元文法提示短语,并输出到输入装置界面,等待用户按键选择的装置;其中,所述N个多元文法提示短语是连续多个词组成的提示短语,所述提示短语包括:第一个提示短语为一元文法,只包含一个词;第二个提示短语为二元文法,包含两个词,所述两个词含有第一个提示短语的词和第二个提示词,且第一个提示短语的词是第二个提示短语的前缀;以此类推,第N-1个提示短语的所有词是第N个提示短语的前缀,第N个提示短语为N元文法包含N个词;
对用户按键选择的多元文法提示短语进行响应,或者接收用户的输入按键序列,利用对数线性模型对所述机器翻译译文候选列表和输入按键序列计算,生成M个输入法短语候选并输出到输入装置界面,等待用户按键选择的装置;
对用户按键选择的所述输入法短语候选进行响应,或者接收用户的输入按键序列,判断用户是否已经完成录入源语言句子的译文,如果是则结束,如果否则利用已录入译文部分和所述机器翻译译文候选列表生成更新后的N个多元文法提示短语,输出到输入装置界面,等待用户按键选择并循环执行上述响应步骤的装置;
其中,N、M为预先设定的正整数。

说明书全文

面向计算机辅助翻译的输入方法与装置

技术领域

[0001] 本发明涉及自然语言处理技术领域,更具体地,涉及一种面向计算机辅助翻译的输入方法与装置。

背景技术

[0002] 机器翻译就是用计算机来实现不同语言之间的转换。被翻译的语言通常称为源语言,翻译成的结果语言称为目标语言。机器翻译就是实现从源语言到目标语言转换的过程。
[0003] 计算机辅助翻译就是充分运用大量重复或相似的句子和片断来提高翻译人员的工作效率。它不同于机器翻译,不依赖于计算机的自动翻译,而是在人的参与下完成整个翻译过程。计算机辅助翻译使得繁重的手工翻译流程自动化,并大幅度提高了翻译效率和翻译质量
[0004] 近几年来,许多研究者尝试通过机器翻译知识来进一步提高计算机辅助翻译的效率。目前研究的热点是译后编辑,即对机器翻译系统的译文进行编辑操作以生成高质量的译文。但由于目前的机器翻译难以产生让人相对满意的译文,直接导致译员没有动仔细修改机器翻译的译文,所以译后编辑并未被广泛采用。另外,有学者曾提出基于交互式机器翻译方法的辅助翻译(例如参见Sergio Barrachinaetc.,“Statistical Approaches to Computer-Assisted Translation”,Computational Linguistics,35(1),p3-28,2009),以牺牲全自动的翻译要求而获取较高质量译文的一种翻译方法,基本思想就是在当前翻译系统翻译结果上,用户指出一些错误并提供正确翻译,然后提交给翻译系统重新解码翻译,迭代多次后满足用户要求为止。但交互式翻译方法严重干扰了人工翻译流程,并且同样耗时费力,因此这类系统主要应用在用户对目标语言的知识有限或者对目标语言知之甚少的情况下。而计算机辅助翻译的主要用户是专业译员,所以交互式翻译方法几乎从未被商业翻译系统采用。Guy Lapalme和Philippe Langlais于1997-2005年间基于交互式翻译框架实现了TransType翻译系统,在用户输入过程中实时给出后续翻译的提示。但这要求译员必须从左至右开始翻译,机器翻译根据已经输入的部分更新翻译结果以给出尽可能准确的提示。升级后的TransType2实现了三种语言对的翻译,即英语→西班牙语、英语→法语、英语→德语,但因难于结合人工翻译的流程,TransType2这种交互方式并没有被其他系统采用。因此,研究如何结合机器翻译知识以进一步提高翻译效率和翻译质量是迫切需要解决的一个难题。

发明内容

[0005] 针对上述技术问题,本发明的主要目的在于提出一种面向计算机辅助翻译的输入方法与装置,以在输入过程中能够充分利用机器翻译知识来提高翻译效率和翻译质量。
[0006] 为了实现所述目的,作为本发明的一个方面,本发明提供了一种面向计算机辅助翻译的输入方法,包括如下步骤:
[0007] 步骤S1:对源语言句子进行分词;
[0008] 步骤S2:利用机器翻译引擎,得到分词后的所述源语言句子对应的机器翻译译文候选列表,并将其中打分最高的机器翻译译文候选作为最优机器翻译译文输出到输入装置界面;利用所述最优机器翻译译文的前N个词生成N个多元文法提示短语,并输出到输入装置界面,等待用户按键选择;
[0009] 步骤S3:对用户按键选择的多元文法提示短语进行响应,或者接收用户的输入按键序列;利用对数线性模型,对所述机器翻译译文候选列表和输入按键序列计算,生成M个输入法短语候选并输出到输入装置界面,等待用户按键选择;
[0010] 步骤S4:对用户按键选择的所述输入法短语候选进行响应,或者接收用户的输入按键序列,判断用户是否已经完成录入源语言句子的译文,如果是则结束,如果否则利用已录入译文部分和所述机器翻译译文候选列表生成N个多元文法提示短语,输出到输入装置界面,等待用户按键选择,并跳转到步骤S3;
[0011] 其中,N、M为正整数。
[0012] 其中,所述多元文法提示短语包括:第一个提示短语为一元文法,只包含一个词;第二个提示短语为二元文法,包含两个词,所述两个词含有第一个提示短语的词和第二个提示词,且第一个提示短语的词是第二个提示短语的前缀;以此类推,第N-1个提示短语的所有词是第N个提示短语的前缀,第N个提示短语为N元文法包含N个词,其中N为预先设定的大于零的正整数,缺省值为4。
[0013] 在步骤S3中还包括下列步骤:
[0014] 步骤S31:对输入按键序列进行分字,得到分字后的输入按键序列;所述分字后的输入按键序列由分字符隔开的编码单元组成,每个编码单元是对应字的文字输入法编码的全部或者文字输入法编码的前缀;
[0015] 步骤S32:将输入法短语候选列表初始化为空,对所述分字后的输入按键序列中每一个编码单元依次进行如下计算:
[0016] 根据文字输入法编码规则,对所述编码单元计算得到目标字候选集合;
[0017] 利用解码算法对所述目标字候选集合、输入法短语候选列表和机器翻译译文候选列表计算,得到新的输入法短语候选列表;
[0018] 利用对数线性模型对所述新的输入法短语候选列表中的每一个输入法短语候选进行打分并按降序排列;如果所述新的输入法短语候选列表的长度超过设定的阈值M时,仅保留前M个打分最高的输入法短语候选;每个输入法短语候选包含的目标字候选的数目等于已解码的编码单元数目,每个输入法短语候选包含的目标字有效候选的顺序与已解码的编码单元顺序一致;
[0019] 用所述新的输入法短语候选列表替代所述输入法短语候选列表。
[0020] 其中,所述对数线性模型使用的特征包括:
[0021] (1)打字模型概率;
[0022] (2)语言模型概率;
[0023] (3)输入法短语候选中的词的出现概率;
[0024] (4)输入法短语候选出现概率;
[0025] (5)输入法短语候选中的词是否在机器翻译译文候选中的二值特征;
[0026] (6)输入法短语候选是否在机器翻译译文候选中的二值特征;
[0027] (7)输入法短语候选是否在用户术语库中的二值特征。
[0028] 步骤S33:完成所述分字后的输入按键序列中所有编码单元的计算之后,所述输入法短语候选列表的长度为M,并按打分降序排列,其中M为预先设定的大于零的正整数,缺省值为5。
[0029] 在步骤S4中还包括下列步骤:
[0030] 步骤S41:响应用户按键选择多元文法提示短语或者输入法短语候选后,对已录入译文部分进行分词得到分词后的已录入译文部分;
[0031] 步骤S42:如果所述最优机器翻译译文包含分词后的已录入译文部分的最后一个词,则利用最大前缀匹配算法,对最优机器翻译译文候选和分词后的已录入译文部分计算,生成N个多元文法提示短语;
[0032] 步骤S43:如果所述最优机器翻译译文不包含分词后的已录入译文部分的最后一个词,则在机器翻译译文候选列表中选择所有包含分词后的已录入译文部分的最后一个词的机器翻译译文候选,得到次优机器翻译译文候选列表,并将其中打分最高的机器翻译译文候选作为次优机器翻译译文;利用前缀匹配算法,对次优机器翻译译文候选和分词后的已录入译文部分计算,生成N个多元文法提示短语。
[0033] 作为本发明的另一个方面,本发明还提出了一种面向计算机辅助翻译的输入装置,该装置包括:分词模、翻译模块、第一生成模块、第二生成模块、输入装置界面,其中:
[0034] 分词模块,用于将源语言句子和已录入译文部分生成并输出分词后的源语言句子和分词后的已录入译文部分;
[0035] 翻译模块与分词模块连接,利用机器翻译引擎,得到分词后的所述源语言句子对应的机器翻译译文候选列表,并将其中打分最高的机器翻译译文候选作为最优机器翻译译文输出到输入装置界面的模块;
[0036] 第一生成模块与翻译模块、输入装置界面连接,用于对机器翻译译文候选列表和输入按键序列计算,利用对数线性模型,生成M个输入法短语候选并输出到输入装置界面;
[0037] 第二生成模块与翻译模块、输入装置界面连接,用于对已录入译文部分和机器翻译译文候选列表计算,生成N个多元文法提示短语并输出到输入装置界面;
[0038] 输入装置界面,用于显示最优机器翻译译文、输入法短语候选和多元文法提示短语,并接收用户按键选择命令和输入按键序列,录入源语言句子的译文。
[0039] 作为本发明的再一个方面,本发明还提出了一种面向计算机辅助翻译的输入装置,包括:
[0040] 对源语言句子进行分词的装置;
[0041] 利用机器翻译引擎,得到分词后的所述源语言句子对应的目标语言机器翻译译文候选列表,将其中打分最高的机器翻译译文候选生成短语候选列表,并输出到输入装置界面的装置;
[0042] 接收到用户输入的按键序列之后,利用对数线性模型,结合机器翻译译文候选列表,实时动态调整所述短语候选列表并输出到所述输入装置界面的装置;
[0043] 响应用户按键选择,直到用户完成源语言句子翻译的装置。
[0044] 其中,所述输入装置还包括:
[0045] 当用户录入一个短语后结合机器翻译候选列表得到N元文法提示的装置;以及
[0046] 在输入法界面显示所述N元文法提示,供用户选择的装置。
[0047] 通过上述技术方案可知,本发明的方法和装置具有如下的积极效果:
[0048] (1)由于输入法直接影响到翻译效率,将机器翻译知识和面向计算机辅助翻译的输入方法融入到文字输入法中,能够顺利突破现有交互方式(如译后编辑、交互式机器翻译)的局限性,从而在不影响用户体验的前提下,更快捷的输入方法必能进一步提高译员的翻译效率和翻译质量;
[0049] (2)本发明能够有效利用机器翻译知识,在使用含有机器翻译的计算机辅助翻译工具过程中,在不干扰正常翻译流程的前提下,自动有效减少敲键数。通过英中政治新闻翻译实验,结果表明,相对于谷歌拼音输入法,单就容易量化的敲键数这一指标,本发明至少使按键节省率上升了11.04%,相当于工作效率至少提高了11.04%。如果将机器翻译译文帮助译员更快的组织最终译文的作用计算在内,效率提升则更为明显。附图说明
[0050] 图1是本发明的面向计算机辅助翻译的输入方法和装置的整体框架图;
[0051] 图2是本发明的面向计算机辅助翻译的输入方法和装置细化后的整体框架图;
[0052] 图3是本发明方法和装置嵌入到计算机辅助翻译平台后的示意图;
[0053] 图4是禁用多元文法提示短语与启用多元文法提示短语两种情况的输入按键序列对比示意图;
[0054] 图5是本发明结合机器翻译知识后对输入按键序列解码的一个实例;

具体实施方式

[0055] 为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
[0056] 本发明所有代码实现都是用Java和Apache Flex编程语言完成,后台为Java编程语言,容器为Tomcat,输入法前台用Apache Flex编程语言完成,开发平台为Ubuntu 12.04和Windows 7,但不限于此,这些并不是对本发明的限制;由于所写程序没有用到任何平台相关的代码,因此所述的系统实现也可以运行于其他版本的操作系统上。本输入方法为面向计算机辅助翻译,与文字输入法融合的输入方法、非通用文字输入法。具体的计算机辅助翻译软件、机器翻译引擎、文字输入法均不受限。所述文字输入法可以是五笔输入法、拼音输入法等各种文字输入法。
[0057] 本发明的基本思想是恰当地利用机器翻译知识,提出一种面向计算机辅助翻译的输入方法,以提高译员的翻译质量和翻译效率。本发明的系统框架图如图1所示。图1中:分词模块接收源语言句子,输出分词后的源语言句子到翻译模块;分词模块接收人工译文已录入部分,输出分词后的人工译文已录入部分到第二生成模块;翻译模块与分词模块、第二生成模块连接,输出分词后的源语言句子对应的机器翻译译文候选列表到第一生成模块;第一生成模块与翻译模块、输入装置界面连接,接收用户的输入按键序列、机器翻译译文候选列表,生成并输出输入法短语候选到输入装置界面;第二生成模块与分词模块、翻译模块连接,接收分词后的人工译文已录入部分和机器翻译译文候选列表,生成并输出多元文法提示短语到输入装置界面;输入装置界面直接与用户交互,用于显示最优机器翻译译文、输入法短语候选和多元文法提示短语,并接收用户按键选择命令和输入按键序列,录入源语言句子的译文。
[0058] 图3给出了本发明的一个实例(假定文字输入法为拼音输入法)嵌入计算机辅助软件后的示意图。图3主要分为A、B左右两块区域。A区域为机器翻译译文候选列表供用户参考,用户可以设置显示机器翻译译文候选的个数。B区域为本发明主要作用区域。当用户刚开始录入译文或者有多元文法提示短语可用时,用户可以通过回车键或者数字键5到8选择对应的提示,如区域B1所示。在区域B2中,当没有多元文法提示短语可用时,机器翻译仍然能通过本发明帮助用户提高效率:优先将机器翻译译文候选列表中的词赋予较高的分值,如“fl”对应的“福利”直接排首位,避免了选词的麻烦。因此,本发明不仅可以显式地通过多元文法提示短语加快翻译效率,还可以隐式地通过实时调整输入法候选短语的排列顺序来加快翻译效率。与其他机器翻译交互方法不同的是,如果把A区域的机器翻译设置为不可见状态,即用户完全不用理会机器翻译结果,本发明依然能帮助用户提高翻译效率。
[0059] 本发明提出了一种面向计算机辅助翻译的输入方法。下面我们以拼音输入法替代所述文字输入法,以英语到汉语翻译任务作为实施例,并结合如下示例来详细阐述本发明的原理与实现方法。
[0060] 假设源语言句子S:
[0061] China mulls change to officials’welfare system
[0062] 机器翻译译文候选之一MT:
[0063] 中国 考虑 改变 才能 官员 福利 制度
[0064] 对应的人工译文HT:
[0065] 中国 考虑 改革 公务员 福利 制度
[0066] 1、对源语言句子和已录入译文部分进行分词。具体实施方式如下:
[0067] 在本例中,对英语和汉语进行分词的方法有很多种。在本发明的实施例中我们以开源的分词工具Urheen对英语和汉语进行分词。所述Urheen也可以对其它语言进行分词,如日语等,可以在以下网址免费下载:
[0068] http://www.openpr.org.cn/index.php/zh/NLP-Toolkit-For-Natural-Langua ge-Processing/68-Urheen-A-Chinese/English-Lexical-Analysis-Toolkit/View-d etails.html
[0069] 在示例中,机器翻译译文候选和人工译文均已自动分词,并用空格隔开相邻词。
[0070] 2、利用机器翻译引擎,得到分词后的所述源语言句子对应的机器翻译译文候选列表,并将其中打分最高的机器翻译译文候选作为最优机器翻译译文输出到输入装置界面;利用所述最优机器翻译译文的前N个词生成N个多元文法提示短语,并输出到输入装置界面,等待用户按键选择。
[0071] (1)得到机器翻译译文候选列表。
[0072] 从所述步骤1得到分词后的源语言句子之后,就可以通过机器翻译引擎得到机器翻译译文候选列表,即n-best列表。将n-best列表中打分最高的机器翻译译文候选作为最优机器翻译译文并输出到输入装置界面,供用户参考,等待用户录入人工翻译译文。这里的机器翻译引擎可以是任何翻译引擎,如著名的开源翻译引擎Moses,可以在以下网址免费下载:
[0073] http://www.statmt.org/moses/?n=Moses.Releases
[0074] 所述Moses拥有比较完善的文档,根据这些文档可以轻松地部署翻译服务器
[0075] (2)利用所述最优机器翻译译文的前N个词生成N个多元文法提示短语。
[0076] 所述N个多元文法提示短语由连续多个词组成,所述多元文法提示短语包括:第一个提示短语为一元文法,只包含一个词;第二个提示短语为二元文法,包含两个词,所述两个词含有第一个提示短语的词和第二个提示词,且第一个提示短语是第二个提示短语的前缀;以此类推,第N-1个提示短语的所有词是第N个提示短语的前缀,第N个提示短语为N元文法包含N个词,其中N为预先设定的大于零的正整数。实施例中N的缺省值为4,可自定义。示例中,利用所述最优机器翻译译文的前N个词生成4个多元文法提示短语为:“中国”、“中国考虑”、“中国考虑改变”、“中国考虑改变才能”。将所述4个多元文法提示短语输出到输入装置界面后,4个多元文法提示短语及其序号为:5.中国、6.中国考虑、7.中国考虑改变、8.中国考虑改变才能。用户可以通过与序号对应的数字键按键选择相应的多元文法提示短语,如按数字键“6”选择“中国考虑”。
[0077] 3、响应用户按键选择对应的多元文法提示短语,或者接收用户的输入按键序列;利用对数线性模型,对所述机器翻译译文候选列表和输入按键序列计算,生成M个输入法短语候选并输出到输入装置界面,等待用户按键选择。
[0078] 在本例中,由于所用文字输入法为拼音输入法,则所述输入按键序列指用户输入的文字输入法编码即汉语拼音串,如“中国考虑”对应的“zhongguokaolv”。
[0079] 步骤S31:对输入按键序列进行分字,得到分字后的输入按键序列;所述分字后的输入按键序列由分字符隔开的编码单元组成,每个编码单元是对应字的文字输入法编码的全部或者文字输入法编码的前缀。
[0080] 把拼音字符串按汉字字符,以“’”为分字符切开。如把拼音串“zhongguokaolv”切成“zhong'guo'kao’lv”,把拼音串“zgkl”切成“z’g'k'l”。分字算法采用基于trie树的最大前缀匹配算法(详细描述见文献D.E.Knuth,“The art of Computer Programming”,vol.1,pp.295-304;“Sorting and Searching”,Fundamental Algorithms,vol.III,pp.481-505,Addison-Wesley Reading Mass,1973)。
[0081] 步骤S32:将输入法短语候选列表初始化为空,对所述分字后的输入按键序列中每一个编码单元依次进行如下计算:
[0082] 步骤S321:根据文字输入法编码规则,对所述编码单元计算得到目标字候选集合。如拼音串“z’g'k'l”中,“z”对应汉字即目标字候选集合“在、这、再、中、着、最、做、字、早、造、者……”,“g”对应目标字候选集合“过、该、给、个、更、高、跟、刚、各、干、国……”,“k”对应目标字候选集合“可、看、快、开、卡、考、空、快、客……”,“l”对应目标字候选集合“来、了、李、里、老、虑、啦、路、类、林……”。
[0083] 步骤S322:利用解码算法对所述目标字候选集合、输入法短语候选列表和机器翻译译文候选列表计算,得到新的输入法短语候选列表。
[0084] 对于本实施例而言,解码是指将分字后的输入按键序列(如“中国考虑”对应的“zhong'guo'kao’lv”)转换成对应的输入法短语候选的过程。这里的输入按键序列可以是全拼,也可以是简拼或者双拼。本发明的目的之一是将“zhong'guo'kao’lv”这种比较长的按键序列尽可能缩至最短的“z’g'k'l”,这是提交本专利时文字输入法无法做到的。
[0085] 由于每个编码单元的目标字候选集合搜索空间非常大,各编码单元组合之后的输入法短语候选数目呈指数级上升,需要利用解码算法(如柱搜索解码算法,详细描述见文献Och,Franz Josef,Nicola Ueffing,and Hermann Ney,“An EfficientA*Search Algorithm for Statistical Machine Translation”,vol.1,pp.295-304;“Sorting and Searching”,Proceedings ofthe workshop on Data-driven methods in machine 
translation-Volume 14.Association for Computational Linguistics,2001)来快速搜索各个编码单元的目标字候选集合并扩展输入法短语候选。
[0086] 步骤S323:利用对数线性模型对所述新的输入法短语候选列表中的每一个输入法短语候选进行打分并按降序排列;如果所述新的输入法短语候选列表的长度超过设定的阈值M时,仅保留前M个打分最高的输入法短语候选;每个输入法短语候选包含的目标字候选的数目等于已解码的编码单元数目,每个输入法短语候选包含的目标字有效候选的顺序与已解码的编码单元顺序一致。
[0087] 在用解码算法快速搜索各个编码单元的目标字候选集合并扩展输入法短语候选过程中,由于输入法短语候选列表的长度呈指数级上升,因此有必要对其剪枝,以将其长度限制在一定范围以内。剪枝过程中,利用对数线性模型(详细描述见文献Knoke,David,and Peter J.Burke,eds,“Log-linear Models”,vol.20,Sage,1980)对所述新的输入法短语候选列表中的每一个输入法短语候选进行打分并按降序排列。用所述新的输入法短语候选列表替代所述输入法短语候选列表。
[0088] 假设分字后的输入按键序列为 对应输入法短语候选集合为H,其中概率最大的输入法短语候选为 本发明对应的对数线性模型为:
[0089]
[0090] 其中,λm为特征函数权重,根据经验和实际场景手动设定; 为如下的特征函数:
[0091] (1)打字模型概率;
[0092] (2)语言模型概率;
[0093] (3)输入法短语候选中的词的出现概率;
[0094] (4)输入法短语候选出现概率;
[0095] (5)输入法短语候选中的词是否在机器翻译译文候选中的二值特征;
[0096] (6)输入法短语候选是否在机器翻译译文候选中的二值特征;
[0097] (7)输入法短语候选是否在用户术语库中的二值特征。
[0098] 特征(1)-(4)可以通过如下种子词库初始化:
[0099] http://www.datatang.com/data/45925
[0100] 拼音汉字表可以通过如下地址下载:
[0101] http://www.datatang.com/data/11858
[0102] 步骤S33:完成所述分字后的输入按键序列中所有编码单元的计算之后,所述输入法短语候选列表的长度为M,并按打分降序排列,其中M为预先设定的大于零的正整数。本例中,M的值为5,可自定义。
[0103] 短语候选列表显示在输入装置界面的第二行,每页显示5个,编号为0到4,空格键选择编号为0的候选,控制键(Ctrl)选择编码为1的候选,数字键0到4选择对应候选。“z’g’k’l”对应的结果如图5所示。
[0104] 4、响应用户按键选择多元文法提示短语或者输入法短语候选后,利用已录入译文部分和所述机器翻译译文候选列表生成N个多元文法提示短语,并输出到输入装置界面,等待用户按键选择,重复上述步骤3,直到用户完成录入源语言句子的译文。
[0105] 步骤S41:响应用户按键选择多元文法提示短语或者输入法短语候选后,对已录入译文部分得用上述步骤1进行分词得到分词后的已录入译文部分。
[0106] 步骤S42:如果所述最优机器翻译译文包含分词后的已录入译文部分的最后一个词,则利用最大前缀匹配算法,对最优机器翻译译文候选和分词后的已录入译文部分计算,生成N个多元文法提示短语。
[0107] 在示例中,当用户输入“福利”后,以“福利”为前缀匹配成功,生成新一轮N元文法提示及具序号:5.制度。
[0108] 步骤S43:如果所述最优机器翻译译文不包含分词后的已录入译文部分的最后一个词,则在机器翻译译文候选列表中选择所有包含分词后的已录入译文部分的最后一个词的机器翻译译文候选,得到次优机器翻译译文候选列表,并将其中打分最高的机器翻译译文候选作为次优机器翻译译文;利用前缀匹配算法,对次优机器翻译译文候选和分词后的已录入译文部分计算,生成N个多元文法提示短语。
[0109] 可以根据实际情况禁用或者启用多元文法提示短语,图4用示例说明了两种情形的对比。图4中,左图为禁用多元文法提示短语的情形,右图为启用多元文法提示短语的情形。
[0110] 本发明提供的上述面向计算机辅助翻译的输入方法是通过计算机软件来实现的,对应地,本发明还提出了一种面向计算机辅助翻译的输入装置,如图2所示为本发明的面向计算机辅助翻译的输入装置的系统框架图,本发明的输入装置包括:分词模块、翻译模块、第一生成模块、第二生成模块、输入装置界面,其中:
[0111] 分词模块,用于将源语言句子和已录入译文部分生成并输出分词后的源语言句子和分词后的已录入译文部分,可以通过上述介绍的本发明的输入方法中的步骤1所示方法调用包括Urheen在内的各类分词工具进行分词;
[0112] 翻译模块与分词模块连接,利用机器翻译引擎,得到分词后的所述源语言句子对应的机器翻译译文候选列表,并将其中打分最高的机器翻译译文候选作为最优机器翻译译文输出到输入装置界面的模块;
[0113] 第一生成模块与翻译模块、输入装置界面连接,用于对机器翻译译文候选列表和输入按键序列进行如上述步骤2所示方法计算,利用对数线性模型,生成M个输入法短语候选并输出到输入装置界面;
[0114] 第二生成模块与翻译模块、输入装置界面连接,用于对已录入译文部分和机器翻译译文候选列表进行如上述步骤3所示方法计算,生成N个多元文法提示短语并输出到输入装置界面;
[0115] 输入装置界面,用于显示最优机器翻译译文、输入法短语候选和多元文法提示短语,并接收用户按键选择命令和输入按键序列,录入源语言句子的译文。
[0116] 作为本发明的一个优选实施例,本发明还提出了一种面向计算机辅助翻译的输入装置,包括:
[0117] 对源语言句子进行分词的装置,可以通过上述介绍的本发明的输入方法中的步骤1所示方法调用包括Urheen在内的各类分词工具进行分词;
[0118] 利用机器翻译引擎,得到分词后的所述源语言句子对应的目标语言机器翻译译文候选列表,将其中打分最高的机器翻译译文候选生成短语候选列表,并输出到输入装置界面的装置;所述装置可以通过上述步骤2所示方法获得机器翻译候选列表,即n-best列表;
[0119] 接收到用户输入的按键序列之后,利用对数线性模型,结合机器翻译译文候选列表,实时动态调整所述短语候选列表并输出到所述输入装置界面的装置;
[0120] 响应用户按键选择,直到用户完成源语言句子翻译的装置。
[0121] 优选地,本发明的面向计算机辅助翻译的输入装置还包括:当用户录入一个短语后结合机器翻译候选列表得到N元文法提示的装置;以及在输入法界面显示所述N元文法提示,供用户选择的装置。
[0122] 作为本发明的一个优选实施例,本发明还提出了一种面向计算机辅助翻译的输入装置,可视化图形界面如图1所示,包括:
[0123] 对源语言句子进行分词的装置;
[0124] 利用机器翻译引擎,得到分词后的所述源语言句子对应的机器翻译译文候选列表,并将其中打分最高的机器翻译译文候选作为最优机器翻译译文输出到输入装置界面、利用所述最优机器翻译译文的前N个词生成N个多元文法提示短语,并输出到输入装置界面,等待用户按键选择的装置;
[0125] 对用户按键选择的多元文法提示短语进行响应,或者接收用户的输入按键序列,利用对数线性模型对所述机器翻译译文候选列表和输入按键序列计算,生成M个输入法短语候选并输出到输入装置界面,等待用户按键选择的装置;
[0126] 对用户按键选择的所述输入法短语候选进行响应,或者接收用户的输入按键序列,判断用户是否已经完成录入源语言句子的译文,如果是则结束,如果否则利用已录入译文部分和所述机器翻译译文候选列表生成N个多元文法提示短语,输出到输入装置界面,等待用户按键选择并循环执行上述响应步骤的装置;
[0127] 其中,N、M为正整数。
[0128] 5、实验设置
[0129] 为了验证本发明是否能大幅度增加翻译效率,从私有辅助翻译平台元辅翻译系统(http://cotrans.me)中随机抽取了包含4,040句对的翻译日志,并将其随机分成两组,每组包含2020句对。每组又被随机分成开发集(1,000句对)和测试集(1,020句对)。元辅翻译系统内的机器翻译系统是基于短语翻译模型实现的。调参用开源免费的ZMERT,可通过以下地址下载:
[0130] http://joshua-decoder.org/4.0/zmert.html
[0131] 用开发集调参时评测指标参数设为“-m BLEU4 shortest”(例如参见Papineni,Kishore.,Roukos,Salim,Ward,Todd,and Zhu Wei-Jing,“BLEU:a method for automatic evaluation of machine translation”,In Proc.of ACL,2002)。基线系统为谷歌翻译输入法,可以通过下述链接访问
[0132] http://www.google.com/inputtools/try/
[0133] 采用的评价指标为按键节省率(keystroke savings rate,KSR)。因不同翻译系统输出的翻译候选数目可能不一致,为了避免这种差异,本实验对每一个源语言句子只用得分最高的翻译候选作为参考,计算公式如下:
[0134] 谷歌云翻译输入法:
[0135]
[0136] 本发明:
[0137]
[0138] 其中,T为中文人工译文句子集合,C为所有英文句子对应的最优机器翻译译文集合, 为中文人工译文,m为该人工译文词的数目,c为最优机器翻译译文。mknorm(t)表示如果用拼音输入法逐字录入中文句子t需要的最少敲键数;mk(t)表示在机器翻译译文与人工译文一致的情况下,利用本发明输入人工译文t需要的最少敲键数;
kGoogle(t)表示利用谷歌云输入法输入人工译文t需要的实际敲键数;k(c,t)表示参考机器翻译译文c,用本发明输入中文句子t需要的实际敲键数。对于中文而言,参照文献Wei Cui,“Evaluation of Chinese Character Keyboards”,Computer,18(1),pp.54-59,1985,有如下公式:
[0139]
[0140] 其中,len(ti)为词ti的汉字字符数。通过如下公式可以计算mk(t)的值:
[0141]
[0142] 其中,N表示N元文法提示的数目,默认为4;sl表示词与词之间分隔符的数目,如对于汉语sl=0,对于英语sl=1;sp表示从输入法结果中选择某个词需要的按键数,通常情况下,sp=1。
[0143] 按键节省率的值为0到1之间的小数,0表示完全不能节省按键,1表示达到理想状态,按键不能再减少。
[0144] 6、实验结果
[0145] 表1给出了本发明与谷歌云输入法在两组测试数据上的表现。我们可以看到,本发明的按键节省率相对于谷歌云输入法在两组测试数据上分别提高了11.04%、11.26%。这充分说明了面向计算机辅助翻译的输入法的有效性和优越性。
[0146] 总之,实验结果表明本发明的面向计算机辅助翻译的输入方法和装置能充分有效利用机器翻译知识,能大幅提高专业译员的录入速度和翻译效率。
[0147] 表1本发明与谷歌输入法的按键节省率(%)
[0148]实验组 谷歌云输入法 本发明
1 37.40 48.44
2 36.44 47.70
[0149] 由于本发明的方法不是针对两种特定的语言而提出的,所以本发明的方法和装置具有普遍的适用性。本发明虽然只在英语到汉语翻译方向和拼音输入法上进行了实验,但本发明同时也适用于其它语言对和其它文字输入法,如汉语到英语、英语到法语翻译方向和五笔输入法等。
[0150] 以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈