首页 / 专利库 / 人工智能 / 候选译文 / 机器翻译系统、机器翻译方法以及机器翻译系统的控制装置

机器翻译系统、机器翻译方法以及机器翻译系统的控制装置

阅读:169发布:2020-07-08

专利汇可以提供机器翻译系统、机器翻译方法以及机器翻译系统的控制装置专利检索,专利查询,专利分析的服务。并且机器翻译 系统包含:译文候选生成部,将第1语言的输入文分别分配给用于生成第2语言译文的多个机器翻译装置,并从各机器翻译装置,接受对于输入文的第2语言的译文;译文改良部,以译文候选生成部接受的多个第2语言的各译文为起点,按照以规定的评价方式改进评价那样改良译文;和结束判定部,在译文改良部改良的译文中,将满足规定的条件译文作为对输入文的译文进行选择;译文改良部包含:译文 变形 部,对输入的译文进行规定的变形;译文评价部,对变形的译文进行评价;和重复控制部,判断对变形后的译文得到的评价,相对于输入的译文得到的评价是否被改进,在确认没有改进之前,重复进行变形和评价,按照这样控制译文变形部和译文评价部。,下面是机器翻译系统、机器翻译方法以及机器翻译系统的控制装置专利的具体信息内容。

1.一种机器翻译系统,其特征在于,包括:
译文候选生成部,对第1语言的输入文,将所述输入文分别分配给用于生成第2语言译文的多个机器翻译装置,并从所述多个机器翻译装置的每一个中,接受对于所述输入文的所述第2语言的译文;
译文改良部,以所述译文候选生成部接受的多个所述第2语言的每一个译文作为起点,按照以规定的评价方式改进评价那样改良译文;和
结束判定部,被所述译文改良部改良的译文中,将满足规定的条件译文作为对所述输入文的译文进行选择;
所述译文改良部包含:
译文变形部,对被输入的译文,进行规定的变形;
译文评价部,对被所述译文变形部变形的译文进行所述评价;和
重复控制部,判断所述译文评价部对变形后的译文得到的评价,相对于所述输入的译文得到的评价是否被改进,在确认没有改进之前,重复进行所述变形和所述评价,按照这样控制所述译文变形部和所述译文评价部。
2.根据权利要求1所述的机器翻译系统,其特征在于,进一步包含分别连接在所述译文候选生成部上的所述多个机器翻译装置。
3.根据权利要求2所述的机器翻译系统,其特征在于,所述多个机器翻译装置含有互不相同方式的第1和第2机器翻译装置。
4.根据权利要求1所述的机器翻译系统,其特征在于,
所述译文变形部,对于一个译文,进行多个变形,生成多个被变形的译文;
所述译文评价部,对于所述多个被变形的每一个译文进行所述评价。
5.根据权利要求4所述的机器翻译系统,其特征在于,
所述重复控制部对所述译文变形部和所述译文评价部进行控制,以对所述译文变形部变形的多个译文的每一个,在所述译文评价部的评价没有出现改进之前,重复实行所述变形和所述评价。
6.根据权利要求4所述的机器翻译系统,其特征在于,
所述重复控制部对所述译文变形部和所述译文评价部进行控制,以对所述译文变形部变形的多个译文中,对于评价在前几位规定个数内的每个译文,由所述译文评价部的评价没有出现改进之前,重复实行所述变形和所述评价。
7.根据权利要求1所述的机器翻译系统,其特征在于,
所述译文评价部根据所述第2语言的语言模型和从所述第2语言向所述第1语言的翻译模型,计算译文的类似度。
8.根据权利要求1所述的机器翻译系统,其特征在于,
所述重复控制部,对被所述译文变形机构变形后的译文,只将所述变形和所述评价重复进行预定的次数那样,控制所述译文变形部和所述译文评价部。
9.根据权利要求8所述的机器翻译系统,其特征在于,所述结束判定部在所述重复控制部的重复中得到的多个译文当中,选择由所述译文评价部评价最高的译文。
10.根据权利要求8所述的机器翻译系统,其特征在于,所述译文评价部根据所述第2语言的语言模型和从所述第2语言向所述第1语言的翻译模型,计算译文类似度。
11.一种机器翻译系统的控制装置,其特征在于:
对互相不同方式的多个机器翻译装置分配第1语言的输入文,分别接收对应的第2语言的译文;
将所接收的所述第2语言的译文,分别作为所述第2语言的译文的各个起点,分别给予象改进遵照规定评价方式的评价那样将译文变形的多个译文变形部,接受被变形的多个译文和各自附带的评价值;
在所接收的变形后的译文中,选择具有最高得分的译文并输出。
12.一种机器翻译方法,其特征在于,包含:
对于第1语言的输入文,将所述输入文分配给用于分别生成第2语言译文的多个机器翻译装置,从所述多个机器翻译装置的每一个中接受对于所述输入文的所述第2语言的译文,根据这样准备多个候补译文的步骤;
对于在所述准备步骤中接受的所述多个候补译文的每一个,按照以规定的变形、规定的评价方式计算出的评价被改进那样,进行改良的步骤;和
在所述改良步骤中被改良的候补译文当中,将满足规定的选择条件的译文作为对所述输入文的译文进行选择的步骤;
所述改良步骤包含:
将所述多个候补译文的每一个,按照规定的变形方式进行变形的步骤;
将在所述变形步骤中变形后的候补译文按照规定的评价方式进行评价的步骤;
判断在所述评价步骤中对候补译文得到的评价值,相对于被输入到所述变形步骤的候补译文所得到的评价值是否被改进的步骤;和
在所述判断步骤中,到评价值被确认未改进之前,对变形步骤变形的候补译文,重复进行所述变形的步骤和所述评价的重复步骤。
13.根据权利要求12所述的机器翻译方法,其特征在于,
所述评价步骤包含,根据所述第2语言的语言模型和从所述第2语言向所述第1语言的翻译模型,将在所述变形步骤中被变形的候补译文的类似度作为所述评价值进行计算的步骤。
14.根据权利要求12所述的机器翻译方法,其特征在于,
所述变形步骤包含,对一个候补译文进行多个变形,生成多个变形的候补译文的步骤;
所述评价步骤包含,对于所述多个变形的候补译文的每一个进行评价的步骤。
15.根据权利要求14所述的机器翻译方法,其特征在于,
所述重复步骤包含,对于由所述变形步骤变形的多个候补译文的每一个,所述评价步骤的评价未出现改进之前,重复进行所述变形步骤和所述评价步骤的步骤。
16.根据权利要求14所述的机器翻译方法,其特征在于,
所述重复步骤包含,在由所述变形步骤变形的多个候补译文中,对于评价在前几位规定个数内的每一个译文,所述评价步骤的评价未出现改进之前,重复进行所述变形步骤和所述评价步骤的步骤。
17、根据权利要求12所述的机器翻译方法,其特征在于,
所述选择步骤包含,在所述重复步骤重复进行中得到的多个候补译文当中,选择所述评价步骤的评价值最高的译文的步骤。
18.根据权利要求12所述的机器翻译方法,其特征在于,
所述改良步骤包含:
对于输入的候补译文,进行规定变形的步骤;
在所述变形步骤中被变形的候补译文的每一个按照所述评价方式进行评价的步骤;和
对由所述变形步骤变形的候补译文,将所述变形和所述评价只重复进行预定次数的步骤。
19.根据权利要求18所述的机器翻译方法,其特征在于,
所述选择步骤包含,在所述重复步骤的重复过程中得到的多个译文候补中,选择所述评价步骤的评价值最高的译文的步骤。
20.根据权利要求12所述的机器翻译方法,其特征在于,所述评价步骤包含,根据所述第2语言的语言模型和从所述第2语言的语言模型向所述第1语言的翻译模型,在所述变形步骤中变形的候补译文的类似度作为所述评价值计算的步骤。

说明书全文

技术领域

发明涉及机器翻译系统,特别涉及在任意两种语言之间的翻译中,在有效活用可利用的语言资源的情况下可进行高精度的翻译的机器翻译系统、机器翻译方法以及机器翻译系统的控制装置

背景技术

随着社会经济活动的急剧全球化,需要高效地建立起一个以新的语言对或者领域为对象的机器翻译系统。另外,无论是在已经被商业化且广泛使用的文字语言的翻译中,还是在被积极研究进入实用阶段的声音语言翻译中,都需要超过现有平的高品质的翻译。
以往,为作成机器翻译系统,需要对翻译对象的两种语言精通的专家和数以年计的时间,还有巨额的费用。在这样的机器翻译系统中,不能实现目前所需的高移植性或者品质。今后,在机器翻译系统的作成中,要尽可能做到不要人的参与,达到机械化、工业化。
现在,在世界的机器翻译研究中,利用文集的手法打破以往手法的界限,不断取得了突破性的成果。作为利用文集的机器翻译方法,有两个代表性趋势。它们是(1)范例翻译和(2)统计翻译。这两个都具有这样的特点,利用文集,根据半自动的学习处理建立用于机器翻译的系统。
范例翻译,给出第1语言的输入文后,在对译文集中查找类似输入文的第1语言的句子,根据查找的第1语言的句子的译文(第2语言)形成输出文。
另一方面,统计翻译,从对译文集中学习翻译和语言的统计模型,在实行时,按照这两种统计模型,查找概率最大的译文。
以下,在代表以往技术的翻译手法中,对统计翻译进行说明,进一步说明为更加提高统计翻译的精度而以往所作的尝试。
在统计翻译中,把某语言的句子(现在,该句子表示为“J”)翻译为另一语言的句子(该句子表示为“E”)这个问题,作为下面条件概率P(E|J)的最大化问题进行公式化。
E^=argmaxEP(E|J)
通过对该式应用贝叶斯定理得到下式。
E^=argmaxEP(E)P(J|E)/P(J)
这里,P(J)是和的计算没有关系。因此可以到达下式
E^=argmaxEP(E)P(J|E)
右边的第1项P(E)被称为语言模型,表示句子E的类似度。第2项的P(J|E),被称为翻译模型,表示从句子E生成句子J的概率。在统计翻译中,查找概率最大的译文,作为对输入文J的译文。
另一方面,作为打破这个手法的界限的方法,提出下述手法:最初生成信道源文的各个单词翻译的内容以信道目标文的顺序排列,对于这个句子生成适用于各种操作者的多个句子的方法,这是Ulrich GermannMichael Jahr,Kevin Knight,Daniel Marcu,and Kenji Yamada,“Fastdecoding and optimal decoding for machine translation,”(2001)in proc ofACL 2001,Toulouse,france中提出。根据提出的手法,在这样生成的句子中,选择最大类似度的作为译文。
即使是使用以往的范例翻译和统计翻译的任一手法,也不能脱离在某些原理和数据中生成妥当译文的框架。因此,若要进一步提高翻译质量,必须改变机器翻译系统的内部结构。在改良中,无论是时间、人手、费用上任一点都存在困难。
另外在Germann提出的方法中,在查找中存在很多到达局部的最优解的问题,并不能够稳定地得到高精确的解。
在此基础上,即使今后有新的翻译手法出现,各个手法以其手法完成翻译,也不存在打破这些新手法的界限可以生成高质量的译文的这样的框架。

发明内容

本发明的目的在于提供一种不管语言的组合,也能得到高品质翻译的机器翻译系统、机器翻译方法以及机器翻译系统的控制装置。
该发明的另一个目的在于提供一种不管语言的组合,也能够得到在某种程度的时间内获得高品质翻译的机器翻译系统、机器翻译方法以及机器翻译系统的控制装置。
本发明的再一个目的在于提供一种可以充分有效地利用可以利用的翻译资源,不管语言的组合,能够稳定地得到高品质翻译的机器翻译系统。
有关本发明第1方案的机器翻译系统,具备:译文候选生成部,对第1语言的输入文,将输入文分别分配给用于生成第2语言译文的多个机器翻译装置,并从多个机器翻译装置的每一个中,接受对于输入文的第2语言的译文;译文改良部,以译文候选生成部接受的多个第2语言的每一个译文作为起点,按照以规定的评价方式改进评价那样改良译文;和结束判定部,被译文改良部改良的译文中,将满足规定的条件译文作为对输入文的译文进行选择。译文改良部包含:译文变形部,对被输入的译文,进行规定的变形;译文评价部,对被译文变形部变形的译文进行评价;和重复控制部,判断译文评价部对变形后的译文得到的评价,相对于输入的译文得到的评价是否被改进,在确认没有改进之前,重复进行变形和评价,按照这样控制译文变形部和译文评价部。
译文候选生成部准备了多个机器翻译装置翻译的译文。译文改良部把这些译文改良,改进译文的评价。结束判定部,在改良的译文中选择满足规定条件的译文,把它作为对输入文的译文。因为将最初生成的多个译文都将按照这些译文评价改良那样进行改良,所以最终得到比最初生成的译文的任一个评价都高的译文。在这些当中,将满足规定条件的译文作为对输入文的译文,由此对于输入文可以得到,品质高、满足规定条件的译文。
优选机器翻译系统进一步包含分别接在译文候选生成部上的多个机器翻译装置,这些多个机器翻译装置,也可以包含互不相同方式的第1和第2机器翻译装置。使用多个机器翻译装置,特别是互不相同方式的机器翻译装置,准备最初的译文,作为译文进行改良的种子,得到不类似的可能性大。因此从这当中能够得到的最优解互不相同的可能性大,其中之一是大范围的最优解的可能性大。
译文的变形和评价,重复到评价改进消失为止。因此,各个译文作为开始起点,可以得到多个局部的最优解。因为最初的译文是多个,所以其中包含大范围最优解的可能性大。
优选译文变形部对于一个译文按照多个进行变形,生成多个变形译文;译文评价部分别对于多个变形的译文进行评价。
从一个译文通过多个变形可以得到多个译文。得到评价高的译文的可能性,被评价译文越是多样就越高,因此期望被评价译文数量有很多。因此,根据该构成,最终得到评价高的译文的可能性高。
优选结束判定部,在重复控制部的重复中得到的多个译文中,用于选择译文评价部评价最高的译文。
最终得到的多个译文。其中,评价最高的译文是大范围的最优解的可能性高,因此,根据选择这样的译文,能够得到品质最高的译文的可能性高。
更优选译文评价部,根据第2语言的语言模型和从第2语言向第1语言翻译模型,用于计算译文类似度。
作为评价由于使用类似度,这样得到的译文作为第2语言的句子自然,成为输入文相对应的可能性也高。
有关本发明第2方案的记录媒体,存储着若用计算机执行,使该计算机作为上述机器翻译系统而运行的计算机程序
有关本发明第3方案的机器翻译系统的控制装置,包含:译文接收部,在互不相同的方式的多个机器翻译装置中,给予第1语言的输入文,分别得到对应的第2语言的译文;变形译文接收部,由译文接收部得到的第2语言的译文,分别作为第2语言的译文的各个起点,按照规定的评价方式进行改进那样,分别给予用于译文变形的多个译文变形部,接受被变形的多个译文和各自附带的评价值;结束条件判定部,在变形译文接收部接受的译文中,用于选择并输出满足规定条件的作为对输入文的译文。
有关本发明第4方案的机器翻译方法,具备:把输入文分别分配到用于对于第1语言的输入文分别生成第2语言的译文的多个机器翻译装置的每一个,根据获得的对输入文的第2语言的译文,准备多个候补译文的步骤;在准备步骤中,对于获得的多个候补译文每一个的,分别根据规定的变形、规定的评价方式计算出评价,进行改进那样的改良步骤;在改良步骤中,被改良的候补译文中,选择满足规定的选择条件的译文,作为对输入文的译文的步骤;改良步骤包含:多个候补译文的每一个分别根据规定的变形方式变形的步骤;在变形步骤中被变形的候补译文,根据评价方式评价的步骤;在评价步骤中,对候补译文得到的评价值,判断其相对于对在变形步骤中输入的候补译文所得到的评价是否被改进的步骤;在判断步骤中,被认为评价值没有被改进之前,对由变形步骤变形的候补译文,进行变形的步骤和重复评价的步骤。
本发明的目的、特征、方案及效果,在下面参照附图对发明进行详细说明,这样会更加清楚。

附图说明

图1是与本发明第1实施例相关的机器翻译系统的功能框图
图2是图1所示的候补译文生成部32的详细功能框图。
图3是图2所示的第1翻译装置35A的详细功能框图。
图4是图2所示的第2翻译装置35B的详细功能框图。
图5是图2所示的第3翻译装置35C的详细功能框图。
图6是图2所示的第4翻译装置35D的详细功能框图。
图7是用于说明译文合并处理模式的图。
图8是图2所示的第5翻译装置35E的详细功能框图。
图9是用于说明译文构造共有化处理的图。
图10是图1所示的译文改良部36的功能框图。
图11是与本发明第2实施例相关的机器翻译系统功能框图。
图12是图11所示的第1最优翻译生成部102A的详细功能框图。
图13是表示与第2实施例相关的机器翻译系统的网络构成图。
图14是表示实现与本发明一实施例相关的机器翻译系统的计算机外观图。
图15是图14所示计算机的框图。

具体实施方式

(第1实施例)
本实施例的机器翻译系统,是根据已经存在的翻译资源和译文改良手法的组合的新框架的系统。
-构成-
在图1中表示与本实施例相关的机器翻译系统20的框图。参照图1,该机器翻译系统20是把第1语言(作为语言J)的输入文30翻译成第2语言(作为语言E)译文的输出文42的系统。机器翻译系统20,包含:接受第1语言的输入文30,作为候补译文生成采用后述各种机器翻译手法形成的译文,以规定的顺序输出的候补译文生成部32;将由候补译文生成部32输出的候补译文,根据后述的方法进行改良,在满足规定条件的时刻,用于输出最优候补译文的译文改良部36;应答在译文改良部36被改良之后的候补译文输出的事件,判断规定的结束条件是否被满足,结束条件被满足时,在此之前得到的改良后的候补译文中,按照规定的评价基准,选择评价得分最高的译文作为输出文42并输出的结束判断部38。
结束判断部38具有,在判断为还不满足结束条件时,对候补译文生成部32,发出指示再次生成初始候补这样的控制信号41的功能。候补译文生成部32具备,应答该控制信号41,生成与先前生成的初始候补不同的初始候补,给予译文改良部36的功能。
图2是表示候补译文生成部32更详细的功能框图。参照图2,译文生成部32包含:翻译所给出的句子,分别输出各个译文39A~39E的第1~第5翻译装置35A~35E;把输入文30,按照从结束判断部38输出的控制信号41,分配到这些第1~第5翻译装置35A~35E中的任一个的分配部33;从接受了输入文30的翻译装置中输出的译文,按照结束判断部38输出的控制信号41进行选择,作为初始候补译文39输出的选择部37。
第1~第5翻译装置35A~35E,在本实施例中,以互相不同的方式进行翻译。因此,即使给出同一输入文30,从第1~第5翻译装置35A~35E得到的译文39A~39E互相之间不同的可能性很大。而且,在本例中,作为翻译装置,虽然是用了5个,但是这个数目只要是多个即可,并不局限于5个。另外,同一方式的翻译装置,也可以是使用不同的翻译知识。
图3表示在本实施例中的第1翻译装置35A的详细框图。参照图3,第1翻译装置35A包含:由第1语言的句子和第2语言的句子组成的对译文包含多个的对译文集34;参照对译文集34,用于计算表示输入文30和对译文集34的各个第1语言的句子之间类似程度的类似尺度的tf/idf基准Ptf/idf的tf/idf计算部50A。tf/idf基准Ptf/idf把对译文集34的第1语言的各个句子重新视为1个文件,在信息检索算法中,一般使用被称为文档频度的概念,是由下式定义的尺度。
Ptf/idf(Jk,J0)=Σi:J0,iJklog(N/df(J0,i))/logN|J0|
式中,J0表示输入文,J0,i表示输入文J0的第i号单词,df(J0,i)表示输入文J0的第i号单词J0,i所对的文档频度,N表示对译文集34内的所有译文的数目。所谓文档频度df(J0,i)是指输入文J0中的第i号单词J0,i出现的文档(本实施例中是句子)的数目。
第1的翻译装置35A进一步包含:编辑距离计算部52A,对于对译文集34所包含的各个对译文(Jk,Ek)的第1语言的句子Jk,和输入文J0之间的DP(Dynamic Programming)进行匹配,计算出编辑距离dis(Jk,J0);得分计算部54A,根据tf/idf计算部50A计算出的tf/idf基准Ptf/idf及编辑距离部52A计算出的编辑距离,按照后述的式子计算出各个对译文的得分。
编辑距离部52A计算的编辑距离dis(Jk,J0)用下面的式子表示。
dis(Jk,J0)=I(Jk,J0)+D(Jk,J0)+S(Jk,J0)
式中,k是1≤k≤N的整数,I(Jk,J0)、D(Jk,J0)、及S(Jk,J0)分别是从句子J0到Jk的插入/删除/置换的次数(编辑距离)。另外编辑距离使用可以很容易得到的软件工具计算。
由得分计算部54A计算出的得分根据下式表示。

式中,α是调整参数,在本实施例中使α=0.2。
参照图3,第1翻译装置35A进一步包含对译文选择部56A,其根据得分计算部54A计算出的得分,选择具有最大得分的对译文,把包含在该对译文中的第2语言的句子作为第1初始候补译文39A并输出,给予图1所示的译文改良部36。
图4以框图形式表示第2翻译装置35B的构成。参照图4,第2翻译装置35B包含:把第1语言输入文30翻译为第3语言句子用的既存翻译系统组成的第1中间翻译装置50B;用于把第1中间翻译装置50B输出的第3语言的句子翻译为上述第2语言的句子的第2中间翻译装置52B。
作为第1中间翻译装置50B和第2中间翻译装置52B以高性能存在时,这样通过第3语言,从第1语言向第2语言进行翻译,有时会得到很好的翻译结果。在本实施例的系统中,用这样的中间语言得到的翻译结果,可以作为译文的初始候补使用。
而且,第1和第3语言的也可是互相不同的语言,也可是互相相同的语言。这时,第1中间翻译装置50B称为在第1语言内的进行换言的装置。另外,第2语言和第3语言可以是相同的语言。这时,第2中间翻译装置52B称为第2语言内的进行换言的装置。
图5是表示第3翻译装置35C的详细框图。参照图5,第3翻译装置35C包含:用于将输入文30分别翻译为第2语言的,互不相同的翻译方式的第1~第3翻译部50C-1~50C-3;根据规定的基准评价这些第1~第3翻译部50C-1~50C-3输出的翻译质量,选择根据该基准认为最优的,作为第3初始候补译文39C输出用的译文选择部52C。
第1~第3翻译部50C-1~50C-3的翻译方式,只要互不相同,哪种方式都可以。
作为译文选择部52C的译文评价基准,可以考虑各种形式,关于这些,可以考虑和译文改良部36的翻译质量评价的基准相同,所以在这里不进行详细地说明。
图6是表示第4翻译装置35D的详细框图。参照图6,第4翻译装置35D包含:用于将输入文30分别翻译为第2语言的,互不相同的翻译方式的第4~第6翻译部50D-1~50D-3;合并这些第4~第6翻译部50D-1~50D-3的输出,作为第4初始候补译文39D并输出的译文合并部52D。
第4~第6翻译部50D-1~50D-3,和第1~第3翻译部50C-1~50C-3一样,只要互不相同的翻译方式,哪种方式都可以。
由译文合并部52D的译文合并进行以下那样的处理。为了简单,以输入文为“This is a pen.”这句英语为例来说明。参照图7,从这第4~第6翻译部50D-1~50D-3对于这句输入文分别得到“これはペンです(这是笔)”、“これはペンだ(这是笔)”、“これは筆です(这是笔)”这样的译文。在译文合并中,以构成这些句子的每个单词或者单词列进行各个译文比较,选择在译文中出现最多的单词或者单词列作为后面译文的单词或者单词列。
例如,在上述图7所示的例子中,在方框60D内显示的部分在3个译文中相同。因此从这部分选择“これは(这)”作为译文的要素。接着,如方框61D及62D所示,“ペン(笔)”这个词在两个译文中出现,“筆(笔)”这个词只在-个译文中出现。因此,从这部分选择“ペン(笔)”作为译文要素。同样,从方框63D~65D选择“です(是)”。其结果得到作为合并后的译文如方框69D所示“これはペンです(这是笔)”。
一般地说,在多个机器翻译系统中,如果有被共同使用的单词或者单词列,该单词或者单词列作为译文是妥当的可能性大。因此,根据象上述那样的合并处理,能够得到接近正确的译文的可能性大。因此,使用这样合并处理的结果作为初始候补译文。
图8是表示第5翻译装置35E的详细框图。第5翻译装置35E包含:用于把输入文分别翻译为第2语言的第7~第9翻译部50E-1~50E-3;对第7~第9翻译部50E-1~50E-3输出的译文,生成具有共同结构的的译文作为第5初始候补译文39E的译文共同结构化部52E。
所谓生成译文共同结构的处理是进行如下的处理。参照图9,和图7所示的一样,以输入文为“This is a pen.”这个英语句子为例进行说明。参照图9,从该第7~第9的翻译部50E-1~50E-3中,分别得到“これはペンです(这是笔)”、“これはペンだ(这是笔)”、“これは筆です(这是笔)”这样的译文。
译文共有结构的生成,译文单词列基本上以图表示。例如,在图9的方框60E所示,互相共同的部分(“これは(这)”)在图中集中在一段弧线。而且,根据方框61E和62E及方框63E~65E分别所示那样,生成互相对应的部分且互不相同的单词或者单词列的部分中,把这些区别用另外的弧线(“ペン(笔)”和“筆(笔)”,以及“です(是)”和“だ(是)”)表示。第5初始候补译文39E是具有这样的图结构69E的候补译文。
在本实施例中,使用以上的5个翻译装置。但是,对于这以外的翻译系统,只要是可以进行从第1语言翻译到第2语言的,无论哪个都可代替第1~第5翻译装置35A~35E的任一个,或者加上这些一起使用。另外,也含有第1~第5翻译装置35A~35E,可以利用的翻译系统无论怎样组合都作为候补译文生成部32的要素使用。
图10是表示图1所示的译文改良部36的详细框图。参照图10,译文改良部36包含:候补译文生成部32输出的初始候补译文39;用于从后述的译文存储部73读出的译文的任一个中选择一个的译文选择部70;用于把译文选择部70选择出的译文,按照后述方式进行变形的译文变形部71;用于根据规定的评价基准,评价由译文变形部71变形后的译文翻译质量,输出其得分的变形后译文评价部72。
译文改良部36进一步包含:与变形后译文评价部72输出的得分一起存储变形后译文的译文存储部73;根据变形后译文评价部72输出的得分,判断是否满足使译文改良结束的结束条件,根据判断结果控制重复执行的重复控制部74。
重复控制部74具有按照选择译文存储部73或者初始候补译文39中的任一方那样,对译文选择部70发送出选择控制信号的功能。但是,在处理的最初,译文选择部70必须选择译文39A~39E。然后的处理中是选择译文39A~39E、还是选择译文存储部73的输出,这根据让译文以哪种方案变形的不同而不同。
重复控制部74另外还具有:根据变形后评价部72的得分,判断不满足结束条件时,以规定方式选择从译文存储部73存储的译文中任一个,给予译文选择部70,按照这样控制译文选择部73的功能;以及被判断满足结束条件时,对后续的结束判断部38,发送出表示译文改良部36的译文改良处理完毕的信号的功能。
由重复控制部74从译文存储部73进行译文选择的顺序,是和在译文变形部71进行的译文变形方式相关联而定。在译文变形部71进行的译文变形中,可以利用任意的文本变形算法。在本实施例中,使用根据在统计翻译中被使用的语言模型和翻译模型将译文变形为类似度高的译文的方式。
作为文本变形算法,也可以使用这以外的各种方法。可以举出下面这些示例。
(1)只用语言模型变形。
(2)只用翻译模型变形。
(3)根据预先人工做成的句子改换模式变形。
(4)基于机械的学习出的改换模式变形。作为这时的学习,例如,可以考虑,机器翻译结果和范例文集中的正确之间进行比较,其相差部分作为改换模式的学习方式。
(5)单词置换、插入、删除等随机的或者某种模型进行。
作为变形后译文选择评价部72的翻译质量评价手法,也可以使用包含将来可以使用的手法在内的各种手法。在本实施例中,根据在统计翻译中被使用的语言模型和翻译模型计算译文的类似度,变换后的译文没有出现改良时判断为满足结束条件。
此外,作为翻译评价的尺度所考虑的手法例举以下示例。
(1)只由语言模型得到的类似度。
(2)只有翻译模型得到的类似度。
(3)被称为直译度的尺度。作为直译度可以使用如下式定义的Tanimoto系数。

式中,|·|表示集合要素的数量、所谓内容词,是判断句子意思内容方面重要的词。认为根据在单词字典中是否包含该单词,来决定该单词是否是内容词。
(4)多重反翻译类似度。所谓多重反翻译类似度,是表示把暂时得到的译文,用向第1语言的多个翻译系统反翻译的结果,和输入文何种程度类似的尺度。如果该尺度高,可以认为译文近似于输入文的正确译文。
(5)在生成参考译文方面,使用该参考译文,评价译文的手法。作为该手法熟知的有:BLEU得分、WER(Word Error Rate)、NIST得分、PER(Position Independent WER)等。以下对主要的进行说明。
表示Word-error-rate(单词错误率)。这是反映和作为基准的标准翻译相比较时的编辑距离(插入/删除/置换)的手法。
表示位置独立(Positiong-independent)WER。这时除了位置问题,反映只和插入删除相关的编辑距离的手法。
表示BLEU得分。在翻译结果的N元当中,在作为基准的标准翻译中,出现的几率。与上述WER和PER不同,BLEU得分值越高翻译质量越好。
而且,评价除此之外使用哪种的手法进行都可以。另外,也可以根据领域采用特定的评价手法。如果将来出现有效的手法,也可以采用。
而且,重复控制部74在变形的译文的翻译质量未出现改良时结束重复变形。在翻译质量没出现改良时也可以继续变形。只是,本实施例因为在重复控制中使用登山法,所以如果翻译质量恶化就结束重复变形。
这样,译文改良部36将译文变形,评出具有最高评价的译文作为输出译文,与得分一起输出到结束判断部38。
结束判断部38,根据从译文改良部36的输出文76和其得分,判断是否让处理结束。在本实施例中,对于单纯对在候补译文生成部32所包含的第1~第5翻译装置35A~35E的输出全部,判断译文改良部36的处理是否结束。在对于所有结束时,将最高得分的译文作为输出文42输出。对于所有没有结束时,对于下面的翻译装置按照进行上述处理那样,把控制信号输出到候补译文生成部32,使处理继续。
作为处理结束条件,不限于此,下面例举的示例条件中可以任意采用。但是,这个结束条件与翻译质量改良时的重复操作方法有关系,可能出现:特定的重复方法只能用特定的结束判断,或者特定的结束判断不能适用特定的重复方法等情况。但是这些都属于设计事项的问题,只要是从业者就可以选择合适的结束条件。
(1)如果超过预先设定的重复次数或者计算时间就结束。
(2)如果在预先设定的重复次数或者计算时间内翻译质量没有得到改良就结束。
(3)如果翻译质量没有得到改良就结束。
(4)如果得到达到预先设定的目标得分的译文就结束。
-动作-
机器翻译系统20按照下面那样动作。图3所示的对译文集34中,预先包含由第1语言的原文和第2语言的译文组成的多个对译文。另外语言模型和翻译模型也根据某种方式预先准备。
参照图1,输入文30被给予候补译文生成部32。
参照图2,分配部33将输入文30给予第1翻译装置35A。
参照图3,第1翻译装置35A的tf/idf计算部50A,计算输入文30和对译文集34中所有对译文中的第1语言的句子之间的tf/idf基准Ptf/idf。编辑距离计算部52A,同样计算输入文30和所有对译文集34中的第1语言的句子Jk之间的编辑距离dis(Jk,J0)。
得分计算部54A,使用tf/idf计算部50A计算出的tf/idf基准Ptf/idf和编辑距离计算部52A计算出的编辑距离dis(Jk,J0),按照下面的式子,计算出上述得分score。

对译文选择部56A,在对译文集34中所包含的对译文中,选择得分score高的译文,作为译文39A给予图2所示的选择部37。
选择部37,根据结束判断部38的控制信号选择译文39A,作为译文39给予译文改良部36。
参照图10,译文改良部36的译文选择部70,选择被给予的初始候补译文39给予译文变形部71。译文选择部71对于该译文进行规定的几种变形,把得到的多个变形译文给予译文变形后译文评价部72。变形后译文评价部72,对于各个被变形的译文,按照上述那样根据规定的评价方式进行评价,与其得分一起给予译文存储部73。变形后译文评价部72,另外还把这些得分给予重复控制部74。
重复控制部74,判断这些得分是否满足规定的条件。在本实施例中,重复控制部74,如果认为任一得分没有被改善,就结束处理。在最初的处理中,通常认为根据几种变形得到的译文得分是被改善,所以重复控制部74对于译文选择部70、译文变形部71、及译文存储部73输出重复处理指示,同时对译文存储部73输出,方才存储的译文中得分出现改善的译文之一输出到译文选择部70这样的指示。
译文选择部70,根据这一次重复控制部74发出的指示,选择从译文存储部73给予的被变形的译文之一,给予译文变形部71。译文变形部71,对给予的译文进行和上述同样的几种变形。对于各个由该变形得到的译文,变形后译文评价部72进行再次评价计算得分,重复控制部74判断得分是否被改善。译文变形部71、变形后译文评价部72、译文存储部73、及重复控制部74,一边进行改变变形对象的译文一边重复进行这种处理,直到在任一译文的得分都不出现改善为止。
象以上这样,对于一个候补译文按照多个变形进行,评价这些得分,对得分出现改善的译文进一步进行同样的变形和评价,这个动作重复实行到对任一变形后的译文都不见改善为止,根据这样得到与初始候补译文39相比得分提高很大的译文的可能性大。
如果哪个译文的得分都不见改善,那么重复控制部74,按照在上述重复处理中,把最高得分的译文作为输出文76输出这样控制译文存储部73,并把结束信号给予图1所示的结束判断部38。
结束判断部38,响应该结束信号,判断是否应该将处理停止。在本实施例中,关于图2所示第1~第5翻译装置35A~35E的全体,对于其生成的译文的改良处理结束,全部处理才结束。因此结束判断部38,根据第2翻译装置35B生成的译文,应将上述译文重复进行改良,把控制信号41给予候补译文生成部32。
参照图2,分配部33响应给信号,把输入文30给予第2翻译装置35B。第2翻译装置35B,如图4所示那样,进行第1中间翻译装置50B和第2中间翻译装置52B的翻译处理,生成译文39B,给予选择部37。
选择部37,根据结束判断部38输出的控制信号,选择第2翻译装置35B的输出译文39B,作为初始候补译文39给予译文改良部36。以下,译文改良部36和选择部37,重复进行与第1翻译装置35A的译文处理相同的处理。
这样,对于第1~第5翻译装置35A~35E生成的译文39A~39E的全体,上述译文改良处理一结束,图10所示的重复控制部74就把完毕信号77给予图1所示的结束判断部38。结束判断部38,一接到该完毕信号77,就判断处理满足应该结束的条件,在至今以前的处理中得到的译文中,把得分最高的译文作为输出文42输出。
作为候补译文生成部32使用的翻译装置,是已经存在的装置,也包括今后可以利用的装置,哪种装置都可以利用。
根据本实施例,对于同一输入文,由互相不同的多个机器翻译系统得到的译文作为各自的起点,进行译文改良,分别选择具有最优得分的译文,进一步从中选择具有最高得分的译文作为最终的译文。因为从多个译文开始的,所以不但是局部解,而且获得大范围的最优解的可能性很大。另外,作为用于得到的最初译文的机器翻译系统,无论是哪种都可以,可以充分利用现有的机器翻译系统。而且甚至也可以利用今后开发的机器翻译系统或者翻译评价手法,使用这种结构,译文的品质可以达到很高。
只要确定用于翻译质量的基准和手法及基本的多个机器翻译系统,不管语言组合,都能改良任意语言之间的译文质量。
而且,在上述的机器翻译系统中,具有为了改良译文的品质基本上不需要人工,系统结构的开发也比较地简单,具有短期内可以实现的特点。
而且上述实施例中,被变形的译文中,得分上出现提高的译文全体再次进行译文的改良。但是,本发明并不局限于这样的实施例。例如,被变形的译文在得分上出现提高的译文中,只对处于前几位规定个数(例如1个)的译文,进行其后的变形和评价也可以。
另外,优选进行多种变形,但是只进行一种变形也可以。
另外,在上述实施例中,使多个机器翻译装置顺序地动作,做到一次只让一个机器翻译装置动作。但是,本发明并不局限于这样的实施方式。使多个机器翻译装置同时动作也可以。另外,如第2实施例,也可以使最初的机器翻译和其后的译文改良任一个并列实施。
(第2实施例)
如上述那样,第1实施例的装置可以由计算机实现。另外,从图2等也表明,第1实施例的装置,包含其内部可以相互独立动作的构成要素(例如,第1~第5翻译装置35A~35E、第1~第3翻译部50C-1~50C-3、第4~第6翻译部50D-1~50D-3、第7~第9翻译部50E-1~50E-3等)。因此根据使用计算机的通信功能和任务分配功能,可以将第1实施例的系统用网络连接的多个计算机实现。第2实施例的系统,是象这样把多个计算机互相用网络连接,将上述处理中能够并行实行的,用各个计算机互相并行实行的系统。
图11表示该机器翻译系统100的概要的功能结构。参照图11,机器翻译系统100包含:根据各个输入文30,分别基于使用个别的翻译系统翻译的译文,进行上述译文改良处理,生成最优的译文用的多个最优生成部102A~102N;根据这些最优生成部102A~102N分别生成的最优的翻译中,选择具有最高得分的译文作为输出文进行输出的译文选择部104。
最优选择部102A~102N,可以由互相独立的计算机和完成上述动作的程序实现。设置主计算机与这些计算机用网络连接起来,可以用这个主计算机对各个计算机的输入文30的分配,及接受来自各计算机的译文从中选择最优的翻译。
图12是表示作为第1最优翻译生成部102A的功能性构成。该最优翻译生成部102A,如上所述,是通过网络连接在主计算机上的计算机和在其中运行的程序实现。其他的最优翻译生成部,除了初始候补翻译部不同之外,都具有同样的构成。
最优翻译生成部102A,和图2所示的候补译文生成部32相同,包含:只具有一个翻译装置的初始候补生成部106A;将初始候补生成部106A生成的译文作为初始候补译文,进行与图10所示的译文改良部36同样的处理,生成该最优译文生成部102A的输出文108A,发送到主计算机用的译文改良部107A。
译文改良部107A的构成,与图10所示的译文改良部36的构成同样。但是,由图10所示的译文变形部71和变形后译文评价部72构成的处理,可以按照同时并行的处理那样的构成。因此,这些处理可以通过网络连接的其他计算机同时并行地进行。
图13表示由上述计算机网络的机器翻译系统的网络构成的概况。参照图13,该机器翻译系统包含:控制上述系统动作的整体,进行分配输入文的处理和从译文中选择最高得分译文的处理的主计算机200;从主计算机中接受输入文,进行互相同时并行的机器翻译,将结果作为初始候补,返回主计算机200用的初始候补生成计算机210A~210N;从主计算机200分别接受其他的初始候补计算机生成的译文,把这作为初始候补,实行译文改良处理用的译文改良计算机220A~220M。
根据这样构成的机器翻译系统,因为可以将大量的计算同时并行地实行,所以能够将得到最终的输出文之前的时间大幅度的缩短。而且,得到的输出文的翻译质量和应用范围,和第1实施例的译文是相同。进一步可以实现将译文改良处理的内容细分,用更多的计算机阶段的同时并行处理,可以达到处理进一步高速化的目的。
<实施例的扩展>
在上述第1和第2实施例的构成中,可以进一步追加下面例举那样的功能。
(1)上述实施例的机器翻译系统所得到的输入文30和输出文42是成对存储的,对同样的输入文30做到返回同样的输出文42。根据这种结构,不需要重复处理,在下一次之后的处理中,可以实现大幅度提高速度。
(2)上述实施例的机器翻译系统所得到的输入文30和输出文42是成对收集,扩展了对译文集。使用该扩展后的对译文集,重构范例翻译或者统计翻译。根据该扩展,可以提高对改进范例翻译或者统计翻译的覆盖率和翻译质量的可能性。
计算机实现
而且,与本实施例相关的机器翻译系统,也可由计算机硬件和在该机算计硬件上运行的程序,及存储在该计算机的存储装置中的对译文集、翻译模型,及语言模型实现。
而且,程序根据上述实施例的说明,只要是从业者就可以很容易地实现。
图14表示实现上述机器翻译系统的计算机系统330外观,图15是表示计算机系统330的内部构成。
参照图14,该计算机系统330包含:具有FD(软盘)驱动器352和CD-ROM(高密度光盘读出专用存储器)驱动器350的计算机340;键盘346;鼠标348;显示器342。
参照图15,计算机340,在FD驱动器352和CD-ROM驱动器350的基础上,还包含:CPU(中央处理器)356;连接FD驱动器352和CD-ROM驱动器350的总线366;存储引导程序等读出专用存储器(ROM)358;连接在总线366上,存储程序指令、系统程序、及操作数据等随机存储器(RAM)360。计算机系统330而且还包含打印机344。
在这里没有指出,但是计算机340还包含:提供局域网(LAN)连接的网络适配器端口。
在计算机系统330中,用于进行上述机器翻译系统的动作的计算机程序,存储在插入CD-ROM驱动器350或者FD驱动器352中的CD-ROM或者FD364上,然后传送到硬盘354。或者,程序也可以通过图中没有表示的网络,发送到计算机340,存储在硬盘354上。程序,在执行时被装载到RAM360中。也可以从CD-ROM362、FD364,或者网络,直接地装在到RAM360中。
该程序包含:使计算机340执行上述各实施例的机器翻译系统的动作的多个指令。进行该方法的几项基本功能是由在计算机上运行的操作系统(OS),或者第3方程序,或者安装在计算机上的各种工具箱组件提供。因此,该程序可以不必包含实行本实施例系统和方法所必须的全部功能。该程序,指令中可以只含有实现上述机器翻译系统的指令,根据调出适当的指令或者“工具”,得到期望的结果。因为计算机系统330的动作是众所周知所以这里不再重复。
本次公开的实施例只是示例,本发明并不局限于上述实施例。本发明的范围,在参考发明的详细说明的基础上,由权利要求的范围的各权利要求项所表示,包含与这里所记载的文字等同意思和在该范围内的所有变更。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈