专利汇可以提供机器翻译系统、机器翻译方法以及机器翻译系统的控制装置专利检索,专利查询,专利分析的服务。并且机器翻译 系统包含:译文候选生成部,将第1语言的输入文分别分配给用于生成第2语言译文的多个机器翻译装置,并从各机器翻译装置,接受对于输入文的第2语言的译文;译文改良部,以译文候选生成部接受的多个第2语言的各译文为起点,按照以规定的评价方式改进评价那样改良译文;和结束判定部,在译文改良部改良的译文中,将满足规定的条件译文作为对输入文的译文进行选择;译文改良部包含:译文 变形 部,对输入的译文进行规定的变形;译文评价部,对变形的译文进行评价;和重复控制部,判断对变形后的译文得到的评价,相对于输入的译文得到的评价是否被改进,在确认没有改进之前,重复进行变形和评价,按照这样控制译文变形部和译文评价部。,下面是机器翻译系统、机器翻译方法以及机器翻译系统的控制装置专利的具体信息内容。
1.一种机器翻译系统,其特征在于,包括:
译文候选生成部,对第1语言的输入文,将所述输入文分别分配给用于生成第2语言译文的多个机器翻译装置,并从所述多个机器翻译装置的每一个中,接受对于所述输入文的所述第2语言的译文;
译文改良部,以所述译文候选生成部接受的多个所述第2语言的每一个译文作为起点,按照以规定的评价方式改进评价那样改良译文;和
结束判定部,被所述译文改良部改良的译文中,将满足规定的条件译文作为对所述输入文的译文进行选择;
所述译文改良部包含:
译文变形部,对被输入的译文,进行规定的变形;
译文评价部,对被所述译文变形部变形的译文进行所述评价;和
重复控制部,判断所述译文评价部对变形后的译文得到的评价,相对于所述输入的译文得到的评价是否被改进,在确认没有改进之前,重复进行所述变形和所述评价,按照这样控制所述译文变形部和所述译文评价部。
2.根据权利要求1所述的机器翻译系统,其特征在于,进一步包含分别连接在所述译文候选生成部上的所述多个机器翻译装置。
3.根据权利要求2所述的机器翻译系统,其特征在于,所述多个机器翻译装置含有互不相同方式的第1和第2机器翻译装置。
4.根据权利要求1所述的机器翻译系统,其特征在于,
所述译文变形部,对于一个译文,进行多个变形,生成多个被变形的译文;
所述译文评价部,对于所述多个被变形的每一个译文进行所述评价。
5.根据权利要求4所述的机器翻译系统,其特征在于,
所述重复控制部对所述译文变形部和所述译文评价部进行控制,以对所述译文变形部变形的多个译文的每一个,在所述译文评价部的评价没有出现改进之前,重复实行所述变形和所述评价。
6.根据权利要求4所述的机器翻译系统,其特征在于,
所述重复控制部对所述译文变形部和所述译文评价部进行控制,以对所述译文变形部变形的多个译文中,对于评价在前几位规定个数内的每个译文,由所述译文评价部的评价没有出现改进之前,重复实行所述变形和所述评价。
7.根据权利要求1所述的机器翻译系统,其特征在于,
所述译文评价部根据所述第2语言的语言模型和从所述第2语言向所述第1语言的翻译模型,计算译文的类似度。
8.根据权利要求1所述的机器翻译系统,其特征在于,
所述重复控制部,对被所述译文变形机构变形后的译文,只将所述变形和所述评价重复进行预定的次数那样,控制所述译文变形部和所述译文评价部。
9.根据权利要求8所述的机器翻译系统,其特征在于,所述结束判定部在所述重复控制部的重复中得到的多个译文当中,选择由所述译文评价部评价最高的译文。
10.根据权利要求8所述的机器翻译系统,其特征在于,所述译文评价部根据所述第2语言的语言模型和从所述第2语言向所述第1语言的翻译模型,计算译文类似度。
11.一种机器翻译系统的控制装置,其特征在于:
对互相不同方式的多个机器翻译装置分配第1语言的输入文,分别接收对应的第2语言的译文;
将所接收的所述第2语言的译文,分别作为所述第2语言的译文的各个起点,分别给予象改进遵照规定评价方式的评价那样将译文变形的多个译文变形部,接受被变形的多个译文和各自附带的评价值;
在所接收的变形后的译文中,选择具有最高得分的译文并输出。
12.一种机器翻译方法,其特征在于,包含:
对于第1语言的输入文,将所述输入文分配给用于分别生成第2语言译文的多个机器翻译装置,从所述多个机器翻译装置的每一个中接受对于所述输入文的所述第2语言的译文,根据这样准备多个候补译文的步骤;
对于在所述准备步骤中接受的所述多个候补译文的每一个,按照以规定的变形、规定的评价方式计算出的评价被改进那样,进行改良的步骤;和
在所述改良步骤中被改良的候补译文当中,将满足规定的选择条件的译文作为对所述输入文的译文进行选择的步骤;
所述改良步骤包含:
将所述多个候补译文的每一个,按照规定的变形方式进行变形的步骤;
将在所述变形步骤中变形后的候补译文按照规定的评价方式进行评价的步骤;
判断在所述评价步骤中对候补译文得到的评价值,相对于被输入到所述变形步骤的候补译文所得到的评价值是否被改进的步骤;和
在所述判断步骤中,到评价值被确认未改进之前,对变形步骤变形的候补译文,重复进行所述变形的步骤和所述评价的重复步骤。
13.根据权利要求12所述的机器翻译方法,其特征在于,
所述评价步骤包含,根据所述第2语言的语言模型和从所述第2语言向所述第1语言的翻译模型,将在所述变形步骤中被变形的候补译文的类似度作为所述评价值进行计算的步骤。
14.根据权利要求12所述的机器翻译方法,其特征在于,
所述变形步骤包含,对一个候补译文进行多个变形,生成多个变形的候补译文的步骤;
所述评价步骤包含,对于所述多个变形的候补译文的每一个进行评价的步骤。
15.根据权利要求14所述的机器翻译方法,其特征在于,
所述重复步骤包含,对于由所述变形步骤变形的多个候补译文的每一个,所述评价步骤的评价未出现改进之前,重复进行所述变形步骤和所述评价步骤的步骤。
16.根据权利要求14所述的机器翻译方法,其特征在于,
所述重复步骤包含,在由所述变形步骤变形的多个候补译文中,对于评价在前几位规定个数内的每一个译文,所述评价步骤的评价未出现改进之前,重复进行所述变形步骤和所述评价步骤的步骤。
17、根据权利要求12所述的机器翻译方法,其特征在于,
所述选择步骤包含,在所述重复步骤重复进行中得到的多个候补译文当中,选择所述评价步骤的评价值最高的译文的步骤。
18.根据权利要求12所述的机器翻译方法,其特征在于,
所述改良步骤包含:
对于输入的候补译文,进行规定变形的步骤;
在所述变形步骤中被变形的候补译文的每一个按照所述评价方式进行评价的步骤;和
对由所述变形步骤变形的候补译文,将所述变形和所述评价只重复进行预定次数的步骤。
19.根据权利要求18所述的机器翻译方法,其特征在于,
所述选择步骤包含,在所述重复步骤的重复过程中得到的多个译文候补中,选择所述评价步骤的评价值最高的译文的步骤。
20.根据权利要求12所述的机器翻译方法,其特征在于,所述评价步骤包含,根据所述第2语言的语言模型和从所述第2语言的语言模型向所述第1语言的翻译模型,在所述变形步骤中变形的候补译文的类似度作为所述评价值计算的步骤。
本发明涉及机器翻译系统,特别涉及在任意两种语言之间的翻译中,在有效活用可利用的语言资源的情况下可进行高精度的翻译的机器翻译系统、机器翻译方法以及机器翻译系统的控制装置。
表示位置独立(Positiong-independent)WER。这时除了位置问题,反映只和插入删除相关的编辑距离的手法。表示BLEU得分。在翻译结果的N元当中,在作为基准的标准翻译中,出现的几率。与上述WER和PER不同,BLEU得分值越高翻译质量越好。
而且,评价除此之外使用哪种的手法进行都可以。另外,也可以根据领域采用特定的评价手法。如果将来出现有效的手法,也可以采用。
而且,重复控制部74在变形的译文的翻译质量未出现改良时结束重复变形。在翻译质量没出现改良时也可以继续变形。只是,本实施例因为在重复控制中使用登山法,所以如果翻译质量恶化就结束重复变形。
这样,译文改良部36将译文变形,评出具有最高评价的译文作为输出译文,与得分一起输出到结束判断部38。
结束判断部38,根据从译文改良部36的输出文76和其得分,判断是否让处理结束。在本实施例中,对于单纯对在候补译文生成部32所包含的第1~第5翻译装置35A~35E的输出全部,判断译文改良部36的处理是否结束。在对于所有结束时,将最高得分的译文作为输出文42输出。对于所有没有结束时,对于下面的翻译装置按照进行上述处理那样,把控制信号输出到候补译文生成部32,使处理继续。
作为处理结束条件,不限于此,下面例举的示例条件中可以任意采用。但是,这个结束条件与翻译质量改良时的重复操作方法有关系,可能出现:特定的重复方法只能用特定的结束判断,或者特定的结束判断不能适用特定的重复方法等情况。但是这些都属于设计事项的问题,只要是从业者就可以选择合适的结束条件。
(1)如果超过预先设定的重复次数或者计算时间就结束。
(2)如果在预先设定的重复次数或者计算时间内翻译质量没有得到改良就结束。
(3)如果翻译质量没有得到改良就结束。
(4)如果得到达到预先设定的目标得分的译文就结束。
-动作-
机器翻译系统20按照下面那样动作。图3所示的对译文集34中,预先包含由第1语言的原文和第2语言的译文组成的多个对译文。另外语言模型和翻译模型也根据某种方式预先准备。
参照图1,输入文30被给予候补译文生成部32。
参照图2,分配部33将输入文30给予第1翻译装置35A。
参照图3,第1翻译装置35A的tf/idf计算部50A,计算输入文30和对译文集34中所有对译文中的第1语言的句子之间的tf/idf基准Ptf/idf。编辑距离计算部52A,同样计算输入文30和所有对译文集34中的第1语言的句子Jk之间的编辑距离dis(Jk,J0)。
得分计算部54A,使用tf/idf计算部50A计算出的tf/idf基准Ptf/idf和编辑距离计算部52A计算出的编辑距离dis(Jk,J0),按照下面的式子,计算出上述得分score。
对译文选择部56A,在对译文集34中所包含的对译文中,选择得分score高的译文,作为译文39A给予图2所示的选择部37。
选择部37,根据结束判断部38的控制信号选择译文39A,作为译文39给予译文改良部36。
参照图10,译文改良部36的译文选择部70,选择被给予的初始候补译文39给予译文变形部71。译文选择部71对于该译文进行规定的几种变形,把得到的多个变形译文给予译文变形后译文评价部72。变形后译文评价部72,对于各个被变形的译文,按照上述那样根据规定的评价方式进行评价,与其得分一起给予译文存储部73。变形后译文评价部72,另外还把这些得分给予重复控制部74。
重复控制部74,判断这些得分是否满足规定的条件。在本实施例中,重复控制部74,如果认为任一得分没有被改善,就结束处理。在最初的处理中,通常认为根据几种变形得到的译文得分是被改善,所以重复控制部74对于译文选择部70、译文变形部71、及译文存储部73输出重复处理指示,同时对译文存储部73输出,方才存储的译文中得分出现改善的译文之一输出到译文选择部70这样的指示。
译文选择部70,根据这一次重复控制部74发出的指示,选择从译文存储部73给予的被变形的译文之一,给予译文变形部71。译文变形部71,对给予的译文进行和上述同样的几种变形。对于各个由该变形得到的译文,变形后译文评价部72进行再次评价计算得分,重复控制部74判断得分是否被改善。译文变形部71、变形后译文评价部72、译文存储部73、及重复控制部74,一边进行改变变形对象的译文一边重复进行这种处理,直到在任一译文的得分都不出现改善为止。
象以上这样,对于一个候补译文按照多个变形进行,评价这些得分,对得分出现改善的译文进一步进行同样的变形和评价,这个动作重复实行到对任一变形后的译文都不见改善为止,根据这样得到与初始候补译文39相比得分提高很大的译文的可能性大。
如果哪个译文的得分都不见改善,那么重复控制部74,按照在上述重复处理中,把最高得分的译文作为输出文76输出这样控制译文存储部73,并把结束信号给予图1所示的结束判断部38。
结束判断部38,响应该结束信号,判断是否应该将处理停止。在本实施例中,关于图2所示第1~第5翻译装置35A~35E的全体,对于其生成的译文的改良处理结束,全部处理才结束。因此结束判断部38,根据第2翻译装置35B生成的译文,应将上述译文重复进行改良,把控制信号41给予候补译文生成部32。
参照图2,分配部33响应给信号,把输入文30给予第2翻译装置35B。第2翻译装置35B,如图4所示那样,进行第1中间翻译装置50B和第2中间翻译装置52B的翻译处理,生成译文39B,给予选择部37。
选择部37,根据结束判断部38输出的控制信号,选择第2翻译装置35B的输出译文39B,作为初始候补译文39给予译文改良部36。以下,译文改良部36和选择部37,重复进行与第1翻译装置35A的译文处理相同的处理。
这样,对于第1~第5翻译装置35A~35E生成的译文39A~39E的全体,上述译文改良处理一结束,图10所示的重复控制部74就把完毕信号77给予图1所示的结束判断部38。结束判断部38,一接到该完毕信号77,就判断处理满足应该结束的条件,在至今以前的处理中得到的译文中,把得分最高的译文作为输出文42输出。
作为候补译文生成部32使用的翻译装置,是已经存在的装置,也包括今后可以利用的装置,哪种装置都可以利用。
根据本实施例,对于同一输入文,由互相不同的多个机器翻译系统得到的译文作为各自的起点,进行译文改良,分别选择具有最优得分的译文,进一步从中选择具有最高得分的译文作为最终的译文。因为从多个译文开始的,所以不但是局部解,而且获得大范围的最优解的可能性很大。另外,作为用于得到的最初译文的机器翻译系统,无论是哪种都可以,可以充分利用现有的机器翻译系统。而且甚至也可以利用今后开发的机器翻译系统或者翻译评价手法,使用这种结构,译文的品质可以达到很高。
只要确定用于翻译质量的基准和手法及基本的多个机器翻译系统,不管语言组合,都能改良任意语言之间的译文质量。
而且,在上述的机器翻译系统中,具有为了改良译文的品质基本上不需要人工,系统结构的开发也比较地简单,具有短期内可以实现的特点。
而且上述实施例中,被变形的译文中,得分上出现提高的译文全体再次进行译文的改良。但是,本发明并不局限于这样的实施例。例如,被变形的译文在得分上出现提高的译文中,只对处于前几位规定个数(例如1个)的译文,进行其后的变形和评价也可以。
另外,优选进行多种变形,但是只进行一种变形也可以。
另外,在上述实施例中,使多个机器翻译装置顺序地动作,做到一次只让一个机器翻译装置动作。但是,本发明并不局限于这样的实施方式。使多个机器翻译装置同时动作也可以。另外,如第2实施例,也可以使最初的机器翻译和其后的译文改良任一个并列实施。
(第2实施例)
如上述那样,第1实施例的装置可以由计算机实现。另外,从图2等也表明,第1实施例的装置,包含其内部可以相互独立动作的构成要素(例如,第1~第5翻译装置35A~35E、第1~第3翻译部50C-1~50C-3、第4~第6翻译部50D-1~50D-3、第7~第9翻译部50E-1~50E-3等)。因此根据使用计算机的通信功能和任务分配功能,可以将第1实施例的系统用网络连接的多个计算机实现。第2实施例的系统,是象这样把多个计算机互相用网络连接,将上述处理中能够并行实行的,用各个计算机互相并行实行的系统。
图11表示该机器翻译系统100的概要的功能结构。参照图11,机器翻译系统100包含:根据各个输入文30,分别基于使用个别的翻译系统翻译的译文,进行上述译文改良处理,生成最优的译文用的多个最优生成部102A~102N;根据这些最优生成部102A~102N分别生成的最优的翻译中,选择具有最高得分的译文作为输出文进行输出的译文选择部104。
最优选择部102A~102N,可以由互相独立的计算机和完成上述动作的程序实现。设置主计算机与这些计算机用网络连接起来,可以用这个主计算机对各个计算机的输入文30的分配,及接受来自各计算机的译文从中选择最优的翻译。
图12是表示作为第1最优翻译生成部102A的功能性构成。该最优翻译生成部102A,如上所述,是通过网络连接在主计算机上的计算机和在其中运行的程序实现。其他的最优翻译生成部,除了初始候补翻译部不同之外,都具有同样的构成。
最优翻译生成部102A,和图2所示的候补译文生成部32相同,包含:只具有一个翻译装置的初始候补生成部106A;将初始候补生成部106A生成的译文作为初始候补译文,进行与图10所示的译文改良部36同样的处理,生成该最优译文生成部102A的输出文108A,发送到主计算机用的译文改良部107A。
译文改良部107A的构成,与图10所示的译文改良部36的构成同样。但是,由图10所示的译文变形部71和变形后译文评价部72构成的处理,可以按照同时并行的处理那样的构成。因此,这些处理可以通过网络连接的其他计算机同时并行地进行。
图13表示由上述计算机网络的机器翻译系统的网络构成的概况。参照图13,该机器翻译系统包含:控制上述系统动作的整体,进行分配输入文的处理和从译文中选择最高得分译文的处理的主计算机200;从主计算机中接受输入文,进行互相同时并行的机器翻译,将结果作为初始候补,返回主计算机200用的初始候补生成计算机210A~210N;从主计算机200分别接受其他的初始候补计算机生成的译文,把这作为初始候补,实行译文改良处理用的译文改良计算机220A~220M。
根据这样构成的机器翻译系统,因为可以将大量的计算同时并行地实行,所以能够将得到最终的输出文之前的时间大幅度的缩短。而且,得到的输出文的翻译质量和应用范围,和第1实施例的译文是相同。进一步可以实现将译文改良处理的内容细分,用更多的计算机阶段的同时并行处理,可以达到处理进一步高速化的目的。
<实施例的扩展>
在上述第1和第2实施例的构成中,可以进一步追加下面例举那样的功能。
(1)上述实施例的机器翻译系统所得到的输入文30和输出文42是成对存储的,对同样的输入文30做到返回同样的输出文42。根据这种结构,不需要重复处理,在下一次之后的处理中,可以实现大幅度提高速度。
(2)上述实施例的机器翻译系统所得到的输入文30和输出文42是成对收集,扩展了对译文集。使用该扩展后的对译文集,重构范例翻译或者统计翻译。根据该扩展,可以提高对改进范例翻译或者统计翻译的覆盖率和翻译质量的可能性。
计算机实现
而且,与本实施例相关的机器翻译系统,也可由计算机硬件和在该机算计硬件上运行的程序,及存储在该计算机的存储装置中的对译文集、翻译模型,及语言模型实现。
而且,程序根据上述实施例的说明,只要是从业者就可以很容易地实现。
图14表示实现上述机器翻译系统的计算机系统330外观,图15是表示计算机系统330的内部构成。
参照图14,该计算机系统330包含:具有FD(软盘)驱动器352和CD-ROM(高密度光盘读出专用存储器)驱动器350的计算机340;键盘346;鼠标348;显示器342。
参照图15,计算机340,在FD驱动器352和CD-ROM驱动器350的基础上,还包含:CPU(中央处理器)356;连接FD驱动器352和CD-ROM驱动器350的总线366;存储引导程序等读出专用存储器(ROM)358;连接在总线366上,存储程序指令、系统程序、及操作数据等随机存储器(RAM)360。计算机系统330而且还包含打印机344。
在这里没有指出,但是计算机340还包含:提供局域网(LAN)连接的网络适配器端口。
在计算机系统330中,用于进行上述机器翻译系统的动作的计算机程序,存储在插入CD-ROM驱动器350或者FD驱动器352中的CD-ROM或者FD364上,然后传送到硬盘354。或者,程序也可以通过图中没有表示的网络,发送到计算机340,存储在硬盘354上。程序,在执行时被装载到RAM360中。也可以从CD-ROM362、FD364,或者网络,直接地装在到RAM360中。
该程序包含:使计算机340执行上述各实施例的机器翻译系统的动作的多个指令。进行该方法的几项基本功能是由在计算机上运行的操作系统(OS),或者第3方程序,或者安装在计算机上的各种工具箱组件提供。因此,该程序可以不必包含实行本实施例系统和方法所必须的全部功能。该程序,指令中可以只含有实现上述机器翻译系统的指令,根据调出适当的指令或者“工具”,得到期望的结果。因为计算机系统330的动作是众所周知所以这里不再重复。
本次公开的实施例只是示例,本发明并不局限于上述实施例。本发明的范围,在参考发明的详细说明的基础上,由权利要求的范围的各权利要求项所表示,包含与这里所记载的文字等同意思和在该范围内的所有变更。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种生成候选译文的方法、装置及电子设备 | 2020-05-16 | 157 |
一种译文中术语错译的纠正方法、系统及相关装置 | 2020-05-20 | 376 |
一种基于字节对编码技术的蒙汉机器翻译系统 | 2020-05-12 | 320 |
数据处理方法、装置及电子设备 | 2020-05-14 | 933 |
基于各种意思类别的翻译结果的提供方法及系统 | 2020-05-22 | 37 |
数据翻译的方法和装置 | 2020-05-24 | 295 |
一种机器翻译方法、装置、服务器及存储介质 | 2020-05-16 | 384 |
基于RNN模型的机器翻译方法和装置 | 2020-05-16 | 517 |
一种基于深度学习的机器翻译系统的融合系统及方法 | 2020-05-20 | 146 |
基于翻译历史的辅助翻译方法、装置、设备及存储介质 | 2020-05-18 | 726 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。