首页 / 专利库 / 人工智能 / 候选译文 / 一种译文中术语错译的纠正方法、系统及相关装置

一种译文中术语错译的纠正方法、系统及相关装置

阅读:376发布:2020-05-20

专利汇可以提供一种译文中术语错译的纠正方法、系统及相关装置专利检索,专利查询,专利分析的服务。并且本 申请 公开了一种译文中术语错译的纠正方法,所述纠正方法获取第一译文中目标术语的原翻译文本,并从训练集中获取与所述目标术语对应的候选翻译,将所有所述候选翻译设置为伪翻译文本;将每一个伪翻译文本分别替换第一译文中所述原翻译文本得到N个第二译文,并对第一译文和所有第二译文执行回译操作得到N+1个回译文本;将源文本和所有回译文本进行文本比较确定第一译文的翻译准确程度,并根据翻译准确程度纠正目标术语的原翻译文本。本方法能够在不依赖大量领域内资源的前提下实现 机器翻译 中领域术语的错译纠正。本申请还公开了一种译文中术语错译的纠正系统、一种计算机可读存储介质及一种译文中术语错译的纠正装置,具有以上有益效果。,下面是一种译文中术语错译的纠正方法、系统及相关装置专利的具体信息内容。

1.一种译文中术语错译的纠正方法,其特征在于,包括:
获取第一译文中目标术语的原翻译文本,并从训练集中获取与所述目标术语对应的候选翻译,将所有所述候选翻译设置为伪翻译文本;其中,所述第一译文由源文本翻译得到;
将每一个所述伪翻译文本分别替换所述第一译文中所述原翻译文本得到N个第二译文,并对所述第一译文和所有所述第二译文执行回译操作得到N+1个回译文本;
将所述源文本和所有所述回译文本进行文本比较确定所述第一译文的翻译准确程度,并根据所述翻译准确程度纠正所述目标术语的原翻译文本。
2.根据权利要求1所述纠正方法,其特征在于,从训练集中获取与所述目标术语对应的候选翻译,将所有所述候选翻译设置为伪翻译文本包括:
计算所述目标术语的哈希值,并将从所述训练集构建的短语表进行哈希分,查找与所述目标术语对应的所述候选翻译,将所有所述候选翻译设置为所述伪翻译文本。
3.根据权利要求1所述纠正方法,其特征在于,获取第一译文中目标术语的原翻译文本包括:
获取所述第一译文的词对齐信息,根据所述词对齐信息确定所述目标术语所在的所述原翻译文本。
4.根据权利要求1所述纠正方法,其特征在于,将所述源文本和所有所述回译文本进行文本比较确定所述回译文本的翻译准确程度,并根据所述翻译准确程度纠正所述目标术语的原翻译文本包括:
利用语言模型计算所有所述回译文本的语言模型概率得分,并确定所述语言模型概率得分最大值;
将所述回译文本映射为第一特征向量,将所述源文本映射为第二特征向量,并将每个所述回译文本对应的第一特征向量与所述第二特征向量之间的余弦距离设置为所述回译文本与所述源文本之间的语义相似度,确定所述语义相似度最大值;
判断所述第一译文对应的回译文本的语言模型概率得分与所述语言模型概率得分最大值的得分的差值是否小于或等于预设值,得到第一判断结果;
判断所述第一译文对应的回译文本与所述源文本之间的语义相似度是否为所述语义相似度最大值,得到第二判断结果;
判断所述第一判断结果和所述第二判断结果是否均为否;
若均为否,则判定所述原翻译文本翻译错误,并纠正所述目标术语的原翻译文本。
5.根据权利要求4所述纠正方法,其特征在于,纠正所述目标术语的原翻译文本包括:
将所述第一译文替换为所述语义相似度最大值对应的第二译文。
6.根据权利要求4所述纠正方法,其特征在于,纠正所述目标术语的原翻译文本包括:
将所有所述回译文本与所述源文本均表示为依存树,计算从每一个所述回译文本对应的依存树转化为源文本对应的依存树的最小编辑代价;
选择最小编辑代价最小的回译文本对应的第二译文作为最佳译文;
或,选择所述语义相似度与所述最小编辑代价差值最大的回译文本对应的第二译文作为所述最佳译文;
将所述第一译文替换为所述最佳译文。
7.一种译文中术语错译的纠正系统,其特征在于,包括:
同义词语获取模块,用于获取第一译文中目标术语的原翻译文本,并从训练集中获取与所述目标术语对应的候选翻译,将所有所述候选翻译设置为伪翻译文本;其中,所述第一译文由源文本翻译得到;
回译模块,用于将每一个所述伪翻译文本分别替换所述第一译文中所述原翻译文本得到N个第二译文,并对所述第一译文和所有所述第二译文执行回译操作得到N+1个回译文本;
纠正模块,用于将所述源文本和所有所述回译文本进行文本比较确定所述第一译文的翻译准确程度,并根据所述翻译准确程度纠正所述目标术语的原翻译文本。
8.根据权利要求7所述纠正系统,其特征在于,所述同义词语获取模块包括:
原翻译文本确定单元,用于获取所述第一译文的词对齐信息,根据所述词对齐信息确定所述目标术语所在的所述原翻译文本;
伪翻译文本确定单元,用于计算所述目标术语的哈希值,并将从所述训练集构建的短语表进行哈希分块,查找与所述目标术语对应的所述候选翻译,将所有所述候选翻译设置为所述伪翻译文本。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的译文中术语错译的纠正方法的步骤。
10.一种译文中术语错译的纠正装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时执行如权利要求1至6任一项所述的译文中术语错译的纠正方法的步骤。

说明书全文

一种译文中术语错译的纠正方法、系统及相关装置

技术领域

[0001] 本发明涉及机器翻译领域,特别涉及一种译文中术语错译的纠正方法、系统、一种计算机可读存储介质及一种译文中术语错译的纠正装置。

背景技术

[0002] 机器翻译技术是指使用计算机等计算设备将一种自然语言(即,源语言)的原文翻译为另一种自然语言(即,目标语言)的译文的技术。由于这一翻译过程由机器完成,所以与人工翻译相比,可以在相对短的时间处理大量的翻译工作。
[0003] 但是,当使用机器翻译技术翻译有较多特定领域专业术语的文本时,由于通用机器翻译系统的训练语料中缺乏特定领域术语的翻译或者领域术语的翻译出现次数较少导致翻译概率较低,因此使用通用的机器翻译方法来翻译此类文本经常会出错。针对上述问题,现有技术中术语机器翻译文本纠正的方法为:先将输出的译文中每个单词看作判别的对象,构造词汇特征、句法特征等,选用适当的分类模型如最大熵分类器、随机森林、双向LSTM等,对每个单词打标签,判断单词的正误;若错误则对错译的术语进行纠正。但是这种方法在纠正术语错译的过程依赖于大量领域内资源,在面向领域未知的文本时,稀缺的语言资源将限制该类方法的通用性。
[0004] 因此,如何在不依赖大量领域内资源的前提下实现机器翻译中领域术语的错译纠正是本领域技术人员目前需要解决的技术问题。

发明内容

[0005] 本申请的目的是提供一种译文中术语错译的纠正方法、系统、一种计算机可读存储介质及一种译文中术语错译的纠正装置,能够在不依赖大量领域内资源的前提下实现机器翻译中领域术语的错译纠正。
[0006] 为解决上述技术问题,本申请提供一种译文中术语错译的纠正方法,该纠正方法包括:
[0007] 获取第一译文中目标术语的原翻译文本,并从训练集中获取与所述目标术语对应的候选翻译,将所有所述候选翻译设置为伪翻译文本;其中,所述第一译文由源文本翻译得到;
[0008] 将每一个所述伪翻译文本分别替换所述第一译文中所述原翻译文本得到N个第二译文,并对所述第一译文和所有所述第二译文执行回译操作得到N+1个回译文本;
[0009] 将所述源文本和所有所述回译文本进行文本比较确定所述第一译文的翻译准确程度,并根据所述翻译准确程度纠正所述目标术语的原翻译文本。
[0010] 可选的,从训练集中获取与所述目标术语对应的候选翻译,将所有所述候选翻译设置为伪翻译文本包括:
[0011] 计算所述目标术语的哈希值,并将从所述训练集构建的短语表进行哈希分,查找与所述目标术语对应的所述候选翻译,将所有所述候选翻译设置为所述伪翻译文本。
[0012] 可选的,获取第一译文中目标术语的原翻译文本包括:
[0013] 获取所述第一译文的词对齐信息,根据所述词对齐信息确定所述目标术语所在的所述原翻译文本。
[0014] 可选的,将所述源文本和所有所述回译文本进行文本比较确定所述回译文本的翻译准确程度,并根据所述翻译准确程度纠正所述目标术语的原翻译文本包括:
[0015] 利用语言模型计算所有所述回译文本的语言模型概率得分,并确定所述语言模型概率得分最大值;
[0016] 将所述回译文本映射为第一特征向量,将所述源文本映射为第二特征向量,并将每个所述回译文本对应的第一特征向量与所述第二特征向量之间的余弦距离设置为所述回译文本与所述源文本之间的语义相似度,确定所述语义相似度最大值;
[0017] 判断所述第一译文对应的回译文本的语言模型概率得分与所述语言模型概率得分最大值的得分的差值是否小于或等于预设值,得到第一判断结果;
[0018] 判断所述第一译文对应的回译文本与所述源文本之间的语义相似度是否为所述语义相似度最大值,得到第二判断结果。
[0019] 判断所述第一判断结果和所述第二判断结果是否均为否;
[0020] 若均为否,则判定所述原翻译文本翻译错误,并纠正所述目标术语的原翻译文本。
[0021] 可选的,纠正所述目标术语的原翻译文本包括:
[0022] 将所述第一译文替换为所述语义相似度最大值对应的第二译文。
[0023] 可选的,纠正所述目标术语的原翻译文本包括:
[0024] 将所有所述回译文本与所述源文本均表示为依存树,计算从每一个所述回译文本对应的依存树转化为源文本对应的依存树的最小编辑代价;
[0025] 选择最小编辑代价最小的回译文本对应的第二译文作为最佳译文;
[0026] 或,选择所述语义相似度与所述最小编辑代价差值最大的回译文本对应的第二译文作为所述最佳译文;
[0027] 将所述第一译文替换为所述最佳译文。
[0028] 本申请还提供了一种译文中术语错译的纠正系统,该系统包括:
[0029] 同义词语获取模块,用于获取第一译文中目标术语的原翻译文本,并从训练集中获取与所述目标术语对应的候选翻译,将所有所述候选翻译设置为伪翻译文本;其中,所述第一译文由源文本翻译得到;
[0030] 回译模块,用于将每一个所述伪翻译文本分别替换所述第一译文中所述原翻译文本得到N个第二译文,并对所述第一译文和所有所述第二译文执行回译操作得到N+1个回译文本;
[0031] 纠正模块,用于将所述源文本和所有所述回译文本进行文本比较确定所述第一译文的翻译准确程度,并根据所述翻译准确程度纠正所述目标术语的原翻译文本。
[0032] 可选的,所述同义词语获取模块包括:
[0033] 原翻译文本确定单元,用于获取所述第一译文的词对齐信息,根据所述词对齐信息确定所述目标术语所在的所述原翻译文本。
[0034] 伪翻译文本确定单元,用于计算所述目标术语的哈希值,并将从所述训练集构建的短语表进行哈希分块,查找与所述目标术语对应的所述候选翻译,将所有所述候选翻译设置为所述伪翻译文本。
[0035] 本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序执行时实现上述译文中术语错译的纠正方法执行的步骤。
[0036] 本申请还提供了一种译文中术语错译的纠正装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现上述译文中术语错译的纠正方法执行的步骤。
[0037] 本发明提供了一种译文中术语错译的纠正方法,包括获取第一译文中目标术语的原翻译文本,并从训练集中获取与所述目标术语对应的候选翻译,将所有所述候选翻译设置为伪翻译文本;其中,所述第一译文由源文本翻译得到;将每一个所述伪翻译文本分别替换所述第一译文中所述原翻译文本得到N个第二译文,并对所述第一译文和所有所述第二译文执行回译操作得到N+1个回译文本;将所述源文本和所有所述回译文本进行文本比较确定所述第一译文的翻译准确程度,并根据所述翻译准确程度纠正所述目标术语的原翻译文本。
[0038] 翻译是指将第一种语言的源文本转化为表达相同语义的第二种语言的译文文本,而对第二种语言的译文文本再次执行翻译的逆向操作得到第一种语言的文本称之为回译文本,这个逆向翻译的过程就称之为回译,如果翻译得到的第二种语言的译文文本不存在错译,那么回译文本与源文本将会保持较高的一致性。进一步的,由于在某一种语言中一个词语在另一种语言中会有多个语义不同的候选翻译,而仅对候选翻译直接进行回译无法确定候选翻译的准确程度(因为即使是错误的候选翻译进行回译也可能得到正确的源文本中的原词语),因此可以将候选翻译放在有上下文的完整的句子中进行回译得到回译文本,将回译文本与源文本进行比对能够评价译文文本中某个词的翻译准确度,进而选择一个翻译准确度最高的回译文本对应的候选翻译作为正确的翻译。基于此,本发明将术语错译的识别过程转化为回译文本与源文本之间的比较问题,通过比对查找与目标术语对应的伪翻译文本进行文本的替换得到N个第二译文,将第一译文和第二译文进行回译得到多个回译文本,将所述源文本和所有所述回译文本进行文本比较确定所述第一译文的翻译准确程度,并根据所述翻译准确程度纠正所述目标术语的原翻译文本。本方案能够在不依赖大量领域内资源的前提下实现机器翻译中领域术语的错译纠正。本申请同时还提供了一种译文中术语错译的纠正系统、一种计算机可读存储介质和一种译文中术语错译的纠正装置,具有上述有益效果,在此不再赘述。附图说明
[0039] 为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0040] 图1为本申请实施例所提供的一种译文中术语错译的纠正方法的流程图
[0041] 图2为本申请实施例所提供的另一种译文中术语错译的纠正方法的流程图;
[0042] 图3为本申请实施例所提供的一种译文中术语错译的纠正系统的结构示意图。

具体实施方式

[0043] 为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0044] 下面请参见图1,图1为本申请实施例所提供的一种译文中术语错译的纠正方法的流程图。
[0045] 具体步骤可以包括:
[0046] S101:获取第一译文中目标术语的原翻译文本,并从训练集中获取与所述目标术语对应的候选翻译,将所有所述候选翻译设置为伪翻译文本;
[0047] 其中,本实施例默认是对于将第一种语言的源文本翻译为第二种语言的第一译文之后,对于译文中术语的错译文本进行纠正的过程。本步骤的目的在于获取第一译文中目标术语的其他候选翻译,即,伪翻译文本。本实施例中的源文本、回译文本和目标术语均为第一种语言,而原翻译文本、伪翻译文本、第一译文和第二译文均为第二种语言。
[0048] 首先,获取第一译文中目标术语的原翻译文本的方法有很多,例如通过词对齐信息比对源文本和第一译文中目标术语的位置来获取原翻译文本,还可以通过比较第一译文中所有词语的罕见程度来确定原翻译文本。当然,本步骤中提到的原翻译文本是第一种语言的目标术语在第二种语言中相同语义的词语,此处的原翻译文本可以是一个词,也可以是多个词的组合。
[0049] 众所周知的是,在一种语言中一个词语在另一种语言中通常会有多个翻译的存在,本实施例中获取伪翻译文本的意义在于能够评价翻译的相对准确度,即在某种语言中所有与目标术语对应的翻译文本中选择与在源文本中语义一致性最高的词语。例如:在翻译的过程中可能会存在这样的现象:将A翻译为a1,而A存在另外两种翻译a2和a3,在源文本中a2是能够最好的表达A的语义的词语,故此时可以将a2替换a1。其中,本步骤中从训练集中获取与所述目标术语对应的候选翻译,将所有所述候选翻译设置为伪翻译文本可以具体为:计算所述目标术语的哈希值,将从所述训练集构建的短语表进行哈希分块,查找与所述目标术语对应的所述候选翻译,将所有所述候选翻译设置为所述伪翻译文本。
[0050] 下面通过一个更为具体的例子说明,本实施例的过程:
[0051] 源文本:When you want to connect to some computer time,bus network more suitable.
[0052] 第一译文:当你想连接一些电脑的时候,总线网络更合适。
[0053] 目标术语为bus network,原翻译文本为总线网络。
[0054] 通过训练集确定目标术语的其他翻译:公交网络(即伪翻译文本)。
[0055] 将原翻译文本替换为伪翻译文本得到第二译文:当你想连接一些电脑的时候,公交网络更合适。
[0056] 对第一译文和第二译文进行回译:
[0057] 第一译文对应的回译文本为:When you want to connect to a computer,the bus network is more appropriate.
[0058] 第二译文对应的回译文本为:When you want to connect to some computer time,public transportation network more suitable.
[0059] 与源文本进行比较,确定第一译文对应的回译文本与源文本的相似程度较高,因此原翻译文本总线网络对应的第一译文翻译正确。
[0060] 需要说明的是,本实施例默认存在存有术语及其翻译的训练集,可以通过训练集查找与原翻译文本语义相同的伪翻译文本。源文本可以从预先构建好的测试集中获取,构建测试集的过程可以为:利用网络爬虫获取中英文摘要及关键词,筛选所述中英文摘要中带有所述关键词的语句样本;构建包含所有所述语句样本的所述测试集。具体地,可以利用网络爬虫从期刊上获取中英文摘要及关键词。首先要进行分句,检测出句子边界;其次,对于每个中文关键词,在中文摘要中定位关键词出现的句子,再去对应索引的英文句子中查找该关键词,此处对应索引可前后扩展两个窗口,原因在于,大多数人将中文摘要写成英文摘要时并不是逐句翻译的。基于此,获得的句对可以看作是互为翻译的,句对中的关键词可以看作术语。
[0061] S102:将每一个伪翻译文本分别替换第一译文中所述原翻译文本得到N个第二译文,并对第一译文和所有第二译文执行回译操作得到N+1个回译文本;
[0062] 其中,若仅仅对原翻译文本进行回译得到的回译文本和源文本进行比较,由于这样的比较缺乏关于比较结果的参照对象,因此无法准确的评价回译文本的质量。故本步骤在S101的基础上,将伪翻译文本对原翻译文本进行了替换得到N个第二译文,N为大于0的正整数,且N所代表的数值与伪翻译文本的数量一致。需要说明的是,回译虽然是翻译的逆向过程,但并不是翻译结果的逆向过程,故即使是第一译文对应的回译文本与源文本也不是完全一致的。
[0063] S103:将所述源文本和所有所述回译文本进行文本比较确定所述第一译文的翻译准确程度,并根据所述翻译准确程度纠正所述目标术语的原翻译文本。
[0064] 可以理解的是,语言是是由词汇按一定的语法所构成的复杂的符号系统,它包括语音系统、词汇系统和语法系统,而在同一种语言中,所有的句子都是遵循同一种语法规则并使用同一种词汇系统。因此,在S102已经将所有的第一译文和第二译文进行了回译的基础上,将源文本与回译文本进行比较能够评价回译文本对应的第一译文或第二译文的翻译准确程度。
[0065] 其中,本步骤中确定第一译文的翻译准确度,并根据根据翻译准确度纠正原翻译文本的操作默认存在以下步骤:
[0066] 步骤一:将所述源文本和所有所述回译文本进行文本比较确定所述第一译文的翻译准确程度;
[0067] 步骤二:判断翻译准确程度是否符合预设标准;若是,则结束流程;若否,则进入步骤三:
[0068] 步骤三:纠正所述目标术语的原翻译文本。
[0069] 翻译是指将第一种语言的源文本转化为表达相同语义的第二种语言的译文文本,而对第二种语言的译文文本再次执行翻译的逆向操作得到第一种语言的文本称之为回译文本,这个逆向翻译的过程就称之为回译,如果翻译得到的第二种语言的译文文本不存在错译,那么回译文本与源文本将会保持较高的一致性。进一步的,由于在某一种语言中一个词语在另一种语言中会有多个语义不同的候选翻译,而仅对候选翻译直接进行回译无法确定候选翻译的准确程度(因为即使是错误的候选翻译进行回译也可能得到正确的源文本中的原词语),因此可以将候选翻译放在有上下文的完整的句子中进行回译得到回译文本,将回译文本与源文本进行比对能够评价译文文本中某个词的翻译准确度,进而选择一个翻译准确度最高的回译文本对应的候选翻译作为正确的翻译。基于此,本实施例将术语错译的识别过程转化为回译文本与源文本之间的比较问题,通过比对查找与目标术语对应的伪翻译文本进行文本的替换得到N个第二译文,将第一译文和第二译文进行回译得到多个回译文本,将所述源文本和所有所述回译文本进行文本比较确定所述第一译文的翻译准确程度,并根据所述翻译准确程度纠正所述目标术语的原翻译文本。本实施例能够在不依赖大量领域内资源的前提下实现机器翻译中领域术语的错译纠正。
[0070] 下面请参见图2,图2为本申请实施例所提供的另一种译文中术语错译的纠正方法的流程图;在本实施例中对上一步骤中S103的操作进行了进一步的解释,其他步骤与上一实施例基本一致,可以相互参见,此处不再赘述。
[0071] 具体步骤可以包括:
[0072] S201:获取所述第一译文的词对齐信息,根据所述词对齐信息确定所述目标术语所在的所述原翻译文本;
[0073] S202:计算所述目标术语的哈希值,并将从所述训练集构建的短语表进行哈希分块,查找与所述目标术语对应的所述候选翻译,将所有所述候选翻译设置为所述伪翻译文本。
[0074] S203:将每一个所述伪翻译文本分别替换所述第一译文中所述原翻译文本得到N个第二译文,并对所述第一译文和所有所述第二译文执行回译操作得到N+1个回译文本;
[0075] S204:利用语言模型计算所有所述回译文本的语言模型概率得分,并确定所述语言模型概率得分最大值;
[0076] 具体地,通过大规模单语英文语料训练ngram语言模型,对于每个回译文本,分词结果为w1,w2,...,wn,计算语言模型概率得分logp(w1,w2,...,wn),其中p为该句子为依据正常语言的可能性。当使用5gram语言模型时
[0077] m为4。
[0078] S205:将所述回译文本映射为第一特征向量,将所述源文本映射为第二特征向量,并将每个所述回译文本对应的第一特征向量与所述第二特征向量之间的余弦距离设置为所述回译文本与所述源文本之间的语义相似度,确定所述语义相似度最大值;
[0079] 具体地举例说明S207中的过程,给定连续的三个句子(si-1,si,si+1),令 表示句子si中的第t个单词, 为对应的词向量。下面的公式给出了句子si的编码过程。
[0080] rt=σ(Wrxt+Urht-1)
[0081] zt=σ(Wzxt+Uzht-1)
[0082]
[0083]
[0084] zt和rt分别为更新和重置门。更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多。重置门用于控制忽略前一时刻的状态信息的程度,重置门的值越小说明忽略得越多,h表示每个时刻的隐藏状态, 为当前记忆内容,⊙为为Hadamard乘积,即矩阵对应元素乘积。
[0085] 解码器是一种以编码器的输出hi为条件的神经语言模型。计算过程与编码类似,不同之处在于引入矩阵Cz,Cr以及C,用句子向量来偏置更新门、重置门和隐藏状态的计算。需要两个解码器对周围句子si-1和si+1分别进行解码,以句子si+1为例,令 为t时刻的隐藏状态,下面的公式给出了句子si+1的解码过程。
[0086]
[0087]
[0088]
[0089]
[0090] 第t个单词的概率为:
[0091]
[0092] 给定元组(si-1,si,si+1),目标函数旨在以当前句子的隐藏状态为条件,优化前一个句子和后一个句子的对数概率之和,数学定义如以下公式所示,总损失函数为在所有训练样本上的目标函数之和。
[0093]
[0094] 获得预训练的模型后,将回译译文与源文本分别输入模型,获得句子最后一个单词的隐层状态即可表示整个句子。计算两个向量的语义余弦相似度,数值越大,代表两个句子语义越相近。
[0095] S206:判断所述第一译文对应的回译文本的语言模型概率得分与所述语言模型概率得分最大值的得分的差值是否小于或等于预设值,得到第一判断结果,并进入S208;
[0096] S207:判断所述第一译文对应的回译文本与所述源文本之间的语义相似度是否为所述语义相似度最大值,得到第二判断结果,并进入S208;
[0097] S208:判断所述第一判断结果和所述第二判断结果是否均为否;若均为否,则进入S209;若不均为否,则结束流程。
[0098] 具体的,进入S209的条件为:第一译文对应的回译文本的语言模型概率得分与语言模型概率得分最大值之差大于预设值(作为优选的方案,该预设值可以为0.015)且第一译文对应的回译文本与所述源文本之间的语义相似度不是语义相似度的最大值,若满足该条件则说明第一译文中关于目标术语的原翻译文本存在错译的现象,需要进行纠正。
[0099] S209:判定所述原翻译文本翻译错误,并纠正所述目标术语的原翻译文本。
[0100] 其中,本步骤是建立在已经确定原翻译文本存在错译的基础上,对原翻译文本进行纠正。其中,纠正目标术语的原翻译文本的方法可以有很多种,下面举例说明三种优选的纠正方法:
[0101] 纠正方法一:将所述第一译文替换为所述语义相似度最大值对应的第二译文。
[0102] 纠正方法二:将所有所述回译文本与所述源文本均表示为依存树,计算从每一个所述回译文本对应的依存树转化为源文本对应的依存树的最小编辑代价;选择最小编辑代价最小的回译文本对应的第二译文作为最佳译文并将所述第一译文替换为所述最佳译文。
[0103] 纠正方法三:将所有所述回译文本与所述源文本均表示为依存树,计算从每一个所述回译文本对应的依存树转化为源文本对应的依存树的最小编辑代价;选择所述语义相似度与所述最小编辑代价差值最大的回译文本对应的第二译文作为所述最佳译文并将所述第一译文替换为所述最佳译文。
[0104] 需要说明的是,上面提到的计算从每一个所述回译文本对应的依存树转化为源文本对应的依存树的最小编辑代价的过程如下:
[0105] 具体地,使用斯坦福自然语言处理工具分析回译文本与源文本的依存树。在依存树中,将每个结点表示为三个字段:词根、词性标注、与父结点的依存关系。基本的编辑操作被重新定义为九种类型,前六种(INS_LEAF,INS_SUBTREE,INS,DEL_LEAF,DEL_SUBTREE,DEL)插入或删除一个叶子结点、一整颗子树或任意一个结点既不是叶子结点也不是子树中的一部分。后三种(REN_POS,REN_DEP,REN_POS_DEP)重命名词性标注、依存关系或者两者全部重命名。
[0106] 开始时,令每个基本编辑操作的代价都为1.0,这使得整个结点的插入或删除操作代价为3(三个字段全部插入或删除)。允许词性标注或者关系类型的重命名当且仅当源结点和目标结点的词根是相同的。若两个结点相同不出现在编辑脚本中,或者因为相同的词根被重命名,称这两个结点是按树编辑模型对齐的。此外,将停用词的重命名代价修改为2.5,不管两个停用词是否有相同的词性标注或关系类型。原因在于,停用词往往有固定的词性标注以及依存关系,因此与重命名实词相比,会以更低的代价获得对齐。
[0107] 若翻译系统输出译文中的术语是错误的,再对译文进行回译,回译文本的句法结构很可能会与源文本不同。基于此,使用上述方法计算回译文本与源文本依存树间的树编辑距离,距离越小,两个句子的句法结构相似度越高。
[0108] 为了检验本文所提领域术语错译识别方法的有效性,评价指标选用准确率PR,定义如下:
[0109]
[0110] 其中,上述公式中分子#of correctly translated terms为所有源文本(测试集中的所有文本)中被正确翻译的术语个数,分母Total#of terms为所有源文本中术语的总个数。
[0111] 请参见图3,图3为本申请实施例所提供的一种译文中术语错译的纠正系统的结构示意图;
[0112] 该纠正系统可以包括:
[0113] 同义词语获取模块100,用于获取第一译文中目标术语的原翻译文本,并从训练集中获取与所述目标术语对应的候选翻译,将所有所述候选翻译设置为伪翻译文本;其中,所述第一译文由源文本翻译得到;
[0114] 回译模块200,用于将每一个所述伪翻译文本分别替换所述第一译文中所述原翻译文本得到N个第二译文,并对所述第一译文和所有所述第二译文执行回译操作得到N+1个回译文本;
[0115] 纠正模块300,用于将所述源文本和所有所述回译文本进行文本比较确定所述第一译文的翻译准确程度,并根据所述翻译准确程度纠正所述目标术语的原翻译文本。
[0116] 进一步的,同义词语获取模块100包括:
[0117] 原翻译文本确定单元,用于获取所述第一译文的词对齐信息,根据所述词对齐信息确定所述目标术语所在的所述原翻译文本。
[0118] 伪翻译文本确定单元,用于计算所述目标术语的哈希值,并将从所述训练集构建的短语表进行哈希分块,查找与所述目标术语对应的所述候选翻译,将所有所述候选翻译设置为所述伪翻译文本。
[0119] 进一步的,纠正模块300包括:
[0120] 语言模型概率得分计算单元,用于利用语言模型计算所有所述回译文本的语言模型概率得分,并确定所述语言模型概率得分最大值;
[0121] 语义相似度计算单元,用于将所述回译文本映射为第一特征向量,将所述源文本映射为第二特征向量,并将每个所述回译文本对应的第一特征向量与所述第二特征向量之间的余弦距离设置为所述回译文本与所述源文本之间的语义相似度,确定所述语义相似度最大值;
[0122] 第一评价单元,用于判断所述第一译文对应的回译文本的语言模型概率得分与所述语言模型概率得分最大值的得分的差值是否小于或等于预设值,得到第一判断结果;
[0123] 第二评价单元,用于判断所述第一译文对应的回译文本与所述源文本之间的语义相似度是否为所述语义相似度最大值,得到第二判断结果。
[0124] 判断单元,用于判断所述第一判断结果和所述第二判断结果是否均为否;
[0125] 文本纠正单元,用于当所述第一判断结果和所述第二判断结果均为否时,则判定所述原翻译文本翻译错误,并纠正所述目标术语的原翻译文本。
[0126] 进一步的,所述文本纠正单元包括:
[0127] 第一纠正子单元,用于将所述第一译文替换为所述语义相似度最大值对应的第二译文。
[0128] 编辑代价计算子单元,用于将所有所述回译文本与所述源文本均表示为依存树,计算从每一个所述回译文本对应的依存树转化为源文本对应的依存树的最小编辑代价;
[0129] 或,第二纠正子单元,用于选择最小编辑代价最小的回译文本对应的第二译文作为最佳译文并将所述第一译文替换为所述最佳译文。
[0130] 或,第二纠正子单元,用于选择所述语义相似度与所述最小编辑代价差值最大的回译文本对应的第二译文作为所述最佳译文并将所述第一译文替换为所述最佳译文。
[0131] 由于系统部分的实施例与方法部分的实施例相互对应,因此系统部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
[0132] 本申请还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
[0133] 本申请还提供了一种译文中术语错译的纠正装置,可以包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然所述译文中术语错译的纠正装置还可以包括各种网络接口,电源等组件。
[0134] 说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
[0135] 还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈