组织机构名汉英翻译方法专利检索-候选译文人工智能专利检索查询-专利查询网

组织机构名汉英翻译方法

阅读：294发布：2020-05-21

专利汇可以提供组织机构名汉英翻译方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种组织机构名汉英翻译方法，具体步骤为：获取组织机构名实体相应的扩展查询集合；采用包含扩展集合的新的检索词检索网络资源，获取混合双语摘要资源；从混合双语摘要资源抽取组织机构名实体翻译候选并按照可信度进行排序；得到翻译结果；扩展查询方法结合了实体翻译结果构造查询和共现主题词译文扩展查询两种方法，并且构建翻译模型时采用贪心算法获取翻译对最优对齐结果，提高了后续的语块抽取及语块翻译概率计算的准确度和效率，本发明考虑到组织机构名的内部结构特点，采用以语块为翻译单位建立翻译模型，重点解决候选语块的抽取及概率计算及基于上下文无关的翻译解码算法，降低了翻译时间复杂度，提高了翻译的准确度和效率。，下面是组织机构名汉英翻译方法专利的具体信息内容。

权利要求

1.一种组织机构名汉英翻译方法，其特征在于，方法步骤如下：
步骤1：获取组织机构名实体相应的扩展查询集合；
步骤2：采用包含扩展集合的新的检索词检索网络资源，获取混合双语摘要资源；
步骤3：从混合双语摘要资源抽取组织机构名实体翻译候选并按照可信度进行排序；
步骤4：得到翻译结果。
2.根据权利要求1所述的组织机构名汉英翻译方法，其特征在于，步骤1所述的扩展查询集合包含有：组织机构名实体翻译结果构造查询和共现主题词译文扩展查询，所述组织机构名实体翻译结果构造查询的具体步骤如下：构建组织机构名翻译对；对所述组织机构名翻译对进行内部对齐；根据计算的翻译可信度进行语句块的抽取；生成基于所述语句块的组织机构名翻译模型；提取有效的信息结果，
所述共现主题词译文扩展查询方法步骤为：将源查询词提交搜索引擎，获取包含源查询的源语言摘要信息，然后利用TF-IDF从获得的源语言摘要信息抽取和源查询共现的主题词汇，获得主题词汇后，从双语词典中查找这些主题词汇的译文作为该方法最后的扩展集合。
3.根据权利要求2所述的组织机构名汉英翻译方法，其特征在于，所述内部对齐的步骤为：利用机器翻译中普遍采用的GIZA++词对齐工具对机构名的汉英翻译对进行了词对位处理，包括汉-英和英-汉两个方向，根据两个方向的对齐结果的交集获取对齐锚点；抽取候选字串；根据获取每一个对齐锚点分别向左右方向扩展直至下一个对齐锚点，当前对齐锚点加上扩展的字词作为候选的字串；计算双语单语串的翻译可信度；针对每一个命名实体翻译对，采用贪心算法获取最优对齐结果。
4.根据权利要求2所述的组织机构名汉英翻译方法，其特征在于，所述翻译可信度的计算方法是使用类似于TF-IDF方法对获得的翻译片段打分，对于给定的中文串o和英文串e翻译可信度按如下公式计算：
5.根据权利要求2所述的组织机构名汉英翻译方法，其特征在于，所述语句块抽取采用上下文无关的翻译解码算法，把组织机构名分为三个部分表示关键词部分、地域或范围修饰词部分和其他修饰词部分，首先将对齐后的组织机构名实体对拆分为三个部分，并对前两类部分保留其在整个命名实体中的推导位置信息，这样形成一系列的推导规则及相应的可信度，对于给定的命名实体的翻译过程包括：语块拆分，即将给定的组织机构名拆分为三个部分；实体推导翻译，翻译的顺序为地域或范围修饰词部分，关键字部分，其他修饰词部分，如果某类部分在训练语料中不存在，则采用传统机器翻译结合音译翻译方法翻译。
6.根据权利要求3所述的组织机构名汉英翻译方法，其特征在于，所述贪心算法获取最优对齐结果具体步骤如下：对于某一特定的命名实体对，提取该实体对包含的所有{c,e}；
按照{c,e}的score的降序排序，并保存在集合scoreArray中；从scoreArray中删除第一个元素{cc,ee}，把该命名实体对按照{cc,ee}对位更新；删除scoreArray中所有的{cc,*}与{*,ee}；重复score的降序排序直到scoreArray为空；得到最佳的命名实体对对位。
7.根据权利要求1所述的组织机构名汉英翻译方法，其特征在于，步骤3所述抽取组织机构名实体结合了频度变化度量和邻接信息来抽取候选翻译串，分别计算候选翻译串和待翻译实体之间的翻译相似度、共现信息、长度信息和音译信息，综合考虑多个特征得分，按照综合得分排序，输出翻译序列。

说明书全文

组织机构名汉英翻译方法

技术领域

[0001] 本发明涉及语言翻译领域，具体涉及一种组织机构名汉英翻译方法。

背景技术

[0002] 相对于人名、地名等命名实体，组织机构名的结构更为复杂，因为组织机构名中可能既包含人名、地名甚至另一个机构名。通常对组织机构名的翻译是采用结合音译和意译进行翻译，同时由于结构复杂，需要进行一定程度的词语调序，所以对组织机构名翻译不仅仅要解决普通机器翻译固有的问题，如词语选择、词语调序，还需要解决音译问题以及音译和意译相结合的问题，因此组织结构名的翻译仍然是自然语言处理问题中的一个难点，仍具有很大的挑战性。

[0003] 目前，基于本地翻译模型的组织机构名的研究比较深入和成熟，基于统计的音译模型方法在一定程度上解决了符合音译规律的音译问题，对于部分符合音译规律或者不符合音译规律的情况无能为力。基于短语的上下文相关的组织机构名模型以传统机器模型作为基础改进，未考虑组织机构名的内部结构特点，并且时间复杂度高，针对组织机构名整体(音译和意译)的翻译模型还不够成熟，研究比较少，有必要进一步深入研究。

发明内容

[0004] 为解决上述技术问题，本发明提出了一种组织机构名汉英翻译方法，以达到更准确的翻译组织机构名的目的。

[0005] 为达到上述目的，本发明的技术方案如下：

[0006] 一种组织机构名汉英翻译方法，方法步骤如下：

[0007] 步骤1：获取组织机构名实体相应的扩展查询集合；

[0008] 步骤2：采用包含扩展集合的新的检索词检索网络资源，获取混合双语摘要资源；

[0009] 步骤3：从混合双语摘要资源抽取组织机构名实体翻译候选并按照可信度进行排序；

[0010] 步骤4：得到翻译结果。

[0011] 作为优选的，步骤1所述的扩展查询集合包含有：组织机构名实体翻译结果构造查询和共现主题词译文扩展查询，

[0012] 所述组织机构名实体翻译结果构造查询的具体步骤如下：构建组织机构名翻译对；对所述组织机构名翻译对进行内部对齐；根据计算的翻译可信度进行语句块的抽取；生成基于所述语句块的组织机构名翻译模型；提取有效的信息结果，

[0013] 所述共现主题词译文扩展查询方法步骤为：将源查询词提交搜索引擎，获取包含源查询的源语言摘要信息，然后利用TF-IDF从获得的源语言摘要信息抽取和源查询共现的主题词汇，获得主题词汇后，从双语词典中查找这些主题词汇的译文作为该方法最后的扩展集合。

[0014] 作为优选的，所述内部对齐的步骤为：利用机器翻译中普遍采用的GIZA++词对齐工具对机构名的汉英翻译对进行了词对位处理，包括汉-英和英-汉两个方向，根据两个方向的对齐结果的交集获取对齐锚点；抽取候选字串；根据获取每一个对齐锚点分别向左右方向扩展直至下一个对齐锚点，当前对齐锚点加上扩展的字词作为候选的字串；计算双语单语串的翻译可信度；针对每一个命名实体翻译对，采用贪心算法获取最优对齐结果。

[0015] 作为优选的，所述翻译可信度的计算方法是使用类似于TF-IDF方法对获得的翻译片段打分，对于给定的中文串o和英文串e翻译可信度按如下公式计算：

[0016] 作为优选的，所述语句块抽取采用上下文无关的翻译解码算法，把组织机构名分为三个部分表示关键词部分、地域或范围修饰词部分和其他修饰词部分，首先将对齐后的组织机构名实体对拆分为三个部分，并对前两类部分保留其在整个命名实体中的推导位置信息，这样形成一系列的推导规则及相应的可信度，对于给定的命名实体的翻译过程包括：语块拆分，即将给定的组织机构名拆分为三个部分；实体推导翻译，翻译的顺序为地域或范围修饰词部分，关键字部分，其他修饰词部分，如果某类部分在训练语料中不存在，则采用传统机器翻译结合音译翻译方法翻译。

[0017] 作为优选的，所述贪心算法获取最优对齐结果具体步骤如下：对于某一特定的命名实体对，提取该实体对包含的所有{c,e}；按照{c,e}的score的降序排序，并保存在集合scoreArray中；从scoreArray中删除第一个元素{cc,ee}，把该命名实体对按照{cc,ee} 对位更新；删除scoreArray中所有的{cc,*}与{*,ee}；重复score的降序排序直到 scoreArray为空；得到最佳的命名实体对对位。

[0018] 作为优选的，步骤3所述抽取组织机构名实体结合了频度变化度量和邻接信息来抽取候选翻译串，分别计算候选翻译串和待翻译实体之间的翻译相似度、共现信息、长度信息和音译信息，综合考虑多个特征得分，按照综合得分排序，输出翻译序列。

[0019] 本发明具有如下优点：

[0020] (1).本发明通过对汉英组织机构名采用翻译模型和网络翻译抽取相结合的技术进行深入研究，实现一个高性能基于翻译与网络相结合的组织机构名翻译系统，该系统能挖掘镉锭组织机构名的所有可能的翻译并计算翻译的可信度，并抽取包含该翻译的网页资源供用户阅读，最终由用户修正翻译结果，并在此基础上构建汉英组织机构名翻译词典。

[0021] (2).本发明采用贪心算法获取最优对齐结果，提高了后续的语块抽取及语块翻译概率计算的准确度和效率。

[0022] (3).本发明考虑到组织机构名的内部结构特点，采用以语块为翻译单位建立翻译模型，重点解决候选语块的抽取及概率计算及基于上下文无关的翻译解码算法，降低了翻译时间复杂度，提高了翻译的准确度和效率。附图说明

[0023] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

[0024] 图1为本发明实施例公开的翻译方法流程图；

[0025] 图2为本发明实施例公开的构建翻译模型流程图。

具体实施方式

[0026] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

[0027] 本发明提供了一种组织机构名汉英翻译方法，其工作原理是通过采用翻译模型和网络翻译抽取相结合的技术进行深入研究，实现一个高性能基于翻译与网络相结合的组织机构名翻译系统，达到准确高效翻译组织机构名的目的。

[0028] 下面结合实施例和具体实施方式对本发明作进一步详细的说明。

[0029] 如图1和图2所示，本发明的具体实现步骤如下：

[0030] 步骤1：获取组织机构名实体相应的扩展查询集合；

[0031] 步骤2：采用包含扩展集合的新的检索词检索网络资源，获取混合双语摘要资源；

[0032] 步骤3：从混合双语摘要资源抽取组织机构名实体翻译候选并按照可信度进行排序；

[0033] 步骤4：得到翻译结果。

[0034] 步骤1所述的扩展查询集合包含有：组织机构名实体翻译结果构造查询和共现主题词译文扩展查询，

[0035] 所述组织机构名实体翻译结果构造查询的具体步骤如下：构建组织机构名翻译对；对所述组织机构名翻译对进行内部对齐；根据计算的翻译可信度进行语句块的抽取；生成基于所述语句块的组织机构名翻译模型；提取有效的信息结果，

[0036] 所述共现主题词译文扩展查询方法步骤为：将源查询词提交搜索引擎，获取包含源查询的源语言摘要信息，然后利用TF-IDF从获得的源语言摘要信息抽取和源查询共现的主题词汇，获得主题词汇后，从双语词典中查找这些主题词汇的译文作为该方法最后的扩展集合。

[0037] 通过目前的对现有组织机构名结构和翻译特征的研究，研究结果为汉语组织机构名内部的词语都是实词,它们至少翻译为一个或多个英语词汇，英语组织机构名除了“of”, “with”，“the”，“and”，“for”其余的也都是实词，而且组织机构名内部的词汇对齐是呈现块状对齐结构，通过建立一个基于对齐锚点左右扩展的组织机构名内部词汇对齐方法，其中重要解决的是内部对齐的字串的概率计算及全局最优对齐方式的选择。

[0038] 首先，利用机器翻译中普遍采用的GIZA++词对齐工具对机构名的汉英翻译对进行了词对位处理，包括汉-英和英-汉两个方向，GIZA++工具在英-汉对齐时，只允许每个中文词(假设分词后)最多对应一个英文词，同样在反方向对齐时，只允许每个英文词对应一个中文词。对齐锚点为在两个方向上互为对齐的中文词和英文词。其次采用本发明提出的研究方法在第一步的基础上优化词汇对齐结果。该方法包含以下步骤：

[0039] Step 1：利用机器翻译中普遍采用的GIZA++词对齐工具对机构名的汉英翻译对进行了词对位处理，包括汉-英和英-汉两个方向。根据两个方向的对齐结果的交集获取对齐锚点；

[0040] Step 2：抽取候选字串；根据获取每一个对齐锚点分别向左右方向扩展直至下一个对齐锚点，当前对齐锚点加上扩展的字词作为候选的字串；

[0041] Step 3：计算双语单语串的翻译可信度；

[0042] Step 4：针对每一个命名实体翻译对，采用贪心算法获取最优对齐结果；

[0043] 上述步骤中的主要算法如下：

[0044] 翻译可信度的计算方法是使用类似于TF-IDF方法对获得的翻译片段打分，对于给定的中文串o和英文串e翻译可信度按如下公式计算：

[0045]

[0046] 其中：代表e与o的共现次数；代表与o互为翻译e的类别的个数；对中文的长度惩罚参数；中文片段o为一个英文片段e的翻译；N代表所有英文实体片段的类别个数。

[0047] 最优对齐的获取算法是在计算每对候选中文串c和英文串e的概率的基础上，本发明采用贪心策略获取最优对齐结果，具体步骤如下：

[0048] Step 1：对于某一特定的命名实体对，提取该实体对包含的所有{c,e}；

[0049] Step 2：按照{c,e}的score的降序排序，并保存在集合scoreArray中；

[0050] Step 3：从scoreArray中删除第一个元素{cc,ee}，把该命名实体对按照{cc,ee} 对位更新；

[0051] Step 4：删除scoreArray中所有的{cc,*}与{*,ee}；

[0052] Step 5：重复Step 2直到scoreArray为空；

[0053] Step 6：得到最佳的命名实体对对位；

[0054] 基于语句块的组织机构名翻译方法主要采用以语块为翻译单位建立翻译模型，重点解决候选语块的抽取及概率计算及基于上下文无关的翻译解码算法。

[0055] 本发明采用同步上下文无关文法来翻译组织机构名，具体而言，把组织机构名分为三个部分表示关键词部分、地域或范围修饰词部分和其他修饰词部分。首先将对齐后的组织机构名实体对拆分为三个部分，并对前两类部分保留其在整个命名实体中的推导位置信息，这样形成一系列的推导规则及相应的可信度。对于给定的命名实体的翻译过程包括：语块拆分，即将给定的组织机构名拆分为三个部分；实体推导翻译，翻译的顺序为地域或范围修饰词部分，关键字部分，其他修饰词部分。如果某类部分在训练语料中不存在，则采用传统机器翻译结合音译翻译方法翻译。

[0056] 例如：<全国安全生产委员会,National Committee of Industry Safety>在训练过程后，被抽取为三条规则：规则一：<全国#，National#>，规则二：<#委员会，Committee of#>，规则三：<安全生产，Industry Safety>及相信的翻译概率。

[0057] “全国安全生产委员会”的翻译过程为：语块切分将该命名实体切分为：地域或范围修饰词[全国]，其他修饰部分[安全生产]，关键词[委员会]；翻译过程为：使用规则一：< 全国安全生产委员会，#>-><全国安全生产委员会，National#>；使用规则二：<全国安全生产委员会，National#>-><全国安全生产委员会，National Committee of#>；使用规则三：<全国安全生产委员会，National Committee of#>-><全国安全生产委员会，National Committee of Industry Safety>。

[0058] 查询扩展方法构造是通过将抽取翻译结果中的有效信息作为词汇的内在特征，同时结合共现词作为外在特征，构造查询扩展，由于构造查询扩展的两种方法既考虑了组织结构名实体的内在特征，又考虑组织结构名实体出现网页的共现信息，因而能获取有效的双语摘要资源，同时由于双语摘要文字比较少，而且组织机构名实体识别经常会引入错误，本发明直接从双语摘要中抽取翻译，综合考虑候选串的翻译信息、长度信息、音译信息，输出综合得分最高的作为候选翻译。本发明采用了基于加权概率算法从翻译结果抽取有效信息，同时结合共现主题词译文来构造查询扩展。

[0059] 查询扩展的选取严重影响获取双语资源的数量及质量，经过分析扩展后查询返回的摘要结果，发现其质量与单纯利用源查询返回的结果相比，其质量有了明显改善，基本上包含命名实体的正确翻译。

[0060] 基于组织机构名翻译结果的查询构造主要是通过统计Top-N翻译结果中加权概率的最大的N个最小翻译单元(字或者词)，来作为该方法构造的查询扩展集合。加权频度概率按照如下公式计算：

[0061]结果，p(Ti|α)为第i个翻译结果的可信度，c代表结果中的某一个汉字或词语。

[0062] 结合组织机构名实体翻译结果构造查询和共现主题词译文扩展查询的结果，进一步对翻译结果进行抽取，翻译结果抽取的方法是采用有效的查询扩展方法获取了包含了组织机构名实体翻译的双语网页，由于组织机构名实体的识别过程经常会引入错误，故不能对获取的双语网页进行组织机构名实体识别。针对组织机构名翻译结构抽取，首先结合了频度变化度量和邻接信息来抽取候选翻译串。其次分别计算候选翻译串和待翻译实体之间的翻译相似度、共现信息、长度信息和音译信息，综合考虑多个特征得分，按照综合得分排序，输出翻译序列。

[0063] 候选翻译串抽取采用的频度变化度量和邻接信息来抽取候选翻译串。公式如下：

[0064]

[0065] 其中，s是由若干个单词组成的短语，freq(s)短语s的频度，xi是短语s中任一个单词的频度，是短语s中所有单词的平均频度，left_n是与s左邻接的不同单词总数，right_n 是与s右邻接的不同单词总数。在抽取到的候选翻译串集合中，通过计算机该候选串左右。

标题	发布/更新时间	阅读量
一种面向大数据的跨语言检索方法	2020-05-12	589
基于统计的机器翻译方法、装置及电子设备	2020-05-17	107
一种基于多特征的跨语言剽窃检测方法	2020-05-23	308
面向计算机辅助翻译的输入方法与装置	2020-05-25	657
一种固定搭配型短语优先的两段式机器翻译方法	2020-05-19	279
具有领域定制功能的术语译文挖掘系统及方法	2020-05-22	942
基于双语片段的交互式机器翻译方法	2020-05-23	270
一种机器翻译译文的翻译方法、装置及存储介质	2020-05-13	360
一种机器翻译方法、装置、服务器及存储介质	2020-05-16	384
用于机器翻译的完整句识别方法与系统	2020-05-19	787

组织机构名汉英翻译方法

组织机构名汉英翻译方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：