首页 / 专利库 / 人工智能 / 候选译文 / 组织机构名汉英翻译方法

组织机构名汉英翻译方法

阅读:294发布:2020-05-21

专利汇可以提供组织机构名汉英翻译方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种组织机构名汉英翻译方法,具体步骤为:获取组织机构名实体相应的扩展查询集合;采用包含扩展集合的新的检索词检索网络资源,获取混合双语 摘要 资源;从混合双语摘要资源 抽取 组织机构名实体翻译候选并按照可信度进行排序;得到翻译结果;扩展查询方法结合了实体翻译结果构造查询和共现主题词译文扩展查询两种方法,并且构建翻译模型时采用贪心 算法 获取翻译对最优对齐结果,提高了后续的语 块 抽取及语块翻译概率计算的准确度和效率,本发明考虑到组织机构名的内部结构特点,采用以语块为翻译单位建立翻译模型,重点解决候选语块的抽取及概率计算及基于上下文无关的翻译解码算法,降低了翻译时间复杂度,提高了翻译的准确度和效率。,下面是组织机构名汉英翻译方法专利的具体信息内容。

1.一种组织机构名汉英翻译方法,其特征在于,方法步骤如下:
步骤1:获取组织机构名实体相应的扩展查询集合;
步骤2:采用包含扩展集合的新的检索词检索网络资源,获取混合双语摘要资源;
步骤3:从混合双语摘要资源抽取组织机构名实体翻译候选并按照可信度进行排序;
步骤4:得到翻译结果。
2.根据权利要求1所述的组织机构名汉英翻译方法,其特征在于,步骤1所述的扩展查询集合包含有:组织机构名实体翻译结果构造查询和共现主题词译文扩展查询,所述组织机构名实体翻译结果构造查询的具体步骤如下:构建组织机构名翻译对;对所述组织机构名翻译对进行内部对齐;根据计算的翻译可信度进行语句的抽取;生成基于所述语句块的组织机构名翻译模型;提取有效的信息结果,
所述共现主题词译文扩展查询方法步骤为:将源查询词提交搜索引擎,获取包含源查询的源语言摘要信息,然后利用TF-IDF从获得的源语言摘要信息抽取和源查询共现的主题词汇,获得主题词汇后,从双语词典中查找这些主题词汇的译文作为该方法最后的扩展集合。
3.根据权利要求2所述的组织机构名汉英翻译方法,其特征在于,所述内部对齐的步骤为:利用机器翻译中普遍采用的GIZA++词对齐工具对机构名的汉英翻译对进行了词对位处理,包括汉-英和英-汉两个方向,根据两个方向的对齐结果的交集获取对齐锚点;抽取候选字串;根据获取每一个对齐锚点分别向左右方向扩展直至下一个对齐锚点,当前对齐锚点加上扩展的字词作为候选的字串;计算双语单语串的翻译可信度;针对每一个命名实体翻译对,采用贪心算法获取最优对齐结果。
4.根据权利要求2所述的组织机构名汉英翻译方法,其特征在于,所述翻译可信度的计算方法是使用类似于TF-IDF方法对获得的翻译片段打分,对于给定的中文串o和英文串e翻译可信度按如下公式计算:
5.根据权利要求2所述的组织机构名汉英翻译方法,其特征在于,所述语句块抽取采用上下文无关的翻译解码算法,把组织机构名分为三个部分表示关键词部分、地域或范围修饰词部分和其他修饰词部分,首先将对齐后的组织机构名实体对拆分为三个部分,并对前两类部分保留其在整个命名实体中的推导位置信息,这样形成一系列的推导规则及相应的可信度,对于给定的命名实体的翻译过程包括:语块拆分,即将给定的组织机构名拆分为三个部分;实体推导翻译,翻译的顺序为地域或范围修饰词部分,关键字部分,其他修饰词部分,如果某类部分在训练语料中不存在,则采用传统机器翻译结合音译翻译方法翻译。
6.根据权利要求3所述的组织机构名汉英翻译方法,其特征在于,所述贪心算法获取最优对齐结果具体步骤如下:对于某一特定的命名实体对,提取该实体对包含的所有{c,e};
按照{c,e}的score的降序排序,并保存在集合scoreArray中;从scoreArray中删除第一个元素{cc,ee},把该命名实体对按照{cc,ee}对位更新;删除scoreArray中所有的{cc,*}与{*,ee};重复score的降序排序直到scoreArray为空;得到最佳的命名实体对对位。
7.根据权利要求1所述的组织机构名汉英翻译方法,其特征在于,步骤3所述抽取组织机构名实体结合了频度变化度量和邻接信息来抽取候选翻译串,分别计算候选翻译串和待翻译实体之间的翻译相似度、共现信息、长度信息和音译信息,综合考虑多个特征得分,按照综合得分排序,输出翻译序列。

说明书全文

组织机构名汉英翻译方法

技术领域

[0001] 本发明涉及语言翻译领域,具体涉及一种组织机构名汉英翻译方法。

背景技术

[0002] 相对于人名、地名等命名实体,组织机构名的结构更为复杂,因为组织机构名中可能既 包含人名、地名甚至另一个机构名。通常对组织机构名的翻译是采用结合音译和意译进行翻 译,同时由于结构复杂,需要进行一定程度的词语调序,所以对组织机构名翻译不仅仅要解 决普通机器翻译固有的问题,如词语选择、词语调序,还需要解决音译问题以及音译和意译 相结合的问题,因此组织结构名的翻译仍然是自然语言处理问题中的一个难点,仍具有很大 的挑战性。
[0003] 目前,基于本地翻译模型的组织机构名的研究比较深入和成熟,基于统计的音译模型 方法在一定程度上解决了符合音译规律的音译问题,对于部分符合音译规律或者不符合音 译规律的情况无能为。基于短语的上下文相关的组织机构名模型以传统机器模型作为基 础改进,未考虑组织机构名的内部结构特点,并且时间复杂度高,针对组织机构名整体(音 译和意译)的翻译模型还不够成熟,研究比较少,有必要进一步深入研究。

发明内容

[0004] 为解决上述技术问题,本发明提出了一种组织机构名汉英翻译方法,以达到更准确的 翻译组织机构名的目的。
[0005] 为达到上述目的,本发明的技术方案如下:
[0006] 一种组织机构名汉英翻译方法,方法步骤如下:
[0007] 步骤1:获取组织机构名实体相应的扩展查询集合;
[0008] 步骤2:采用包含扩展集合的新的检索词检索网络资源,获取混合双语摘要资源;
[0009] 步骤3:从混合双语摘要资源抽取组织机构名实体翻译候选并按照可信度进行排序;
[0010] 步骤4:得到翻译结果。
[0011] 作为优选的,步骤1所述的扩展查询集合包含有:组织机构名实体翻译结果构造查询 和共现主题词译文扩展查询,
[0012] 所述组织机构名实体翻译结果构造查询的具体步骤如下:构建组织机构名翻译对;对 所述组织机构名翻译对进行内部对齐;根据计算的翻译可信度进行语句的抽取;生成基 于所述语句块的组织机构名翻译模型;提取有效的信息结果,
[0013] 所述共现主题词译文扩展查询方法步骤为:将源查询词提交搜索引擎,获取包含源查 询的源语言摘要信息,然后利用TF-IDF从获得的源语言摘要信息抽取和源查询共现的主题 词汇,获得主题词汇后,从双语词典中查找这些主题词汇的译文作为该方法最后的扩展集 合。
[0014] 作为优选的,所述内部对齐的步骤为:利用机器翻译中普遍采用的GIZA++词对齐工具 对机构名的汉英翻译对进行了词对位处理,包括汉-英和英-汉两个方向,根据两个方向的 对齐结果的交集获取对齐锚点;抽取候选字串;根据获取每一个对齐锚点分别向左右方向 扩展直至下一个对齐锚点,当前对齐锚点加上扩展的字词作为候选的字串;计算双语单语 串的翻译可信度;针对每一个命名实体翻译对,采用贪心算法获取最优对齐结果。
[0015] 作为优选的,所述翻译可信度的计算方法是使用类似于TF-IDF方法对获得的翻译片段  打分,对于给定的中文串o和英文串e翻译可信度按如下公式计  算:
[0016] 作为优选的,所述语句块抽取采用上下文无关的翻译解码算法,把组织机构名分为三 个部分表示关键词部分、地域或范围修饰词部分和其他修饰词部分,首先将对齐后的组织 机构名实体对拆分为三个部分,并对前两类部分保留其在整个命名实体中的推导位置信息, 这样形成一系列的推导规则及相应的可信度,对于给定的命名实体的翻译过程包括:语块 拆分,即将给定的组织机构名拆分为三个部分;实体推导翻译,翻译的顺序为地域或范围 修饰词部分,关键字部分,其他修饰词部分,如果某类部分在训练语料中不存在,则采用 传统机器翻译结合音译翻译方法翻译。
[0017] 作为优选的,所述贪心算法获取最优对齐结果具体步骤如下:对于某一特定的命名实 体对,提取该实体对包含的所有{c,e};按照{c,e}的score的降序排序,并保存在集 合scoreArray中;从scoreArray中删除第一个元素{cc,ee},把该命名实体对按照{cc,ee} 对位更新;删除scoreArray中所有的{cc,*}与{*,ee};重复score的降序排序直到 scoreArray为空;得到最佳的命名实体对对位。
[0018] 作为优选的,步骤3所述抽取组织机构名实体结合了频度变化度量和邻接信息来抽取 候选翻译串,分别计算候选翻译串和待翻译实体之间的翻译相似度、共现信息、长度信息 和音译信息,综合考虑多个特征得分,按照综合得分排序,输出翻译序列。
[0019] 本发明具有如下优点:
[0020] (1).本发明通过对汉英组织机构名采用翻译模型和网络翻译抽取相结合的技术进行 深入研究,实现一个高性能基于翻译与网络相结合的组织机构名翻译系统,该系统能挖掘 镉锭组织机构名的所有可能的翻译并计算翻译的可信度,并抽取包含该翻译的网页资源供 用户阅读,最终由用户修正翻译结果,并在此基础上构建汉英组织机构名翻译词典。
[0021] (2).本发明采用贪心算法获取最优对齐结果,提高了后续的语块抽取及语块翻译概 率计算的准确度和效率。
[0022] (3).本发明考虑到组织机构名的内部结构特点,采用以语块为翻译单位建立翻译模 型,重点解决候选语块的抽取及概率计算及基于上下文无关的翻译解码算法,降低了翻译 时间复杂度,提高了翻译的准确度和效率。附图说明
[0023] 为了更清楚地说明本发明实施例现有技术中的技术方案,下面将对实施例或现有技 术描述中所需要使用的附图作简单地介绍。
[0024] 图1为本发明实施例公开的翻译方法流程图
[0025] 图2为本发明实施例公开的构建翻译模型流程图。

具体实施方式

[0026] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地 描述。
[0027] 本发明提供了一种组织机构名汉英翻译方法,其工作原理是通过采用翻译模型和网络 翻译抽取相结合的技术进行深入研究,实现一个高性能基于翻译与网络相结合的组织机构 名翻译系统,达到准确高效翻译组织机构名的目的。
[0028] 下面结合实施例和具体实施方式对本发明作进一步详细的说明。
[0029] 如图1和图2所示,本发明的具体实现步骤如下:
[0030] 步骤1:获取组织机构名实体相应的扩展查询集合;
[0031] 步骤2:采用包含扩展集合的新的检索词检索网络资源,获取混合双语摘要资源;
[0032] 步骤3:从混合双语摘要资源抽取组织机构名实体翻译候选并按照可信度进行排序;
[0033] 步骤4:得到翻译结果。
[0034] 步骤1所述的扩展查询集合包含有:组织机构名实体翻译结果构造查询和共现主题词 译文扩展查询,
[0035] 所述组织机构名实体翻译结果构造查询的具体步骤如下:构建组织机构名翻译对;对 所述组织机构名翻译对进行内部对齐;根据计算的翻译可信度进行语句块的抽取;生成基 于所述语句块的组织机构名翻译模型;提取有效的信息结果,
[0036] 所述共现主题词译文扩展查询方法步骤为:将源查询词提交搜索引擎,获取包含源查 询的源语言摘要信息,然后利用TF-IDF从获得的源语言摘要信息抽取和源查询共现的主题 词汇,获得主题词汇后,从双语词典中查找这些主题词汇的译文作为该方法最后的扩展集 合。
[0037] 通过目前的对现有组织机构名结构和翻译特征的研究,研究结果为汉语组织机构名内 部的词语都是实词,它们至少翻译为一个或多个英语词汇,英语组织机构名除了“of”, “with”,“the”,“and”,“for”其余的也都是实词,而且组织机构名内部的词汇对 齐是呈现块状对齐结构,通过建立一个基于对齐锚点左右扩展的组织机构名内部词汇对齐 方法,其中重要解决的是内部对齐的字串的概率计算及全局最优对齐方式的选择。
[0038] 首先,利用机器翻译中普遍采用的GIZA++词对齐工具对机构名的汉英翻译对进行了词 对位处理,包括汉-英和英-汉两个方向,GIZA++工具在英-汉对齐时,只允许每个中文词(假 设分词后)最多对应一个英文词,同样在反方向对齐时,只允许每个英文词对应一个中文 词。对齐锚点为在两个方向上互为对齐的中文词和英文词。其次采用本发明提出的研究方 法在第一步的基础上优化词汇对齐结果。该方法包含以下步骤:
[0039] Step 1:利用机器翻译中普遍采用的GIZA++词对齐工具对机构名的汉英翻译对进行了 词对位处理,包括汉-英和英-汉两个方向。根据两个方向的对齐结果的交集获取对齐锚点;
[0040] Step 2:抽取候选字串;根据获取每一个对齐锚点分别向左右方向扩展直至下一个对 齐锚点,当前对齐锚点加上扩展的字词作为候选的字串;
[0041] Step 3:计算双语单语串的翻译可信度;
[0042] Step 4:针对每一个命名实体翻译对,采用贪心算法获取最优对齐结果;
[0043] 上述步骤中的主要算法如下:
[0044] 翻译可信度的计算方法是使用类似于TF-IDF方法对获得的翻译片段打分,对于给定的 中文串o和英文串e翻译可信度按如下公式计算:
[0045]
[0046] 其中: 代表e与o的共现次数; 代 表与o互为翻译e的类别的个数; 对中文的长度惩罚参数;中文片段o为一个英文 片段e的翻译;N代表所有英文实体片段的类别个数。
[0047] 最优对齐的获取算法是在计算每对候选中文串c和英文串e的概率的基础上,本发明 采用贪心策略获取最优对齐结果,具体步骤如下:
[0048] Step 1:对于某一特定的命名实体对,提取该实体对包含的所有{c,e};
[0049] Step 2:按照{c,e}的score的降序排序,并保存在集合scoreArray中;
[0050] Step 3:从scoreArray中删除第一个元素{cc,ee},把该命名实体对按照{cc,ee} 对位更新;
[0051] Step 4:删除scoreArray中所有的{cc,*}与{*,ee};
[0052] Step 5:重复Step 2直到scoreArray为空;
[0053] Step 6:得到最佳的命名实体对对位;
[0054] 基于语句块的组织机构名翻译方法主要采用以语块为翻译单位建立翻译模型,重点解 决候选语块的抽取及概率计算及基于上下文无关的翻译解码算法。
[0055] 本发明采用同步上下文无关文法来翻译组织机构名,具体而言,把组织机构名分为三 个部分表示关键词部分、地域或范围修饰词部分和其他修饰词部分。首先将对齐后的组织 机构名实体对拆分为三个部分,并对前两类部分保留其在整个命名实体中的推导位置信息, 这样形成一系列的推导规则及相应的可信度。对于给定的命名实体的翻译过程包括:语块 拆分,即将给定的组织机构名拆分为三个部分;实体推导翻译,翻译的顺序为地域或范围 修饰词部分,关键字部分,其他修饰词部分。如果某类部分在训练语料中不存在,则采用 传统机器翻译结合音译翻译方法翻译。
[0056] 例如:<全国安全生产委员会,National Committee of Industry Safety>在训练过程 后,被抽取为三条规则:规则一:<全国#,National#>,规则二:<#委员会,Committee of#>, 规则三:<安全生产,Industry Safety>及相信的翻译概率。
[0057] “全国安全生产委员会”的翻译过程为:语块切分将该命名实体切分为:地域或范围 修饰词[全国],其他修饰部分[安全生产],关键词[委员会];翻译过程为:使用规则一:< 全国安全生产委员会,#>-><全国安全生产委员会,National#>;使用规则二:<全国安全 生产委员会,National#>-><全国安全生产委员会,National Committee of#>;使用规则 三:<全国安全生产委员会,National Committee of#>-><全国安全生产委员会,National  Committee of Industry Safety>。
[0058] 查询扩展方法构造是通过将抽取翻译结果中的有效信息作为词汇的内在特征,同时结 合共现词作为外在特征,构造查询扩展,由于构造查询扩展的两种方法既考虑了组织结构 名实体的内在特征,又考虑组织结构名实体出现网页的共现信息,因而能获取有效的双语 摘要资源,同时由于双语摘要文字比较少,而且组织机构名实体识别经常会引入错误,本 发明直接从双语摘要中抽取翻译,综合考虑候选串的翻译信息、长度信息、音译信息,输 出综合得分最高的作为候选翻译。本发明采用了基于加权概率算法从翻译结果抽取有效信 息,同时结合共现主题词译文来构造查询扩展。
[0059] 查询扩展的选取严重影响获取双语资源的数量及质量,经过分析扩展后查询返回的摘 要结果,发现其质量与单纯利用源查询返回的结果相比,其质量有了明显改善,基本上包 含命名实体的正确翻译。
[0060] 基于组织机构名翻译结果的查询构造主要是通过统计Top-N翻译结果中加权概率的最 大的N个最小翻译单元(字或者词),来作为该方法构造的查询扩展集合。加权频度概率 按照如下公式计算:
[0061]结果,p(Ti|α)为第i个翻译结果的可信度,c代表结果中的某一个汉字或词语。
[0062] 结合组织机构名实体翻译结果构造查询和共现主题词译文扩展查询的结果,进一步对 翻译结果进行抽取,翻译结果抽取的方法是采用有效的查询扩展方法获取了包含了组织机 构名实体翻译的双语网页,由于组织机构名实体的识别过程经常会引入错误,故不能对获 取的双语网页进行组织机构名实体识别。针对组织机构名翻译结构抽取,首先结合了频度 变化度量和邻接信息来抽取候选翻译串。其次分别计算候选翻译串和待翻译实体之间的翻 译相似度、共现信息、长度信息和音译信息,综合考虑多个特征得分,按照综合得分排序, 输出翻译序列。
[0063] 候选翻译串抽取采用的频度变化度量和邻接信息来抽取候选翻译串。公式如下:
[0064]
[0065] 其中,s是由若干个单词组成的短语,freq(s)短语s的频度,xi是短语s中任一个单词的 频度,是短语s中所有单词的平均频度,left_n是与s左邻接的不同单词总数,right_n 是与s右邻接的不同单词总数。在抽取到的候选翻译串集合中,通过计算机该候选串左右。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈