首页 / 专利库 / 人工智能 / 候选译文 / 一种关键词翻译统一的方法

一种关键词翻译统一的方法

阅读:757发布:2020-06-15

专利汇可以提供一种关键词翻译统一的方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种关键词翻译统一的方法,包括:从待译文档中确定关键词,找到该关键词对应的若干翻译项;在所述待译文档中截取包含有所述关键词的部分文本,作为第一子文档;根据每个所述翻译项,截取包含该翻译项的部分文本的原文,分别作为第二子文档;将所有所述翻译项按照语义分类,得到若干语义相似类;分别对每个所述语义相似类中的所述翻译项所对应的所述第二子文档与所述第一子文档进行文档相似度计算;计算得到的所述文档相似度最大的所述语义相似类所对应的翻译项作为所述关键词的候选翻译项。本发明有效的降低了在翻译过程中的人工成本,并且提高了关键词的翻译的准确性及一致性。,下面是一种关键词翻译统一的方法专利的具体信息内容。

1.一种关键词翻译统一的方法,其特征在于,包括:
从待译文档中确定关键词,找到该关键词对应的所有翻译项;
在所述待译文档中截取包含有所述关键词的部分文本,作为第一子文档;
根据每个所述翻译项,截取包含该翻译项的部分文本的原文,分别作为第二子文档;
将所有所述翻译项按照语义聚类处理,得到若干语义相似类;
分别对每个所述语义相似类中的所述翻译项所对应的所述第二子文档与所述第一子文档进行文档相似度计算;
计算得到的所述文档相似度最大的所述语义相似类所对应的翻译项作为所述关键词的候选翻译项。
2.根据权利要求1所述的方法,其特征在于,所述将所有所述翻译项按照语义分类的过程,包括:
提取所有所述翻译项中的第一翻译项,将所述第一翻译项作为第一语义相似类,计算所述第一语义相似类与所述所有翻译项中的下一个未归入到任一语义相似类中的翻译项的语义相似度,若结果大于预定阈值将该翻译项加入到第一语义相似类,重复该过程,直到未归入到任一语义相似类中的翻译项都与第一语义相似类进行了语义相似度比较,过程结束,得到最终的第一语义相似类;
提取除所述第一语义相似类之外的所有所述翻译项中的任一项,将该所述翻译项作为第二语义相似类,重复上步的翻译项聚类过程,得到最终第二语义相似类;
重复该过程,直至每个所述翻译项聚类完成。
3.根据权利要求1所述的方法,其特征在于,所述从待译文档中确定关键词的过程包括:
提取并扫描所述待译文档,按照词性对所述待译文档进行分词处理,并剔除其中的停用词,得到若干各不相同的候选词;
对所述候选词进行去噪处理,得到若干所述关键词。
4.根据权利要求3所述的方法,其特征在于,在所述剔除其中的停用词的同时,至少保留以下之一词性的词语作为所述候选词:形容词、副词、动词、名词、成语、简称略语和习用语。
5.根据权利要求1所述的方法,其特征在于,在所述找到该关键词对应的若干翻译项之前,还包括:
确定所述待译文档的源语言目标语言
在翻译参考库中提取与所述待译文档的源语言和目标语言均一致的已翻译文档的原文和译文。
6.根据权利要求5所述的方法,其特征在于,所述找到该关键词对应的若干翻译项的过程包括:
以所述关键词为检索词,在所述提取的所述已翻译文档的所述原文中进行检索匹配,在所述已翻译文档中的译文中找到所述关键词映射的若干所述翻译项。
7.根据权利要求6所述的方法,其特征在于,截取获得所述子文档,以单句、多句、段落或固定字数为获取单位。

说明书全文

一种关键词翻译统一的方法

技术领域

[0001] 本发明涉及计算机辅助翻译领域,具体而言涉及一种关键词翻译统一的方法。

背景技术

[0002] 计算机辅助翻译(CAT),类似于CAD(计算机辅助设计),实际起了辅助翻译的作用,简称CAT(Computer Aided Translation)。它能够帮助翻译者优质、高效、轻松地完成翻译工作。它不同于以往的机器翻译软件,不依赖于计算机的自动翻译,而是在人的参与下完成整个翻译过程,与人工翻译相比,质量相同或更好,翻译效率可大幅度提高。CAT使得繁重的手工翻译流程自动化,并大幅度提高了翻译效率和翻译质量。
[0003] 计算机技术在翻译中的应用主要指将其他行业的一些成熟的方法、工具和资源等利用计算机技术应用到翻译过程中从而辅助翻译。计算机辅助翻译是研究如何设计或应用“方法、工具和资源”以便帮助译员更好的完成翻译工作,同时也能有助于研究和教学活动的进行。
[0004] 文档中的高频词往往是文档中的关键词,对于这些高频词或关键词的翻译的准确一致是保证整篇文档翻译质量的基础。在实际的翻译生产过程中,一个大的翻译任务需要分成多个子任务及文档碎片,由多个人或多个小组进行协同的翻译处理。在这个过程中如何对这些高频词和关键词的翻译保持统一、准确,一直是协同翻译中难以解决的问题。
[0005] 以往对于这种需要进行统一翻译的关键词汇,首先是由翻译助理对文档进行关键词标注或者通过计算机自动进行关键词标注,然后由翻译专家对这些标注的关键词给出标准的翻译结果,这样做虽然可以保证翻译的准确性,但增加了翻译流程中的人工处理环节,延缓了翻译处理流程,同时也增加了成本。所以,对于大规模、大批量的翻译任务而言,需要有一种更为快速、经济的手段对关键词的统一翻译问题进行处理。

发明内容

[0006] 本发明旨在提供一种关键词翻译统一的方法,解决了在翻译过程中,人工成本高、关键词的翻译不准确、不一致的问题。
[0007] 本发明公开了一种关键词翻译统一的方法,包括:
[0008] 从待译文档中确定关键词,找到该关键词对应的若干翻译项;
[0009] 在所述待译文档中截取包含有所述关键词的部分文本,作为第一子文档;
[0010] 根据每个所述翻译项,截取包含该翻译项的部分文本的原文,分别作为第二子文档;
[0011] 将所有所述翻译项按照语义分类,得到若干语义相似类;
[0012] 分别对每个所述语义相似类中的所述翻译项所对应的所述第二子文档与所述第一子文档进行文档相似度计算;
[0013] 计算得到的所述文档相似度最大的所述语义相似类作为所述关键词的候选翻译项。
[0014] 优选地,所述将所有所述翻译项按照语义分类的过程为聚类处理,包括:
[0015] 提取所有所述翻译项中的第一翻译项,分别计算所述第一翻译项与剩余的所述翻译项的语义相似度,结果大于预定阈值的所述翻译项与所述第一翻译项构成第一语义相似类;
[0016] 提取抛除所述第一语义相似类之外的所有所述翻译项中的第二翻译项;分别计算所述第二翻译项与抛除后剩余的所述翻译项的语义相似度,结果大于预定阈值的所述翻译项与所述第二翻译项构成第二语义相似类;
[0017] 重复该过程,直至每个所述翻译项聚类完成,聚类结束。
[0018] 优选地,所述从待译文档中确认关键词的过程包括:
[0019] 提取并扫描所述待译文档,按照词性对所述待译文档进行分词处理,并剔除其中的停用词,得到若干各不相同的候选词;
[0020] 对所述候选词进行去噪处理,得到若干所述关键词。
[0021] 优选地,在所述剔除其中的停用词的同时,至少保留以下之一词性的词语作为所述候选词:形容词、副词、动词、名词、成语、简称略语和习用语。
[0022] 优选地,在所述找到该关键词对应的若干翻译项之前,还包括:
[0023] 确定所述待译文档的源语言目标语言
[0024] 在翻译参考库中提取与所述待译文档的源语言和目标语言均一致的已翻译文档的原文和译文。
[0025] 优选地,所述找到该关键词对应的若干翻译项的过程包括:
[0026] 以所述关键词为检索词,在所述提取的所述已翻译文档的所述原文中进行检索匹配,在所述已翻译文档中的所述译文中找到所述关键词映射的若干所述翻译项。
[0027] 优选地,截取获得所述子文档,以单句、多句、段落或固定字数为获取单位。
[0028] 本发明中的关键词翻译统一的方法,具有以下优点:
[0029] 1、协同翻译过程中,对于关键词的翻译实现了保持准确、一致;
[0030] 2、加快了翻译效率;
[0031] 3、节约了翻译成本。附图说明
[0032] 此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0033] 图1示出了实施例的流程图

具体实施方式

[0034] 下面将参考附图并结合实施例,来详细说明本发明。
[0035] 本发明公开了一种关键词翻译统一的方法,包括:
[0036] S11、从待译文档中确定关键词,所述确定关键词的方法如下:
[0037] 对待译文档进行分词处理,去除其中的停用词,保留形容词、副词、成语、简称略语、习用语、动词、和名词,获得候选词语集合;
[0038] 对该候选词集中的候选词进行词频(tf)统计,根据预设的阈值TF,得到该待译文档的关键词集W={w1(tf1),w2(tf2),…,wn(tfn)},即tfi>TF的高频词集,即去噪处理;
[0039] S12、在所述待译文档中截取关键词wi的上下文,将关键词wi的tfi段上下文进行合并处理,作为关键词wi的相关的第一子文档Di;
[0040] 关键词wi的上下文为关键词wi所在位置的上下文,上下文的获取可以以单句、多句、段落、也可以以固定字数为获取单位;
[0041] S13、获取到关键词wi的所有翻译项,获取方法如下:
[0042] 根据待译文档的信息,确定所述待译文档的源语言和目标语言;
[0043] 在翻译参考库中提取与所述待译文档的源语言和目标语言均一致的已翻译文档的原文和译文。
[0044] 以W中的关键词wi为检索词,在翻译参考库中进行检索,得到关键词wi的所有翻译项;
[0045] 翻译参考库是一个有着海量已译文档的翻译资源库,包括每篇已翻译文档的源文档及其对应的翻译文档,在翻译参考库中进行检索可以得到所查询关键词在库中文档的对应的所有翻译项;
[0046] S14、对关键词wi的翻译项按照语义进行聚类,得到若干语义相似类,聚类过程如下:
[0047] 提取所有所述关键词wi翻译项中的第一翻译项,分别计算所述第一翻译项与剩余的所述翻译项的语义相似度,结果大于预定阈值的所述翻译项与所述第一翻译项构成第一语义相似类;
[0048] 提取抛除所述第一语义相似类之外的所有所述翻译项中的第二翻译项;分别计算所述第二翻译项与抛除后剩余的所述翻译项的语义相似度,结果大于预定阈值的所述翻译项与所述第二翻译项构成第二语义相似类;
[0049] 重复该过程,直至每个所述翻译项聚类完成,聚类结束,得到wi的所有翻译项的k个语义相似类{S1,S2,…,Sk};
[0050] 其中,计算语义相似度的方法如下:
[0051] 根据《知网》、《同义词词林》、《wordnet》等语义词典,在其中计算词语的语义相似度;
[0052] 设定翻译项tr1和翻译项tr2进行语义相似度计算;其中tr1包含有n个义项,tr2包含有m个义项;则规定和的语义相似度Sim(tr1,tr2)为这两个翻译项各个义项相似度的最大值,即;
[0053] Sim(tr1,tr2)=maxi=1,2,…,n;j=1,2,…,msim(tr1i,tr2i);
[0054] 其中,S1和S2为义项,义项相似度与义项距离为反比关系,记为:Sim(S1,S2)=L/(Dis(S1,S2)+L),其中,L为调节参数,L越大相似度表现得越不灵敏,一般可以取为词典树结构的层数;
[0055] 其中,Dis(S1,S2)为义项S1和义项S2之间的距离,通过计算其在词典中的代码距离得到。
[0056] S15、获取关键词wi的所有翻译项在翻译参考库中对应的原文的上下文,按语义相似类进行合并,即对所有在同一语义相似类中的翻译项的上下文进行合并得到文档集合{Di1,Di2,…,Dik};
[0057] 所述上下文的获取可以以单句、多句、段落、也可以以固定字数为获取单位;
[0058] S16、将关键词wi的相关子文档Di分别与文档集合{Di1,Di2,…,Dik};中的每个文档进行相似度计算,计算得到的所述文档相似度最大的所述语义相似类作为所述关键词的候选翻译项。
[0059] 进一步的,对于步骤S15和S16,还可以采取将所有翻译项的对应的原文的上下文作为第二子文档Dall,分别计算Di与Dall的文档相似度,将同一语义相似类中的翻译项对应的计算得到的文档相似度相加,文档相似度最大的所述语义相似类作为所述关键词的候选翻译项;
[0060] 文档相似度计算的方法如下:
[0061] 1、构造翻译文档集合的关键词概念树
[0062] 该概念树的叶子节点为所有关键词,将关键词按共现在同一篇文档中的概率建立关键词概念树;
[0063] 计算所有关键词在文档集中出现的概率和任两个关键词Ki和Kj互现的条件概率p(Ki︱Kj)和p(Kj︱Ki);
[0064] 若p(Ki)大于设定阈值且p(Kj︱Ki)也大于设定阈值或p(Kj)大于设定阈值且p(Ki︱Ki)也大于设定阈值,则将关键词Ki和Kj合并;
[0065] 同理对于待合并的两个关键词集合C1、C2,若满足如下两个条件:
[0066] i.存在Ki属于C1,Kj属于C2,且p(Ki)>设定阈值1,p(Kj︱Ki)>设定阈值2
[0067] ii.在合并后的集合中任给一个关键词Ki与集合中一半以上关键词都满足以下条件:p(Kj︱Ki)>设定阈值2
[0068] 则合并之,直到所有的关键词概念集合都无法再合并为止,形成关键词概念树。
[0069] 2、根据上述的关键词概念树,定义一种关键词乘积的计算方法
[0070] 设定,概念树的高度为H,depth(K)为关键词K在树中的深度,com(Ki,Kj)为离节点Ki和Kj最近的共同父节点,则关键词Ki和Kj的的乘积Ki×Kj=depth(com(Ki,Kj))/H。
[0071] 3、定义一种向量计算方法
[0072] 设 向 量 A={a1,a2, …,an},B={b1,b2, …,bn},定 义 向 量 计 算:
[0073] 4、对于两个待比较的文档D1、D2,按下式进行相似度计算:
[0074]
[0075] 文档相似度最大的语义相似类,作为该关键词的候选翻译项。
[0076] 以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈