技术领域
[0001] 本
发明涉及
计算机辅助翻译领域,具体而言涉及一种关键词翻译统一的方法。
背景技术
[0002] 计算机辅助翻译(CAT),类似于CAD(
计算机辅助设计),实际起了辅助翻译的作用,简称CAT(Computer Aided Translation)。它能够帮助翻译者优质、高效、轻松地完成翻译工作。它不同于以往的
机器翻译软件,不依赖于计算机的自动翻译,而是在人的参与下完成整个翻译过程,与人工翻译相比,
质量相同或更好,翻译效率可大幅度提高。CAT使得繁重的手工翻译流程自动化,并大幅度提高了翻译效率和翻译质量。
[0003] 计算机技术在翻译中的应用主要指将其他行业的一些成熟的方法、工具和资源等利用计算机技术应用到翻译过程中从而辅助翻译。计算机辅助翻译是研究如何设计或应用“方法、工具和资源”以便帮助译员更好的完成翻译工作,同时也能有助于研究和教学活动的进行。
[0004] 文档中的高频词往往是文档中的关键词,对于这些高频词或关键词的翻译的准确一致是保证整篇文档翻译质量的
基础。在实际的翻译生产过程中,一个大的翻译任务需要分成多个子任务及文档碎片,由多个人或多个小组进行协同的翻译处理。在这个过程中如何对这些高频词和关键词的翻译保持统一、准确,一直是协同翻译中难以解决的问题。
[0005] 以往对于这种需要进行统一翻译的关键词汇,首先是由翻译助理对文档进行关键词标注或者通过计算机自动进行关键词标注,然后由翻译专家对这些标注的关键词给出标准的翻译结果,这样做虽然可以保证翻译的准确性,但增加了翻译流程中的人工处理环节,延缓了翻译处理流程,同时也增加了成本。所以,对于大规模、大批量的翻译任务而言,需要有一种更为快速、经济的手段对关键词的统一翻译问题进行处理。
发明内容
[0006] 本发明旨在提供一种关键词翻译统一的方法,解决了在翻译过程中,人工成本高、关键词的翻译不准确、不一致的问题。
[0007] 本发明公开了一种关键词翻译统一的方法,包括:
[0008] 从待译文档中确定关键词,找到该关键词对应的若干翻译项;
[0009] 在所述待译文档中截取包含有所述关键词的部分文本,作为第一子文档;
[0010] 根据每个所述翻译项,截取包含该翻译项的部分文本的原文,分别作为第二子文档;
[0011] 将所有所述翻译项按照语义分类,得到若干语义相似类;
[0012] 分别对每个所述语义相似类中的所述翻译项所对应的所述第二子文档与所述第一子文档进行文档相似度计算;
[0013] 计算得到的所述文档相似度最大的所述语义相似类作为所述关键词的候选翻译项。
[0014] 优选地,所述将所有所述翻译项按照语义分类的过程为聚类处理,包括:
[0015] 提取所有所述翻译项中的第一翻译项,分别计算所述第一翻译项与剩余的所述翻译项的语义相似度,结果大于预定
阈值的所述翻译项与所述第一翻译项构成第一语义相似类;
[0016] 提取抛除所述第一语义相似类之外的所有所述翻译项中的第二翻译项;分别计算所述第二翻译项与抛除后剩余的所述翻译项的语义相似度,结果大于预定阈值的所述翻译项与所述第二翻译项构成第二语义相似类;
[0017] 重复该过程,直至每个所述翻译项聚类完成,聚类结束。
[0018] 优选地,所述从待译文档中确认关键词的过程包括:
[0019] 提取并扫描所述待译文档,按照词性对所述待译文档进行分词处理,并剔除其中的停用词,得到若干各不相同的候选词;
[0020] 对所述候选词进行去噪处理,得到若干所述关键词。
[0021] 优选地,在所述剔除其中的停用词的同时,至少保留以下之一词性的词语作为所述候选词:形容词、副词、动词、名词、成语、简称略语和习用语。
[0022] 优选地,在所述找到该关键词对应的若干翻译项之前,还包括:
[0023] 确定所述待译文档的
源语言和
目标语言;
[0024] 在翻译参考库中提取与所述待译文档的源语言和目标语言均一致的已翻译文档的原文和译文。
[0025] 优选地,所述找到该关键词对应的若干翻译项的过程包括:
[0026] 以所述关键词为检索词,在所述提取的所述已翻译文档的所述原文中进行检索匹配,在所述已翻译文档中的所述译文中找到所述关键词映射的若干所述翻译项。
[0027] 优选地,截取获得所述子文档,以单句、多句、段落或固定字数为获取单位。
[0028] 本发明中的关键词翻译统一的方法,具有以下优点:
[0029] 1、协同翻译过程中,对于关键词的翻译实现了保持准确、一致;
[0030] 2、加快了翻译效率;
[0032] 此处所说明的附图用来提供对本发明的进一步理解,构成本
申请的一部分,本发明的示意性
实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
具体实施方式
[0034] 下面将参考附图并结合实施例,来详细说明本发明。
[0035] 本发明公开了一种关键词翻译统一的方法,包括:
[0036] S11、从待译文档中确定关键词,所述确定关键词的方法如下:
[0037] 对待译文档进行分词处理,去除其中的停用词,保留形容词、副词、成语、简称略语、习用语、动词、和名词,获得候选词语集合;
[0038] 对该候选词集中的候选词进行词频(tf)统计,根据预设的阈值TF,得到该待译文档的关键词集W={w1(tf1),w2(tf2),…,wn(tfn)},即tfi>TF的高频词集,即去噪处理;
[0039] S12、在所述待译文档中截取关键词wi的上下文,将关键词wi的tfi段上下文进行合并处理,作为关键词wi的相关的第一子文档Di;
[0040] 关键词wi的上下文为关键词wi所在
位置的上下文,上下文的获取可以以单句、多句、段落、也可以以固定字数为获取单位;
[0041] S13、获取到关键词wi的所有翻译项,获取方法如下:
[0042] 根据待译文档的信息,确定所述待译文档的源语言和目标语言;
[0043] 在翻译参考库中提取与所述待译文档的源语言和目标语言均一致的已翻译文档的原文和译文。
[0044] 以W中的关键词wi为检索词,在翻译参考库中进行检索,得到关键词wi的所有翻译项;
[0045] 翻译参考库是一个有着海量已译文档的翻译资源库,包括每篇已翻译文档的源文档及其对应的翻译文档,在翻译参考库中进行检索可以得到所查询关键词在库中文档的对应的所有翻译项;
[0046] S14、对关键词wi的翻译项按照语义进行聚类,得到若干语义相似类,聚类过程如下:
[0047] 提取所有所述关键词wi翻译项中的第一翻译项,分别计算所述第一翻译项与剩余的所述翻译项的语义相似度,结果大于预定阈值的所述翻译项与所述第一翻译项构成第一语义相似类;
[0048] 提取抛除所述第一语义相似类之外的所有所述翻译项中的第二翻译项;分别计算所述第二翻译项与抛除后剩余的所述翻译项的语义相似度,结果大于预定阈值的所述翻译项与所述第二翻译项构成第二语义相似类;
[0049] 重复该过程,直至每个所述翻译项聚类完成,聚类结束,得到wi的所有翻译项的k个语义相似类{S1,S2,…,Sk};
[0050] 其中,计算语义相似度的方法如下:
[0051] 根据《知网》、《同义词词林》、《wordnet》等语义词典,在其中计算词语的语义相似度;
[0052] 设定翻译项tr1和翻译项tr2进行语义相似度计算;其中tr1包含有n个义项,tr2包含有m个义项;则规定和的语义相似度Sim(tr1,tr2)为这两个翻译项各个义项相似度的最大值,即;
[0053] Sim(tr1,tr2)=maxi=1,2,…,n;j=1,2,…,msim(tr1i,tr2i);
[0054] 其中,S1和S2为义项,义项相似度与义项距离为反比关系,记为:Sim(S1,S2)=L/(Dis(S1,S2)+L),其中,L为调节参数,L越大相似度表现得越不灵敏,一般可以取为词典树结构的层数;
[0055] 其中,Dis(S1,S2)为义项S1和义项S2之间的距离,通过计算其在词典中的代码距离得到。
[0056] S15、获取关键词wi的所有翻译项在翻译参考库中对应的原文的上下文,按语义相似类进行合并,即对所有在同一语义相似类中的翻译项的上下文进行合并得到文档集合{Di1,Di2,…,Dik};
[0057] 所述上下文的获取可以以单句、多句、段落、也可以以固定字数为获取单位;
[0058] S16、将关键词wi的相关子文档Di分别与文档集合{Di1,Di2,…,Dik};中的每个文档进行相似度计算,计算得到的所述文档相似度最大的所述语义相似类作为所述关键词的候选翻译项。
[0059] 进一步的,对于步骤S15和S16,还可以采取将所有翻译项的对应的原文的上下文作为第二子文档Dall,分别计算Di与Dall的文档相似度,将同一语义相似类中的翻译项对应的计算得到的文档相似度相加,文档相似度最大的所述语义相似类作为所述关键词的候选翻译项;
[0060] 文档相似度计算的方法如下:
[0061] 1、构造翻译文档集合的关键词概念树
[0062] 该概念树的叶子
节点为所有关键词,将关键词按共现在同一篇文档中的概率建立关键词概念树;
[0063] 计算所有关键词在文档集中出现的概率和任两个关键词Ki和Kj互现的条件概率p(Ki︱Kj)和p(Kj︱Ki);
[0064] 若p(Ki)大于设定阈值且p(Kj︱Ki)也大于设定阈值或p(Kj)大于设定阈值且p(Ki︱Ki)也大于设定阈值,则将关键词Ki和Kj合并;
[0065] 同理对于待合并的两个关键词集合C1、C2,若满足如下两个条件:
[0066] i.存在Ki属于C1,Kj属于C2,且p(Ki)>设定阈值1,p(Kj︱Ki)>设定阈值2
[0067] ii.在合并后的集合中任给一个关键词Ki与集合中一半以上关键词都满足以下条件:p(Kj︱Ki)>设定阈值2
[0068] 则合并之,直到所有的关键词概念集合都无法再合并为止,形成关键词概念树。
[0069] 2、根据上述的关键词概念树,定义一种关键词乘积的计算方法
[0070] 设定,概念树的高度为H,depth(K)为关键词K在树中的深度,com(Ki,Kj)为离节点Ki和Kj最近的共同
父节点,则关键词Ki和Kj的的乘积Ki×Kj=depth(com(Ki,Kj))/H。
[0071] 3、定义一种向量计算方法
[0072] 设 向 量 A={a1,a2, …,an},B={b1,b2, …,bn},定 义 向 量 计 算:
[0073] 4、对于两个待比较的文档D1、D2,按下式进行相似度计算:
[0074]
[0075] 文档相似度最大的语义相似类,作为该关键词的候选翻译项。
[0076] 以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何
修改、等同替换、改进等,均应包含在本发明的保护范围之内。