首页 / 专利库 / 人工智能 / 候选译文 / 一种获取专业词汇译文的方法

一种获取专业词汇译文的方法

阅读:807发布:2020-05-26

专利汇可以提供一种获取专业词汇译文的方法专利检索,专利查询,专利分析的服务。并且一种获取专业词汇译文的方法,包括:获取待译词汇,以及所述待译词汇所在语句;在专词语料库中查找所述待译词汇所在语句中具有的所有关联项,以及每个所述关联项的关联系数;对所有所述关联项的关联系数进行计算,结果满足给定条件时,将所述待译词汇的专业词义作为译文。本 发明 有效提高了翻译 质量 和翻译效率。,下面是一种获取专业词汇译文的方法专利的具体信息内容。

1.一种获取专业词汇译文的方法,其特征在于,包括:
获取待译词汇,以及所述待译词汇所在语句;
在专词语料库中查找所述待译词汇所在语句中具有的所有关联项,以及每个所述关联
项的关联系数;
对所有所述关联项的关联系数进行计算,结果满足给定条件时,将所述待译词汇的专
业词义作为译文;
所述专词语料库中包含有关联项映射表;其中,所述关联项映射表中每个词汇对应至
少一个关联项,每个关联项具有关联系数;
通过在所述专词语料库的所述关联项映射表中查找所述待译词汇所在语句中具有的
所有关联项,以及每个所述关联项的关联系数;
在获取待译词汇之前,还包括:
建立所述关联项映射表,其过程,包括:
提取基础数据库中包含有词汇w的所有语句,构建第一语句集;
去除所述第一语句集中词汇w未按照专业词义翻译的所有语句,构建第二语句集;
对所述第一语句集中的每个语句进行分词处理,去除其中的停用词,将得到的词汇作
为候选关联词汇,建立候选关联词汇集WCN={wcn1,wcn2,…,wcnl};
计算所述第二语句集在所述第一语句集中的语句占比P(w);
计算所述第一语句集中包含候选关联词汇wcni的语句在第一语句集中的占比P(wcni),
1≤i≤l;
计算第二语句集中包含候选关联词汇wcni的语句在第二语句集中的占比P(wcni|w)比;
根据P(w)、P(wcni)、P(wcni|w)计算出每个候选关联词汇的词频系数;
所述词频系数大于阈值的所述候选关联词汇作为关联词汇;
根据获得的所述关联词汇,确定关联项以及其关联系数,建立所述关联项映射表。
2.根据权利要求1所述的方法,其特征在于,计算出每个候选关联词汇的词频系数的过
程,包括:
按照如下公式计算出所述词频系数;
3.根据权利要求1所述的方法,其特征在于,根据获得的所述关联词汇,确定关联项以
及其关联系数的过程,包括:
将每个关联词汇作为一个单项关联项,每个单项关联项的关联系数为其词频系数;
将所有关联词汇中的每个唯一组合作为一个多项关联项,每个所述多项关联项的关联
系数通过公式:
P(An|A1A2…An-1)=P(A1A2…An)/P(An-1|1A2…An-2)×…×P(A2|A1)×P(A1)
递推计算得到,其中,P(An|A1A2…An-1)为多项关联项A1A2…An-1的关联系数。
4.根据权利要求1所述的方法,其特征在于,对所有所述关联项的关联系数进行计算的
过程,包括:
按照如下公式计算出所述待译词汇的专词权重P(spec):
P(spec)=∑i∈{1,2,…,n}Pi-∑i,j∈{1,2,…,n},i≠jPiPj+∑i,j,k∈{1,2,…,n},i≠j≠kPiPjPk-…+(-1)n+
1P1P2…Pn;
其中,Pi、Pj、Pk和Pn为关联项的关联系数;n为待译词汇关联项的项数,i、j、k为关联项的序号,1≤i、j、k≤n。
5.根据权利要求4所述的方法,其特征在于,所述给定条件至少包含以下之一:
1)、P(spec)=1;
2)、P(spec)不小于预先设定的权重阈值;
3)、P(spec)分别大于所述待译词汇的一定数量的关联项的关联系数。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述候选关联词汇集中的候选关
联词汇为名词、动词、形容词、副词、习语或缩略语。
7.根据权利要求1-5任一项所述的方法,其特征在于,在所述结果满足给定条件之后,
还包括:
将所述待译词汇的所述专业词义推送给机器翻译引擎进行翻译或推送给译员。

说明书全文

一种获取专业词汇译文的方法

技术领域

[0001] 本发明涉及翻译技术领域,尤其是涉及一种获取专业词汇译文的方法。

背景技术

[0002] 进入21世纪以后,不同国家和地区的人们需要进行更为频繁的交流。语言的不同为交流过程带来了极大障碍,借助于翻译工具进行机器翻译可以有效解决这种问题。机器
翻译的基础是对词汇的翻译。
[0003] 一个词汇往往具有多种解释含义,例如英文的pledge,,它的中文解释有承诺、保证、抵押等等;对于特定场合领域的环境下,根据国际要求,一个词汇具有一个唯一的译文,例如在国际贸易的合同中,pledge只能够被理解翻译为抵押的意思;然而采用一般的方式对文本进行翻译,,译文中的词汇的翻译准确性无法保证,目前,许多的翻译公司都是通过具有多年工作经验的审校员对译文进行审核,通过经验判断,这种方式影响整个翻译的效
率,翻译效率偏低,并且由于审校员的审校时间、工作心情等主观原因,严重影响审校的准确性,使翻译质量得不到保证。

发明内容

[0004] 本发明的目的之一是提供一种获取专业词汇译文的方法,以解决现有技术中翻译效率低和翻译准确性低的问题。
[0005] 在一些说明性实施例中,所述获取专业词汇译文的方法,包括:获取待译词汇,以及所述待译词汇所在语句;在专词语料库中查找所述待译词汇所在语句中具有的所有关联项,以及每个所述关联项的关联系数;对所有所述关联项的关联系数进行计算,结果满足给定条件时,将所述待译词汇的专业词义作为译文。
[0006] 与现有技术相比,本发明的说明性实施例包括以下优点:
[0007] 通过对待译词汇进行关联分析,可以提高翻译的准确性,,并且通过统一、标准的翻译,无需通过审校员进行审校,大大提高了整个翻译过程的效率。附图说明
[0008] 此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0009] 图1是按照本发明的说明性实施例的流程图
[0010] 图2是按照本发明的说明性实施例的流程图。

具体实施方式

[0011] 在以下详细描述中,提出大量特定细节,以便于提供对本发明的透彻理解。但是,本领域的技术人员会理解,即使没有这些特定细节也可实施本发明。在其它情况下,没有详细描述众所周知的方法、过程、组件和电路,以免影响对本发明的理解。
[0012] 为了更好的理解本发明中的说明性实施例,下面对本发明说明性实施例中的一些术语进行简单说明。
[0013] 本文中所使用的术语“词汇”应该理解为各个语种的具有独立意义的字或单词,以及由字或单词组成的词语或词组。语种例如英文、中文、日文、法文等,本领域技术人员应该可以了解本发明中的说明性实施例中的词汇适用的语种不仅仅是英文、中文、日文和法文,还可以是其他具有字词结构的语种,在此不再穷举。
[0014] 机器翻译引擎具有查找、索引、替换等功能,构成的自动翻译技术,是基于各种语料数据库作为基础实现。
[0015] 现在参照图1,图1示出了在一些说明性实施例中翻译的流程图。
[0016] 如图1所示,在一些说明性实施例中,公开了一种获取专业词汇译文的方法,包括:
[0017] S11、获取待译词汇,以及所述待译词汇所在语句;
[0018] 系统接收并扫描待译文档,确定待译文档中的每个待译词汇,获取每个待译词汇在待译文档中所在的语句;其中,语句可以是指以句号为结尾的整句,也可以是指由其他标点符号结尾的子句。
[0019] S12、在专词语料库中查找所述待译词汇所在语句中具有的所有关联项,以及每个所述关联项的关联系数;
[0020] S13、对所有所述关联项的关联系数进行计算,结果满足给定条件时,将所述待译词汇的专业词义作为译文。
[0021] 通过对待译词汇进行关联分析,可以提高对专词翻译的准确性,并且通过统一、标准的翻译,无需通过审校员进行审校,大大提高了整个翻译过程的效率。
[0022] 在一些说明性实施例中,所述专词语料库中包含有关联项映射表;其中,所述关联项映射表中每个词汇对应至少一个关联项,每个关联项具有关联系数;
[0023] 通过在专词语料库的所述关联项映射表中查找所述待译词汇所在语句中具有的所有关联项,以及每个所述关联项的关联系数。
[0024] 其中,关联项映射表中具有每个词汇与其对应的多个关联词汇的对应关系;即以词汇通过关联项映射表可以找到对应的关联词汇,,关联项映射表包括词汇、关联词汇、关联项、关联系数,例如表1所示为包含3个关联词的关联项映射表;其中,关联项的数量是根据关联词汇的数量为定的,关联项的数量为 即2m-1个;其中m
为关联词汇的数量。
[0025]
[0026]
[0027] 表1
[0028] 例如待译词汇为w,其在待译文档中的所在语句中包含有wcn1和wcn2两个关联词汇,通过表1所示在关联项映射表找到关联项wcn1、关联项wcn2、关联项wcn1、wcn2,共3个关联项;
[0029] 在一些说明性实施例中,对所有所述关联项的关联系数进行计算的过程,包括:
[0030] 按照如下公式计算出所述待译词汇的专词权重P(spec):
[0031] P(spec)=∑i∈{1,2,…,n}Pi-∑i,j∈{1,2,…,n},i≠jPiPj+∑i,j,k∈{1,2,…,n},i≠j≠kPiPjPk-…+(-1)n+1P1P2…Pn;
[0032] 通过归纳法容易证明Pi≤P(spec)≤1,其中,Pi、Pj、Pk和Pn为关联项的关联系数;n为待译词汇关联项的项数,i、j、k为关联项的序号,1≤i、j、k≤n。
[0033] 在一些说明性实施例中,给定条件至少包含以下之一::
[0034] 1)、P(spec)=1;
[0035] 2)、P(spec)不小于预先设定的权重阈值
[0036] 3)、P(spec)分别大于所述待译词汇的一定数量的关联项的关联系数。
[0037] 在一些说明性实施例中,在所述结果满足给定条件之后,还包括:
[0038] 将所述待译词汇的所述专业词义推送给机器翻译引擎进行翻译或推送给译员。
[0039] 机器翻译引擎是通过预先设定好的条件,触发或满足预设条件的情况下,通过语料库进行识别、查找、替换等操作;对于专业性质的待译词汇,机器设备无法做到识别该待译词汇必须使用专业词义;通过本发明中的说明性实施例,可以确定待译词汇所使用的场
合是否是必须使用专业词义的,提高了翻译的准确性,以及机器翻译效率。
[0040] 在一些说明性实施例中,在步骤S11获取待译词汇,以及所述待译词汇所在语句之前,还包括:
[0041] 建立关联项映射表,其过程包括:
[0042] S21、根据专词语料库进行预处理,建立候选关联词汇集:
[0043] 提取专词语料库中中包含有词汇w的所有语句,构建第一语句集;
[0044] 去除所述第一语句集中词汇w未按照专业词义翻译的所有语句,构建第二语句集;
[0045] 对所述第一语句集中的每个语句进行分词处理,去除其中的停用词,将得到的词汇作为候选关联词汇,建立候选关联词汇集WCN={wcn1,wcn2,…,wcn1};其中,候选关联词汇集中的候选关联词汇为名词、动词、形容词、副词、习语或缩略语。
[0046] S22、计算每个候选关联词汇的词频系数
[0047] 计算所述第二语句集在所述第一语句集中的语句占比P(w);
[0048] 计算所述第一语句集中包含候选关联词汇wcni(1≤i≤l)的语句在第一语句集中的占比P(wcni);
[0049] 计算第二语句集中包含候选关联词汇wcni的语句在第二语句集中的占比P(wcni|w)比;
[0050] 根据P(w)、P(wcni)、P(wcni|w)计算出每个候选关联词汇的词频系数;
[0051] 在一些说明性实施例中,计算出每个候选关联词汇的词频系数的过程,包括:
[0052] 按照如下公式计算出所述词频系数;
[0053]
[0054] S23、确定关联词汇,建立关联映射表。
[0055] 所述词频系数大于阈值的所述候选关联词汇作为关联词汇;
[0056] 根据获得的所述关联词汇,确定关联项以及其关联系数,建立所述关联项映射表。
[0057] 在一些说明性实施例中,根据关联词汇确定关联项的过程,包括:
[0058] 将每个关联词汇作为一个单项关联项,单项关联项的关联系数为该关联词汇的词频系数;
[0059] 将所有关联词汇中的每个唯一组合作为一个多项关联项,每个所述多项关联项的关联系数通过公式
递推计算得到,其中P(An|A1A2…An-1)为多项关联项A1A2…An-1的关联系数。
[0060] 在一些说明性实施例中,关联项映射表以存在,则可以不用再次建立;并且关联项映射表是通过专词语料库建立得到,在专词语料库学习更新之后,相应的关联项映射表发生改动也更新维护。
[0061] 本文对于上述说明性实施例中的方法,还提供了一种优选地实施例,包括:
[0062] 1、建立词汇映射表
[0063] 对词汇数据库中的每个词汇进行如下操作:
[0064] 1)、在语句数据库中找到包含有词汇w的所有语句,建立第一语句集R,并且统计其中的语句数量tr;
[0065] 2)、去除第一语句集中词汇w未按照专业词义进行翻译的所有语句,建立第二语句集S,并统计其中的语句数量ts;
[0066] 3)、对第一语句集R中的每个语句,进行分词处理,去除其中的停用词,保留名词、动词、形容词、副词、习语、缩略语等;建立候选关联词汇集WCN={wcn1,wcn2,…,wcn1};
[0067] 4)统计候选词集WCN中每个词汇wcni在语句集R中的出现次数twcni(1≤i≤l),wcni每在R中的一个语句中出现一次twcni加1,wcni在一个语句出现多次出现按一次计算;
[0068] 5)统计候选词集WCN中每个词汇wcni在语句集S中的出现次数tscni(1≤i≤l),wcni每在S中的一个语句中出现一次tscni加1,wcni在一个语句出现多次出现按一次计算;
[0069] 6)、计算词汇w在语句集R中按专业词义进行翻译的概率P(w),即第二语句集与第一语句集的语句数量之比;
[0070] 7)、计算词汇wcni在语句集R中出现的概率P(wcni),即出现次数twcni与第一语句集的语句数之比;
[0071] 9)、计算在词汇w按专业词义进行翻译的情况下,候选词集中词汇wcni也同时出现的条件概率P(wcni|w),即候选关联词汇wcni在第二语句集中出现的次数tscni与第二语句
集中的语句数量之比;
[0072] 10)、计算词频系数P(w|wcni):
[0073]
[0074] 11)、将P(w|wcni)大于给定阈值的候选关联词汇wcni,作为w的关联词汇,从而得到词汇w的关联词集W={w1,w2,…,wm};
[0075] 12)、建立词汇映射表。
[0076] 2、词汇分析
[0077] 1)、确定待译词汇w,以及待译词汇所在语句;
[0078] 2)、根据词汇映射表中的对应关系,找到待译词汇所在语句中的关联词汇;
[0079] 3)、确定关联词汇的数量,建立关联项;
[0080] 4)、按照如下公式计算出待译词汇w的专词权重;
[0081] 公式如下:
[0082]
[0083] 5)、在专词权重满足下列条件之一的情况下,将待译词汇按照专业词义翻译;
[0084] ①、(spec)=1;
[0085] ②、(spec)不小于给定值(该条件包含条件1);
[0086] ③、对于有m个关联词的词汇w,P(spec)大于w的条件概率表中的条件概率数不少于2m-1个。
[0087] 以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈