首页 / 专利库 / 人工智能 / 源语言 / 一种基于数据选择改善英中机器翻译质量的方法

一种基于数据选择改善英中机器翻译质量的方法

阅读:817发布:2020-05-08

专利汇可以提供一种基于数据选择改善英中机器翻译质量的方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于数据选择改善英中 机器翻译 质量 的方法,所述方法包括:将数据利用词袋的表现形式重新表现;再利用余弦的计算方法表现句子之间的距离,再通过对余弦的相关计算得到每个句对的最终得分;利用得分对通用数据进行排序,最终选择相关的数据进行机器翻译系统的系统训练。本发明一方面可以减少统计机器翻译系统训练过程中的时间成本以及存储空间成本,因为相比于用多领域通用数据训练的系统,该方法可以减少 训练数据 的数据量;另一方面由于选择出来的数据都是与待测试的数据来自于同一领域,是内容上比较相关的,所以理论上利用该方法选出的数据训练的系统的性能会优于用所有数据训练的机器翻译系统。,下面是一种基于数据选择改善英中机器翻译质量的方法专利的具体信息内容。

1.一种基于数据选择改善英中机器翻译质量的方法,其特征在于,所述基于数据选择改善英中机器翻译质量的方法包括:
步骤一,将数据利用词袋的表现形式重新表现;
步骤二,再利用余弦的计算方法表现句子之间的距离,再通过对余弦的相关计算得到每个句对的最终得分;
步骤三,利用得分对通用数据进行排序,最终选择相关的数据进行机器翻译系统的系统训练;
步骤二中,再利用余弦的计算方法表现句子之间的距离,再通过对余弦的相关计算得到每个句对的最终得分,具体包括,
比较相关性的算法利用余弦值计算,每两句话的余弦值用如下的公式计算:
其中S与T分别对应两句话,i代表每个句子向量第i列的值,对于通用数据里源语言的每句话,计算它与领域内数据的源语言每句话的余弦值,再对该句话对应的所有余弦值进行求和取平均
其中Cj代表这句话与领域内数据的第j句话的余弦值,m代表领域内数据的句子数;再对领域外数据的源语言每句话进行相同的操作求得POS,对于目标语言也进行同样的操作求得PIT和POT;最终这句话的评分由下列的公式决定:
P=PIS-POS+PIT-POT
公式中的PIS表示该句属于源语言方向的领域内数据的概率,POS则表示该句属于源语言方向的领域无关数据的概率,PIT与POT分别代表该句属于目标语言方向的领域内和领域无关数据的概率。
2.如权利要求1所述的基于数据选择改善英中机器翻译质量的方法,其特征在于,数据都转化为词袋的形式前需准备三种数据,一种为包含各领域的通用数据;第二种为与待测数据相关的数据或者是特定领域的领域内数据;第三种为与测试集数据无关或者与特定领域完全无关的领域外数据。
3.如权利要求1所述的基于数据选择改善英中机器翻译质量的方法,其特征在于,步骤一中,将数据利用词袋的表现形式重新表现,具体包括:
将三种数据都被转化为词袋的形式;所述词袋为一行N列的矩阵,N的个数等于整个数据中单词的总量;
假设一句话共有n个单词,Si代表第i个单词,则i∈[1,2,3,…,n],设词袋共m′列,Vj表示第j列所代表的单词,Vjc代表该列最终数值,Vjc∈[0,1],则词袋m′列中第j列的最终数值可以用如下公式表示:
对于每一句话,如果包含第i列对应的单词,则该列值为1,如果不包含则用0表示。
4.如权利要求1所述的基于数据选择改善英中机器翻译质量的方法,其特征在于,步骤三中,利用得分对通用数据进行排序,最终选择相关的数据进行机器翻译系统的系统训练,具体包括:
选择出特定的数据;步骤二之后对于通用数据里面的每句话有个最终的评分,用余弦值表示两句话的距离的时候数值越大表示两句话越相似,根据这个评分对数据中的所有句对进行从高到低的顺序进行排序,最终选取特定比例的数据作为最终的训练数据;所述最终的训练数据为特定的前N句话,或选择特定的百分比的数据;选择出来的数据即为最终的训练数据;通过抽取训练数据中每个句对的词对齐以及相应的概率得到翻译模型,通过统计目标语言单语数据n′元频率来训练语言模型,以及通过短语抽取过程中可能产生的短语或者词的重新组合来训练重组模型。

说明书全文

一种基于数据选择改善英中机器翻译质量的方法

技术领域

[0001] 本发明属于数据选择技术领域,尤其涉及一种基于数据选择改善英中机器翻译质量的方法。

背景技术

[0002] 随着IBM统计模型的提出,基于统计的机器翻译方法渐渐取代了基于规则的翻译方法成为现阶段主流的机器翻译方法。其基本的思想是利用统计的方法从大规模的双语语料中自动学习翻译知识,构建翻译模型。
[0003] 在传统的统计机器翻译中,语料库的好坏直接决定着最终翻译系统的质量。在这个信息爆炸的时代,互联网的信息呈现指数级的增长,同时也为机器翻译提供了大量的单语或者双语语料。
[0004] 理论上随着训练数据数量的增加,翻译系统的质量会越来越好。但是实验表明当训练数据达到一个数量级之后,再增加训练数据的质量只能让翻译系统的翻译结果得到很小的提升,甚至有时候会降低翻译系统的翻译质量,由此可见翻译系统的好坏不仅与训练数据的数量有关系。互联网上的数据来源复杂,同时内容上也往往属于不同的领域,包括政治、经济、旅游、娱乐等。当被测试的数据与训练数据属于同一领域的时候,往往效果要比用多个领域或者其他的单个领域训练的翻译系统的效果好。举个例子,如果测试集的数据来自于政治领域,理论上一个用500W句政治领域数据训练的英中翻译系统要比用500W句娱乐领域数据训练的英中翻译系统表现的更好。
[0005] 综合以上两点,训练数据并不是越多越好,英文的一个单词在不同的领域可能会有不同的中文翻译导致有时候数量的增加只会使翻译系统的性能变得更差。基于数据选择的领域自适应方法就是为了解决这个问题而被提出来的,这种方法的核心思想就是在一个多领域的数据中选出与测试数据相关的训练数据,利用选择出来的数据训练翻译系统,再利用这个系统翻译待翻译的数据。
[0006] 综上所述,现阶段多数机器翻译系统都是由数千万甚至上亿的双语数据训练得到的;整个训练过程需要大量的训练时间,同时也需要庞大的磁盘空间来存储数据与模型,同时用大量多领域训练数据训练的翻译系统对某个特定领域的翻译结果并不能达到最好,而其实仅利用这些数据中的一部分或者通过给予特定数据更高的权重将翻译结果达到最优。

发明内容

[0007] 本发明的目的在于提供一种基于数据选择改善英中机器翻译质量的方法,旨在解决现阶段多数机器翻译系统在整个训练过程中需要大量的训练时间,同时也需要庞大的磁盘空间来存储数据与模型,而与此同时用大量多领域训练数据训练的翻译系统对某个特定领域的翻译结果并不能达到最好的问题。
[0008] 本发明是这样实现的,
[0009] 一种基于数据选择改善英中机器翻译质量的方法,所述基于数据选择改善英中机器翻译质量的方法包括:
[0010] 步骤一,将数据利用词袋的表现形式重新表现;
[0011] 步骤二,再利用余弦的计算方法表现句子之间的距离,再通过对余弦的相关计算得到每个句对的最终得分;
[0012] 步骤三,利用得分对通用数据进行排序,最终选择相关的数据进行机器翻译系统的系统训练。
[0013] 进一步,数据都转化为词袋的形式前需准备三种数据,一种为包含各领域的通用数据;第二种为与待测数据相关的数据或者是特定领域的领域内数据;第三种为与测试集数据无关或者与特定领域完全无关的领域外数据。
[0014] 进一步,步骤一中,将数据利用词袋的表现形式重新表现,具体包括:
[0015] 将三种数据都被转化为词袋的形式;所述词袋为一行N列的矩阵,N的个数等于整个数据中单词的总量;
[0016] 假设一句话共有n个单词,Si代表第i个单词,则i∈[1,2,3,…,n],设词袋共m列,Vj表示第j列所代表的单词,Vjc代表该列最终数值,Vjc∈[0,1].则词袋m列中第j列的最终数值用如下公式表示:
[0017]
[0018] 对于每一句话,如果包含第i列对应的单词,则该列值为1,如果不包含则用0表示。
[0019] 假如某个数据包含两句话分别为I am a boy以及I am a girl,该数据共包含五种单词分别为I am a boy girl,N的值为5。假定这五列数值分别对应单词I、am、a、boy和girl。则第一句话的词袋表现形式为(1,1,1,1,0),而第二句话则可以表示为(1,1,1,0,1)。
[0020] 进一步,步骤二中,再利用余弦的计算方法表现句子之间的距离,再通过对余弦的相关计算得到每个句对的最终得分,具体包括,
[0021] 比较相关性的算法利用余弦值计算,每两句话的余弦值用如下的公式计算:
[0022]
[0023] 其中S与T分别对应两句话,i代表该向量第i列的值,对于通用数据里源语言的每句话,计算它与领域内数据的源语言每句话的余弦值,再对该句话对应的所有余弦值进行求和取平均
[0024]
[0025] 其中Cj代表这句话与领域内数据的第j句话的余弦值,m代表领域内数据的句子数;再对领域外数据的源语言每句话进行相同的操作求得POS,对于目标语言也进行同样的操作求得PIT和POT;最终这句话的评分由下列的公式决定:
[0026] P=PIS-POS+PIT-POT,
[0027] 公式中的PIS表示该句属于源语言方向的领域内数据的概率,POS则表示该句属于源语言方向的领域无关数据的概率,PIT与POT分别代表该句属于目标语言方向的领域内和领域无关数据的概率。
[0028] 进一步,步骤三中,利用得分对通用数据进行排序,最终选择相关的数据进行机器翻译系统的系统训练,具体包括:
[0029] 选择出特定的数据;步骤二之后对于通用数据里面的每句话有个最终的评分,用余弦值表示两句话的距离的时候数值越大表示两句话越相似,根据这个评分对数据中的所以句对进行从高到低的顺序进行排序,最终选取特定比例的数据作为最终的训练数据;所述最终的训练数据为特定的前N句话,或选择特定的百分比的数据;选择出来的数据即为最终的训练数据。通过抽取训练数据中每个句对的词对齐以及相应的概率得到翻译模型,通过统计目标语言单语数据n元频率来训练语言模型,以及通过短语抽取过程中可能产生的短语或者词的重新组合来训练重组模型。
[0030] 本发明提供的一种基于数据选择的领域自适应方法,它可以选择出相对比较有效的训练数据,利用这部分数据训练翻译系统,使得英中翻译系统的性能得到提升。
[0031] 本发明这种基于数据选择的领域自适应方法一方面可以节省时间和空间成本,另一方面也可以让训练出来的翻译系统的性能优于用所有数据训练得到的翻译系统的性能。
[0032] 本发明一方面可以减少统计机器翻译系统训练过程中的时间成本以及存储空间成本。因为相比于用多领域通用数据训练的系统,该方法可以减少训练数据的数据量。另一方面由于选择出来的数据都是与待测试的数据来自于同一领域,是内容上比较相关的,所以理论上利用该方法选出的数据训练的系统的性能会优于用所有数据训练的机器翻译系统。在时间成本上,利用一个2000万通用句对作为训练数据训练一个翻译系统大约需要24小时,而利用本方法大约选择500万数据则可以训练一个性能更好的特定领域翻译系统,而500万训练数据利用同样的配置和训练参数训练一个翻译系统只需要大约4小时。在存储成本上,2000万数据训练的系统翻译模型、语言模型和重组模型一共约占37GB,而500万训练数据产生的这三个模型加起来共约9GB。在新闻领域中,利用上述的数据以及数据选择方法可以让测试集的翻译结果提升1到2个BLEU值。
附图说明
[0033] 图1是本发明实施例提供的基于数据选择改善英中机器翻译质量的方法流程图

具体实施方式

[0034] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0035] 下面结合附图对本发明的应用原理作详细描述。
[0036] 如图1所示,本发明实施例提供的一种基于数据选择改善英中机器翻译质量的方法,所述基于数据选择改善英中机器翻译质量的方法包括:
[0037] S101:将数据利用词袋的表现形式重新表现。
[0038] S102:再利用余弦的计算方法表现句子之间的距离,再通过对余弦的相关计算得到每个句对的最终得分。
[0039] S103:利用得分对通用数据进行排序,最终选择相关的数据进行机器翻译系统的系统训练。
[0040] 下面结合具体实施例对本发明的应用原理作进一步描述。
[0041] 统计机器翻译利用的数据驱动的方法,所以在理论上数据量越大,机器翻译系统的性能越好。市面上大部分商用系统训练数据的数量级已经达到千万甚至亿级,如此庞大的数据量一方面会占用大量的存储空间,另一方面也会需要巨大的时间成本。然而实际上翻译系统的好坏不仅仅与训练数据的数量有关系,同时与训练数据的质量也有着很大的关系。当待测试的数据与训练数据在内容上比较相关的时候,测试结果有很大可能性也会不错。基于数据选择的领域自适应方法就是为了解决这样的问题而提出来的。这种方法的主要思想是从一个大的多领域的数据中挑选出特定领域的或者与待测试数据相关的数据进行翻译系统的训练,本发明提出来的方法也属于这种方法的一种。
[0042] 本发明提出的方法大致可以分为三步,
[0043] 第一步是将所有数据都转化为词袋的形式;
[0044] 第二步是比较通用数据中的每一句与领域内以及领域无关数据的相关性;
[0045] 第三步是根据上一步的相关性评分对通用数据的每个英中句对进行排序,最终利用选出来的数据训练需要的机器翻译系统。
[0046] 下面结合数据转化对本发明的应用原理作进一步描述。
[0047] 在进行数据选择方法之前,需准备三种数据,一种为通用数据,即包含各领域的数据,这部分数据数量巨大,最终训练的数据也是从这个数据中选择出来的。第二种为领域内数据,即与待测数据相关的数据或者是特定领域的数据。最后一种是领域外数据,即与测试集数据无关或者与特定领域完全无关的数据。
[0048] 在这个步骤中,三种数据都被转化为词袋的形式。词袋是一种矩阵表示方法,是一种一行N列的矩阵,N的个数等于整个数据中单词的总量。对于每一句话,如果包含第i列对应的单词,则该列值为1,如果不包含则用0表示。假如某个数据包含两句话分别为I am a boy以及I am a girl,该数据共包含五种单词分别为I am a boy girl,N的值为5。假定这五列数值分别对应单词I、am、a、boy和girl。则第一句话的词袋表现形式为(1,1,1,1,0),而第二句话则可以表示为(1,1,1,0,1)。
[0049] 下面结合相关性比较对本发明的应用原理作进一步描述。
[0050] 这个步骤主要是为了比较通用领域数据中的每句话与领域内数据预计领域外数据的相关性。
[0051] 相关性的主要算法利用余弦值来计算,每两句话的余弦值可用如下的公式计算:
[0052]
[0053] 其中S与T分别对应两句话,i代表该向量第i列的值,对于通用数据里源语言的每句话,计算它与领域内数据的源语言每句话的余弦值,再对该句话对应的所有余弦值进行求和取平均
[0054]
[0055] 其中Cj代表这句话与领域内数据的第j句话的余弦值,m代表领域内数据的句子数。再对领域外数据的源语言每句话进行相同的操作求得POS,对于目标语言也进行同样的操作求得PIT和POT。最终这句话的评分由下列的公式决定:
[0056] P=PIS-POS+PIT-POT;
[0057] 公式中的PIS表示该句属于源语言方向的领域内数据的概率,POS则表示该句属于源语言方向的领域无关数据的概率,PIT与POT分别代表该句属于目标语言方向的领域内和领域无关数据的概率。
[0058] 下面结合数据选择对本发明的应用原理作进一步描述。
[0059] 这步主要是选择出特定的数据。第二个步骤之后对于通用数据里面的每句话会有个最终的评分,用余弦值表示两句话的距离的时候数值越大表示两句话越相似,所以根据这个评分对数据中的所以句对进行从高到低的顺序进行排序,最终选取特定比例的数据作为最终的训练数据,可以是特定的前N句话,也可以选择特定的百分比的数据。利用数据选择选出来的训练机器翻译系统的翻译模型、语言模型以及重组模型。
[0060] 本发明将数据利用词袋的表现形式重新表现,再利用余弦的计算方法表现句子之间的距离,再通过对余弦的相关计算得到每个句对的最终得分,利用得分对通用数据进行排序,最终选择相关的数据进行机器翻译系统的系统训练。
[0061] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈