首页 / 专利库 / 专利权 / 专利合作条约 / 第I章 / 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法

一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法

阅读:1031发布:2020-06-26

专利汇可以提供一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法专利检索,专利查询,专利分析的服务。并且一种基于平行语料训练的篇章级可比语料平行短语对的 抽取 方法,本 发明 涉及可比语料平行短语对的抽取方法。本发明是要解决获取平行语料需要花费高、将最相近的上下文的两个单词或 片段 互为翻译应用到可比语料上存在对于双语词典依赖很严重的问题。该方法是通过1 源语言 句子集合S和 目标语言 句子集合T;2得到平行语料的短语对集合;3得到平行语料的平行短语对;4得到平行语料的非平行短语对;5得到 支持向量机 二元分类器;6抽取候选平行短语对 ;7获得可比语料中包含噪声的平行短语对;8得到可比语料的平行短语对;9得到扩展 解码器 等步骤实现的。本发明应用于可比语料平行短语对的抽取领域。,下面是一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法专利的具体信息内容。

1.一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法,其特征在于:一种篇章级可比语料短语翻译对抽取方法具体是按照以下步骤进行的:
步骤一、设语料库中源语言句子集合S和目标语言句子集合T;其中,语料库包括平行语料和可比语料;
步骤二、分别将S和T按规定长度进行依次划分成短语,短语的长度2-7个单词,划分成的短语进行两两组合,得到平行语料的短语对集合;其中,每个短语对中必须包含一个短语来自于S和一个短语来自于T;
步骤三、利用GIZA++工具从平行语料中抽取双向单词翻译表,利用平行语料在Moses系统中建立基于短语的统计机器翻译系统得到短语翻译表;通过双向单词翻译表信息以及短语翻译表中的信息中抽取训练数据正例即得到平行语料的平行短语对;其中,双向单词翻译表中每组单词翻译对后面都有相应的翻译概率;短语翻译表包括短语之间的双向翻译概率、双向单词权重、词惩罚五项概率和短语内部的词对齐信息;
步骤四、从步骤二得到的平行语料的短语对集合中去除步骤三得到的平行语料的平行短语对得到训练数据反例即平行语料的非平行短语对;
步骤五、分别从平行语料的平行短语对和平行语料的非平行短语对中抽取分类特征;
将分类特征输入到SVMlight系统中利用径向基这一核方法得到支持向量机二元分类器;
步骤六、将可比语料的源语言文章中的句子和可比语料的目标语言中的句子进行组合,过滤得到伪平行句对,从伪平行句对中抽取候选平行短语对,其中,s是句子S中的长度为i的子串,最小源语短语长度≤i≤最大源语短语长度,t是句子T的长度为j的子串,最小目标语短语长度≤j≤最大目标语短语长度;
步骤七、利用支持向量机二元分类器对候选平行短语对对进行分类,获得可比语料中包含噪声的平行短语对;
步骤八、将可比语料中包含噪声的平行短语对进行过滤处理,设置阈值θ,θ∈(0,1)将每组可比语料中包含噪声的平行短语对中单词翻译概率对数的平均值低于θ的短语对去除得到可比语料的平行短语对;
步骤九、将可比语料的平行短语对加入到基线解码器的短语表中得到扩展解码器;其中,基线解码器是通过基线BLEU值评价和扩展解码器扩展BLEU值评价;即完成了一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法。
2.根据权利要求1所述一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法,其特征在于:步骤三中抽取训练数据正例具体过程为:
(1)设Sk为源语言句子集合S中的第k'个位置上的单词, 是S中从位置i到位置j的单词序列和Tk'为目标语言句子集合T中的第k'个位置上的单词, 是T中从位置i'到位置j'的单词序列;假设一个阈值ε,ε∈(0,1);
(2)如果双向单词翻译表中两个单词的翻译概率大于阈值ε,则认为这两个单词Sk与Tk'是互为翻译的;
(3)当且仅当Sk与Tk'互为翻译时,k∈[i,j]且k'∈[i',j'];
Sk与Tk'不互为翻译时,k∈[i,j]且
Sk与Tk'不互为翻译时, 且k'∈[i',j'];则认为 与 是互为翻译的,即为抽取的训练数据正例。
3.根据权利要求1所述一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法,其特征在于:步骤五中分别从平行语料的平行短语对和平行语料的非平行短语对中抽取分类特征如下:
(1)短语长度差:是源语短语和目标语短语长度的差的绝对值;
(2)相同起始:如果源语短语的开头与目标语短语的开头能够互为翻译,则值为1,否则值为0;
(3)相同结尾:如果源语短语的结尾与目标语短语的结尾能够互为翻译,则值为1,否则值为0;
(4)短语中单词数目:是源语短语和目标语短语中各自包含词的数量;
(5)短语长度比率:是源语短语长度与目标语短语长度的比值;
(6)翻译数目:是源语短语中单词在目标语短语中存在与之对应的翻译的个数,单词的翻译概率p(s|t)要大于一个阈值η;
(7)无翻译数目:是源语短语中单词在目标语短语中不存在与之对应的翻译的个数;
(8)翻译比率:是源语短语中存在翻译的单词数量与短语中单词总数的比值;
(9)半数翻译:源语短语单词至少有一半数量在目标短语中存在翻译,则值为1,否则值为0;
(10)最长翻译单元:是源语短语中最长连续单词序列在目标语短语中存在翻译的长度;
(11)最长无翻译单元:是源语短语中单词中最长连续单词序列在目标语短语中不存在翻译的长度。
4.根据权利要求1所述一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法,其特征在于:步骤六中将可比语料的源语言文章中的句子和可比语料的目标语言中的句子进行组合,过滤得到伪平行句对的过滤条件为:
(1)、两个句子中的单词个数比不超过2;
(2)、利用词典检查一个句子中至少有一半的单词在另外一个句子中存在翻译;满足这两个条件的句对被当做是伪平行句对。
5.根据权利要求1所述一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法,其特征在于:步骤八中每组可比语料中包含噪声的平行短语对中单词翻译概率对数的平均值的公式如下:θ,θ∈(0,1)
其中,Si表示原语短语在目标语短语中存在翻译的第i个单词的翻译概率;n表示原语短语在目标语短语中存在翻译的单词个数。

说明书全文

一种基于平行语料训练的篇章级可比语料平行短语对的抽

取方法

技术领域

[0001] 本发明涉及短语翻译对抽取方法,特别涉及篇章级短语翻译对抽取方法。

背景技术

[0002] 随着广播、电视、互联网等高覆盖度传播媒介的出现,人与人之间的时空距离骤然缩短,国际交往日益频繁便利,整个地球就如同是茫茫宇宙中的一个小村落。为了让人们能够畅通无阻的交流,机器翻译作为从一种语言到另一种语言的自动翻译有着巨大的市场需求和广泛的应用前景。
[0003] 近年来,计算能获得了突飞猛进,互联网的发展和普及,以及双语国家、联合国的多语存档,为我们提供了数以千万句的双语平行语料,这些为统计机器翻译方法奠定了必要的基础,并随之提出了很多新的模型和方法且取得了很好的效果。
[0004] 统计机器翻译系统的构建一般分为训练和翻译两个主要步骤。训练步骤是从语料中学习统计知识并进行参数训练。典型的基于短语的统计机器翻译系统的训练包含在大规模的双语语料库上的翻译模型训练、在目标语言的单语语料库上的语言模型训练、参数训练三个主要部分,用于训练的平行语料规模大小是影响其翻译性能的主要因素。对于一些语言对,如汉语和英语、阿拉伯语和英语拥有大量的平行数据可以被使用,但是对于大多数语言对并不是这种情况,他们的平行数据资源很稀少甚至不存在,像如印度语和英语、法语和日语,这严重降低了机器翻译系统的性能。若要获取平行语料需要花费相当高的代价,所以有必要利用其他资源来训练统计机器翻译系统。与平行语料相比,可比语料在各个语言对中都存在大量的资源,而且获取方便,网络、新闻、杂志等都可以获得丰富的资源。在这些可比语料中有很多包含相似信息的双语文档,如何将这些可比语料信息加入到统计机器翻译系统中已经受到越来越多人的关注,研究人员们正在通过各种方法从可比语料中抽取更丰富、准确的平行知识,并将其加入到翻译系统中,来提高翻译系统性能。
[0005] 从可比语料中抽取平行知识大多都以分布假设作为基础。该假设认为,跨语言间互为翻译的两个单词或片段,他们的上下文也是相似甚至相同的。基于这种假设,研究者将源语言和目标语言的未知单词的上下文通过双语词典映射到向量空间,然后计算向量之间的相似度,可以通过余弦距离、欧式距离、偏斜距离等等。认为具有最相近的上下文的两个单词或片段互为翻译。基于这个最原始方法还衍生出了很多新的方法,例如加入主题信息、语义信息、音译信息等等,这些方法能够取得一定的效果。但是从该假设本身而言,平行语料是对称的结构,能够很好地满足该假设,但是可比语料是一种非对称结构,有时无法满足该假设,所以将最相近的上下文的两个单词或片段互为翻译应用到可比语料上存在一定问题,而且该方法对于双语词典依赖很严重,种子词典规模直接影响平行知识抽取效果。

发明内容

[0006] 本发明的目的是为了解决统计机器翻译系统平行数据资源很稀少甚至不存在若要获取平行语料需要花费高、将最相近的上下文的两个单词或片段互为翻译应用到可比语料上存在对于双语词典依赖很严重的问题而提出的一种篇章级可比语料短语翻译对抽取方法。
[0007] 上述的发明目的是通过以下技术方案实现的:
[0008] 步骤一、设语料库中源语言句子集合S和目标语言句子集合T;其中,语料库包括平行语料和可比语料;
[0009] 步骤二、分别将S和T按规定长度进行依次划分成短语,短语的长度2-7个单词,划分成的短语进行两两组合,得到平行语料的短语对集合;其中,每个短语对中必须包含一个短语来自于S和一个短语来自于T;
[0010] 步骤三、利用GIZA++工具从平行语料中抽取双向单词翻译表,利用平行语料在Moses系统中建立基于短语的统计机器翻译系统得到短语翻译表;通过双向单词翻译表信息以及短语翻译表中的信息中抽取训练数据正例即得到平行语料的平行短语对;其中,双向单词翻译表中每组单词翻译对后面都有相应的翻译概率;短语翻译表包括短语之间的双向翻译概率、双向单词权重、词惩罚五项概率和短语内部的词对齐信息;
[0011] 步骤四、从步骤二得到的平行语料的短语对集合中去除步骤三得到的平行语料的平行短语对得到训练数据反例即平行语料的非平行短语对;
[0012] 步骤五、分别从平行语料的平行短语对和平行语料的非平行短语对中抽取分类特征;将分类特征输入到SVMlight系统中利用径向基这一核方法得到支持向量机二元分类器;
[0013] 步骤六、将可比语料的源语言文章中的句子和可比语料的目标语言中的句子进行组合,过滤得到伪平行句对,从伪平行句对中抽取候选平行短语对,其中,s是句子S中的长度为i的子串,最小源语短语长度≤i≤最大源语短语长度,t是句子T的长度为j的子串,最小目标语短语长度≤j≤最大目标语短语长度;
[0014] 步骤七、利用支持向量机二元分类器对候选平行短语对对进行分类,获得可比语料中包含噪声的平行短语对;
[0015] 步骤八、将可比语料中包含噪声的平行短语对进行过滤处理,设置阈值θ,θ∈(0,1)将每组可比语料中包含噪声的平行短语对中单词翻译概率对数的平均值低于θ的短语对去除得到可比语料的平行短语对;
[0016] 步骤九、将可比语料的平行短语对加入到基线解码器的短语表中得到扩展解码器;其中,基线解码器是通过基线BLEU值评价和扩展解码器扩展BLEU值评价;即完成了一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法
[0017] 发明效果
[0018] 本发明的目的是从可比语料中挖掘平行短语,解决平行数据稀缺的问题。希望充分利用丰富的可比语料资源,从中获取平行短语,用来提升基于短语的统计机器翻译系统性能的目的。
[0019] 本发明将从可比语料中抽取平行短语的问题转化为一个二元分类的问题。从训练数据中抽取有用的特征信息,建立支持向量机二元分类器,并利用该分类器对平行短语及非平行短语进行划分,最终将该系统从可比语料中抽取的平行短语加入到翻译系统中,以提高机器翻译质量。这是一个全自动的生成与测试方法。
[0020] 二元分类器的建立过程为数据获取与训练两个部分:
[0021] 在获取训练数据阶段,已知平行的源和目标语言句子S和T,分别将S和T按规定长度进行划分,生成所有可能的短语,然后将短语进行配对,每个短语对中必须包含一个短语来自于S和一个短语来自于T,利用GIZA++工具从S和T中获得的平行数据信息来对训练短语进行正、反例的标注。
[0022] 在训练阶段,利用平行数据信息从训练数据中抽取十九个特征作为分类特征。由于该分类问题属于非线性分类问题,所以将径向基这一核方法应用于该支持向量机分类器。这样就可以利用从平行语料中获取的训练短语建立支持向量机分类器。
[0023] 该发明性能的评价方法从分类器性能与对翻译系统性能两个方面进行:
[0024] 对分类器的分类效果进行评价,利用标准评价方法,包括精确率、召回率及准确率。生成测试短语的方法与训练短语的生成方法一样,但是为了保证测试的公平性,对正、反例进行标注时利用的平行数据信息应与生成训练短语的一致。
[0025] 本发明的意义是从可比语料中获取平行短语来提高机器翻译系统性能,所以需要测试从可比语料中分类得到的平行短语是否能提高机器翻译系统性能,根据翻译质量评价标准进行评价。首先利用已有少量平行语料训练一个基线解码器,然后将分类器从可比语料中抽取的平行短语加入到基线系统短语表中,重新训练一个扩展解码器,对两个解码器翻译质量分别进行评价。
[0026] 实验结果表明,其基线BLEU值和扩展BLEU值具体如表3所示:
[0027]
[0028] 如表3可知本发明能够很好地对平行与非平行短语进行分类,利用本发明所述的方法从可比语料中抽取的平行短语,然后加入到翻译系统中的翻译结果所表达的含义更接近于人工翻译的结果。附图说明
[0029] 图1为一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法流程图

具体实施方式

[0030] 具体实施方式一:本实施方式的一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法,具体是按照以下步骤制备的:
[0031] 步骤一、设语料库中源语言句子集合S和目标语言句子集合T;其中,语料库包括平行语料和可比语料;
[0032] 步骤二、分别将S和T按规定长度进行依次划分成短语,短语的长度2-7个单词,划分成的短语进行两两组合,得到平行语料全部的短语对集合;其中,每个短语对中必须包含一个短语来自于S和一个短语来自于T;
[0033] 步骤三、利用GIZA++工具从平行语料中抽取双向单词翻译表,利用平行语料在Moses系统中建立基于短语的统计机器翻译系统得到短语翻译表中包含的短语大多为平行短语对;通过双向单词翻译表信息以及短语翻译表中的信息中抽取训练数据正例(正例的标注)即得到平行语料的平行短语对;其中,双向单词翻译表中每组单词翻译对后面都有相应的翻译概率;即每组单词翻译对后面都有相应的翻译概率,并且根据归一化原则,每个单词对应的所有可能翻译的概率之和为1;短语翻译表包括短语之间的双向翻译概率、双向单词权重、词惩罚五项概率和短语内部的词对齐信息;
[0034] 步骤四、从步骤二得到的平行语料的全部的短语对集合中去除步骤三得到的平行语料的平行短语对得到训练数据反例即平行语料的非平行短语对;
[0035] 在训练数据集获取的过程中需要注意以下两个问题:
[0036] (1)一个训练样例可能在抽取正和反例过程中出现很多次,所以在抽取过程中要进行去重处理,保证每个训练样例是独一无二的;
[0037] (2)通过平行语料获得的训练集数量可能非常庞大,如果用于训练分类器的训练数据规模过大会导致过拟合现象,这样会严重降低分类器性能,所以需要在训练数据集中进行采样,确定比较合适的数量作为最终的训练样例;在可以保证正例和反例数据集质量较好的情况下,可以使用随机抽样的方法,当然也可进行适当的人工排错;
[0038] 步骤五、分别从平行语料的平行短语对和平行语料的非平行短语对中抽取分类特征;将分类特征输入到SVMlight系统中利用径向基这一核方法得到支持向量机二元分类器;
[0039] 步骤六、本发明将从可比语料中抽取平行短语对的问题转化为一个二元分类的问题;在抽取平行短语对之前,首先将可比语料的源语言文章中的句子和可比语料的目标语言中的句子进行组合,过滤得到伪平行句对,从伪平行句对中抽取候选平行短语对,其中,s是句子S中的长度为i的子串,最小源语短语长度≤i≤最大源语短语长度,t是句子T的长度为j的子串,最小目标语短语长度≤j≤最大目标语短语长度;这样就获得了所有的候选短语对;
[0040] 步骤七、利用支持向量机二元分类器对候选平行短语对对进行分类,获得可比语料中包含噪声的平行短语对;不作处理会影响翻译系统性能;
[0041] 步骤八、将可比语料中包含噪声的平行短语对进行过滤处理,即根据经验与实际情况设置阈值θ,θ∈(0,1)将每组可比语料中包含噪声的平行短语对中单词翻译概率对数的平均值低于θ的短语对去除得到可比语料的平行短语对;
[0042] 步骤九、将可比语料的平行短语对加入到基线解码器即基于短语的统计机器翻译系统的短语表中得到扩展解码器;其中,基线解码器是通过基线BLEU值评价和扩展解码器扩展BLEU值评价如图1;即完成了一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法。
[0043] 本实施方式效果:
[0044] 本实施方式将从可比语料中抽取平行短语的问题转化为一个二元分类的问题。从训练数据中抽取有用的特征信息,建立支持向量机二元分类器,并利用该分类器对平行短语及非平行短语进行划分,最终将该系统从可比语料中抽取的平行短语加入到翻译系统中,以提高机器翻译质量。这是一个全自动的生成与测试方法。
[0045] 二元分类器的建立过程为数据获取与训练两个部分:
[0046] 在获取训练数据阶段,已知平行的源和目标语言句子S和T,分别将S和T按规定长度进行划分,生成所有可能的短语,然后将短语进行配对,每个短语对中必须包含一个短语来自于S和一个短语来自于T,利用GIZA++工具从S和T中获得的平行数据信息来对训练短语进行正和反例的标注。
[0047] 在训练阶段,利用平行数据信息从训练数据中抽取十九个特征作为分类特征。由于该分类问题属于非线性分类问题,所以将径向基这一核方法应用于该支持向量机分类器。这样就可以利用从平行语料中获取的训练短语建立支持向量机分类器。
[0048] 该发明性能的评价方法从分类器性能与对翻译系统性能两个方面进行:
[0049] 对分类器的分类效果进行评价,利用标准评价方法,包括精确率、召回率及准确率。生成测试短语的方法与训练短语的生成方法一样,但是为了保证测试的公平性,对正和反例进行标注时利用的平行数据信息应与生成训练短语的一致。
[0050] 本实施方式的意义是从可比语料中获取平行短语来提高机器翻译系统性能,所以需要测试从可比语料中分类得到的平行短语是否能提高机器翻译系统性能,根据翻译质量评价标准进行评价。首先利用已有少量平行语料训练一个基线解码器,然后将分类器从可比语料中抽取的平行短语加入到基线系统短语表中,重新训练一个扩展解码器,对两个解码器翻译质量分别进行评价。
[0051] 实验结果表明,其基线BLEU值和扩展BLEU值具体如表3所示:
[0052]
[0053] 如表3可知本实施方式能够很好地对平行与非平行短语进行分类,利用本发明所述的方法从可比语料中抽取的平行短语,然后加入到翻译系统中的翻译结果所表达的含义更接近于人工翻译的结果。
[0054] 具体实施方式二:本实施方式与具体实施方式一不同的是:步骤三中抽取训练数据正例(正例的标注)具体过程为:
[0055] (1)设Sk为源语言句子集合S中的第k'个位置上的单词, 是S中从位置i到位置j的单词序列和Tk'为目标语言句子集合T中的第k'个位置上的单词, 是T中从位置i'到位置j'的单词序列;假设一个阈值ε,ε∈(0,1);
[0056] (2)该阈值根据经验和实际情况进行选取,如果双向单词翻译表中两个单词的翻译概率大于阈值ε,则认为这两个单词Sk与Tk'是互为翻译的;
[0057] (3)当且仅当Sk与Tk'互为翻译即对齐时,k∈[i,j]且k'∈[i',j'];
[0058] Sk与Tk'不互为翻译即不对齐时,k∈[i,j]且
[0059] Sk与Tk'不互为翻译时, 且k'∈[i',j'];则认为 与 是互为翻译的,即为抽取的训练数据正例。其它步骤及参数与具体实施方式一相同。
[0060] 具体实施方式三:本实施方式与具体实施方式一或二不同的是:步骤五中分别从平行语料的平行短语对和平行语料的非平行短语对中抽取分类特征如下:
[0061] (1)短语长度差:是源语短语和目标语短语长度的差的绝对值;
[0062] (2)相同起始:如果源语短语的开头与目标语短语的开头能够互为翻译,则值为1,否则值为0;
[0063] (3)相同结尾:如果源语短语的结尾与目标语短语的结尾能够互为翻译,则值为1,否则值为0;
[0064] (4)短语中单词数目:是源语短语和目标语短语中各自包含词的数量;
[0065] (5)短语长度比率:是源语短语长度与目标语短语长度的比值;
[0066] (6)翻译数目:是源语短语中单词在目标语短语中存在与之对应的翻译的个数,单词的翻译概率p(s|t)要大于一个阈值η;
[0067] (7)无翻译数目:是源语短语中单词在目标语短语中不存在与之对应的翻译的个数;
[0068] (8)翻译比率:是源语短语中存在翻译的单词数量与短语中单词总数的比值;
[0069] (9)半数翻译:源语短语单词至少有一半数量在目标短语中存在翻译,则值为1,否则值为0;
[0070] (10)最长翻译单元:是源语短语中最长连续单词序列在目标语短语中存在翻译的长度;
[0071] (11)最长无翻译单元:是源语短语中单词中最长连续单词序列在目标语短语中不存在翻译的长度;
[0072] (1)~(3)特征与源语和目标语的方向无关,(4)~(11)与方向有关为正反方向;因此共提取了19个特征。其它步骤及参数与具体实施方式一或二相同。
[0073] 具体实施方式四:本实施方式与具体实施方式一至三之一不同的是:步骤六中将可比语料的源语言文章中的句子和可比语料的目标语言中的句子进行组合,过滤得到伪平行句对的过滤条件为:
[0074] (1)、两个句子中的单词个数比不超过2;
[0075] (2)、利用词典检查一个句子中至少有一半的单词在另外一个句子中存在翻译;
[0076] 如果句对不同时满足这两个条件将会被丢弃;满足这两个条件的句对被当做是伪平行句对;在上述过程中可以去除大部分非平行句对,但该方法同时也去除了一些近似平行的句对,这些句对不满足过滤的两个条件,主要原因是词典并没有包含所有的实体;但是这些句对数量较少,并且不一定完全可靠,所以这种过滤方法在整体上对系统的精度和鲁棒性是有很大帮助的;不可避免的,这种过滤方法并不能完全将非平行句对去除,是因为词重叠条件很薄弱,例如停止词基本上都在对应语言中存在翻译,如果它恰巧和一些实词能够匹配,满足了阈值重叠,那么就有可能将一个非平行句对误判为平行句对。其它步骤及参数与具体实施方式一至三之一相同。
[0077] 具体实施方式五:本实施方式与具体实施方式一至四之一不同的是:步骤八中每组可比语料中包含噪声的平行短语对中单词翻译概率对数的平均值的公式如下:
[0078]
[0079] 其中,Si表示原语短语在目标语短语中存在翻译的第i个单词的翻译概率;n表示原语短语在目标语短语中存在翻译的单词个数;这其中不包括停用词的翻译概率,因为停用词对于翻译的贡献非常小,所以直接忽略不计。其它步骤及参数与具体实施方式一至四之一相同。
[0080] 采用以下实施例验证本发明的有益效果:
[0081] 实施例一:
[0082] 本实施例一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法,具体是按照以下步骤制备的:
[0083] 步骤一、设语料库中源语言句子集合S和目标语言句子集合T;其中,语料库包括平行语料和可比语料;
[0084] 步骤二、分别将S和T按规定长度进行依次划分成短语,短语的长度2-7个单词,划分成的短语进行两两组合,得到平行语料全部的短语对集合;其中,每个短语对中必须包含一个短语来自于S和一个短语来自于T;
[0085] 步骤三、利用GIZA++工具从平行语料中抽取双向单词翻译表,利用平行语料在Moses系统中建立基于短语的统计机器翻译系统得到短语翻译表中包含的短语大多为平行短语对;通过双向单词翻译表信息以及短语翻译表中的信息中抽取训练数据正例(正例的标注)即得到平行语料的平行短语对;其中,双向单词翻译表中每组单词翻译对后面都有相应的翻译概率;即每组单词翻译对后面都有相应的翻译概率,并且根据归一化原则,每个单词对应的所有可能翻译的概率之和为1;短语翻译表包括短语之间的双向翻译概率、双向单词权重、词惩罚五项概率和短语内部的词对齐信息;
[0086] (1)设Sk为源语言句子集合S中的第k'个位置上的单词, 是S中从位置i到位置j的单词序列和Tk'为目标语言句子集合T中的第k'个位置上的单词, 是T中从位置i'到位置j'的单词序列;假设一个阈值ε=0.5,ε∈(0,1);
[0087] (2)该阈值根据经验和实际情况进行选取,如果双向单词翻译表中两个单词的翻译概率大于阈值ε,则认为这两个单词Sk与Tk'是互为翻译的;
[0088] (3)当且仅当Sk与Tk'互为翻译即对齐时,k∈[i,j]且k'∈[i',j'];
[0089] Sk与Tk'不互为翻译即不对齐时,k∈[i,j]且
[0090] Sk与Tk'不互为翻译时, 且k'∈[i',j'];则认为 与 是互为翻译的,即为抽取的训练数据正例。
[0091] 步骤四、从步骤二得到的平行语料的全部的短语对集合中去除步骤三得到的平行语料的平行短语对得到训练数据反例即平行语料的非平行短语对;
[0092] 在训练数据集获取的过程中需要注意以下两个问题:
[0093] (1)一个训练样例可能在抽取正反例过程中出现很多次,所以在抽取过程中要进行去重处理,保证每个训练样例是独一无二的。
[0094] (2)通过平行语料获得的训练集数量可能非常庞大,如果用于训练分类器的训练数据规模过大会导致过拟合现象,这样会严重降低分类器性能,所以需要在训练数据集中进行采样,确定比较合适的数量作为最终的训练样例。在可以保证正例和反例数据集质量较好的情况下,可以使用随机抽样的方法,当然也可进行适当的人工排错。
[0095] 步骤五、分别从平行语料的平行短语对和平行语料的非平行短语对中抽取分类特征;将分类特征输入到SVMlight系统中利用径向基这一核方法得到支持向量机二元分类器;
[0096] 平行语料的平行短语对和平行语料的非平行短语对中抽取分类特征如下:
[0097] (1)短语长度差:是源语短语和目标语短语长度的差的绝对值;
[0098] (2)相同起始:如果源语短语的开头与目标语短语的开头能够互为翻译,则值为1,否则值为0;
[0099] (3)相同结尾:如果源语短语的结尾与目标语短语的结尾能够互为翻译,则值为1,否则值为0;
[0100] (4)短语中单词数目:是源语短语和目标语短语中各自包含词的数量;
[0101] (5)短语长度比率:是源语短语长度与目标语短语长度的比值;
[0102] (6)翻译数目:是源语短语中单词在目标语短语中存在与之对应的翻译的个数,单词的翻译概率p(s|t)要大于一个阈值η;
[0103] (7)无翻译数目:是源语短语中单词在目标语短语中不存在与之对应的翻译的个数;
[0104] (8)翻译比率:是源语短语中存在翻译的单词数量与短语中单词总数的比值;
[0105] (9)半数翻译:源语短语单词至少有一半数量在目标短语中存在翻译,则值为1,否则值为0;
[0106] (10)最长翻译单元:是源语短语中最长连续单词序列在目标语短语中存在翻译的长度;
[0107] (11)最长无翻译单元:是源语短语中单词中最长连续单词序列在目标语短语中不存在翻译的长度;
[0108] (1)~(3)特征与源语和目标语的方向无关,(4)~(11)与方向有关。因此共提取了19个特征。
[0109] 根据精确率、召回率和准确率三个方面对支持向量机二元分类器的分类效果进行评价;随机选择五组训练数据得到五个不同的分类器,并利用同一组测试数据进行测试,最终得到的结果如表1所示:
[0110] 表1
[0111]
[0112] 利用同一个分类器,在随机选取五组测试数据上分别进行测试,最终得到的结果如表2所示:
[0113] 表2
[0114]
[0115] 根据上述结果可以判断本发明所描述的通过二元支持向量机分类方法能够很好地对平行短语对和非平行短语对对进行分类,通过选择不同训练数据以及测试数据进行测试,可以看出对于不同的数据集,该方法性能稳定,并能达到较好的效果。
[0116] 步骤六、本发明将从可比语料中抽取平行短语对的问题转化为一个二元分类的问题;在抽取平行短语对之前,首先将可比语料的源语言文章中的句子和可比语料的目标语言中的句子进行组合,过滤得到伪平行句对,从伪平行句对中抽取候选平行短语对,其中,s是句子S中的长度为i的子串,最小源语短语长度≤i≤最大源语短语长度(2≤i≤7),t是句子T的长度为j的子串,最小目标语短语长度≤j≤最大目标语短语长度(2≤i≤7);这样就获得了所有的候选短语对。
[0117] 过滤得到伪平行句对的过滤条件为:
[0118] (1)、两个句子中的单词个数比不超过2。
[0119] (2)、利用词典检查一个句子中至少有一半的单词在另外一个句子中存在翻译;
[0120] 如果句对不同时满足这两个条件将会被丢弃。满足这两个条件的句对被当做是伪平行句对;在上述过程中可以去除大部分非平行句对,但该方法同时也去除了一些近似平行的句对,这些句对不满足过滤的两个条件,主要原因是词典并没有包含所有的实体。但是这些句对数量较少,并且不一定完全可靠,所以这种过滤方法在整体上对系统的精度和鲁棒性是有很大帮助的。不可避免的,这种过滤方法并不能完全将非平行句对去除,是因为词重叠条件很薄弱,例如停止词基本上都在对应语言中存在翻译,如果它恰巧和一些实词能够匹配,满足了阈值重叠,那么就有可能将一个非平行句对误判为平行句对。
[0121] 步骤七、利用支持向量机二元分类器对候选平行短语对对进行分类,获得可比语料中包含噪声的平行短语对;不作处理会影响翻译系统性能;
[0122] 步骤八、将可比语料中包含噪声的平行短语对进行过滤处理,即根据经验与实际情况设置阈值θ,θ=0.3将每组可比语料中包含噪声的平行短语对中单词翻译概率对数的平均值低于θ的短语对去除得到可比语料的平行短语对;
[0123] 每组可比语料中包含噪声的平行短语对中单词翻译概率对数的平均值的公式如下:
[0124]
[0125] 其中,Si表示原语短语在目标语短语中存在翻译的第i个单词的翻译概率;n表示原语短语在目标语短语中存在翻译的单词个数;这其中不包括停用词的翻译概率,因为停用词对于翻译的贡献非常小,所以直接忽略不计。
[0126] 步骤九、将可比语料的平行短语对加入到基线解码器即基于短语的统计机器翻译系统的短语表中得到扩展解码器;其中,基线解码器是通过基线BLEU值评价和扩展解码器扩展BLEU值评价,其基线BLEU值和扩展BLEU值具体如表3所示:
[0127] 表3
[0128]
[0129] 根据上述结果可以判断,采用本发明所述的利用二元分类的方法抽取平行短语对质量较高,将从可比语料中抽取的平行短语对加入到翻译系统中能够提高翻译系统性能,使结果更接近人工翻译结果,而且随着平行短语对数量的增加,翻译结果也越来越好。实验结果表明,本发明能够很好地对平行与非平行短语对对进行分类,利用本发明所述的方法从可比语料中抽取的平行短语对,然后加入到翻译系统中的翻译结果所表达的含义更接近于人工翻译的结果。即完成了一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法。
[0130] 本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈