首页 / 专利库 / 电脑编程 / 算法 / 期望最大化算法 / 来源于单语和可用双语语料库的搭配翻译

来源于单语和可用双语语料库的搭配翻译

阅读:905发布:2020-10-18

专利汇可以提供来源于单语和可用双语语料库的搭配翻译专利检索,专利查询,专利分析的服务。并且提供了用于提取搭配翻译的方法和系统。该方法包括使用单语源和 目标语言 语料库以及可用的双语语料库来构造一个搭配翻译模型。搭配翻译模型采用关于围绕搭配的上下文词语的期望最大化 算法 。该搭配翻译模型稍后可用于提取一个搭配翻译字典。基于上下文冗余和/或双向翻译约束的可任选 过滤器 可用于确保该字典中仅包含高度可靠的搭配翻译。所构造的搭配翻译模型和所提取的搭配翻译字典可稍后用于进一步的 自然语言处理 ,诸如句子翻译。,下面是来源于单语和可用双语语料库的搭配翻译专利的具体信息内容。

1.一种包括可由计算机读取的指令的计算机可读介质,当所述指令被执行时, 使所述计算机构造一个搭配翻译模型,包括以下步骤:
从单语源语料库中提取源语言搭配;
从单语目标语料库中提取目标语言搭配;
使用至少所述源和目标语言搭配来构造搭配翻译模型,其中所述搭配语言模 型是基于一组特征函数的,其中所述特征函数之一包括围绕所提取的源语言搭配的 上下文词语的概率信息。
2.根据权利要求1所述的计算机可读介质,其特征在于,所述搭配翻译模型 是基于与所述特征函数中的至少某些的一种对数线性关系的。
3.根据权利要求1所述的计算机可读介质,其特征在于,所述上下文特征函 数使用期望最大化算法来估计概率值。
4.根据权利要求3所述的计算机可读介质,其特征在于,所述期望最大化算 法使用单语源和目标语言语料库来估计参数。
5.根据权利要求1所述的计算机可读介质,其特征在于,所述特征函数之一 包括目标语言搭配语言模型。
6.根据权利要求1所述的计算机可读介质,其特征在于,所述特征函数之一 包括源到目标语言词语翻译概率信息的词语翻译模型。
7.根据权利要求1所述的计算机可读介质,其特征在于,所述特征函数之一 包括目标到源语言词语翻译概率信息的词语翻译模型。
8.根据权利要求1所述的计算机可读介质,其特征在于,还包括接收所述源 和目标语言对的双语语料库。
9.根据权利要求8所述的计算机可读介质,其特征在于,所述特征函数之一 包括使用所述双语语料库训练的词语翻译语言模型。
10.根据权利要求8所述的计算机可读介质,其特征在于,所述特征函数之 一包括使用所述双语语料库训练的上下文翻译模型。
11.根据权利要求1所述的计算机可读介质,其特征在于,还包括以下步骤:
接收源语言语料库;
将所述源语言语料库解析成源语言依存三元组;
从所解析的源语言依存三元组中提取所述源语言搭配;
访问所述搭配翻译模型,以提取与所提取的源语言搭配中的某些相对应的搭 配翻译。
12.根据权利要求11所述的计算机可读介质,其特征在于,所提取的源语言 搭配中的某些是基于在所述源和目标语言之间具有高度对应性的搭配的类型来选 择的。
13.一种提取搭配翻译的方法,包括以下步骤:
接收源语言语料库;
接收目标语言语料库;
从所述源语言语料库中提取源语言搭配;
通过使用期望最大化算法来估计围绕所提取的源语言搭配的上下文词语的上 下文词语翻译概率值,以便对搭配翻译概率信息建模。
14.根据权利要求13所述的方法,其特征在于,所述估计上下文词语概率值 包括,以所选的窗口大小来选择上下文词语。
15.根据权利要求13所述的方法,其特征在于,还包括以下步骤:
接收使用所述源和目标语言对的双语语料库;
使用所接收的双语语料库来估计词语翻译概率值。
16.根据权利要求13所述的方法,其特征在于,还包括:使用已建模的搭配 翻译概率信息来提取搭配翻译字典。
17.根据权利要求16所述的方法,其特征在于,所述提取搭配翻译字典还包 括:基于上下文冗余和双向翻译约束中的至少其中之一进行过滤。
18.一种提取搭配翻译的系统,包括:
适于构造源到目标语言搭配翻译模型的一模,其中所述搭配翻译模型包括 使用基于期望最大化算法迭代估计的所选源语言上下文的概率值。
19.根据权利要求18所述的系统,其特征在于,还包括:
适于使用所述搭配翻译模型来提取搭配翻译字典的第二模块,其中所述第二 模块包括适于基于上下文冗余来过滤搭配翻译以生成搭配翻译候选的子模块。
20.根据权利要求19所述的系统,其特征在于,所述第二模块还包括用于基 于双向约束过滤搭配翻译候选以生成搭配翻译字典的子模块。

说明书全文

发明通常涉及自然语言处理。更具体地,本发明涉及搭配翻译。

依存三元组(dependency triple)是一种词汇上受到限制的、具有特殊句法 或依存关系的词语对,具有通式,其中w1和w2是词语,r是依存关系。 例如,如<开启,Obj,灯>的依存三元组是一个动宾(verb-object)依存三元组。在 一个句子的词语之间存在多种类型的依存关系,因此存在多种类型的依存三元组。 搭配是依存三元组的一种类型,其中单个词语w1和w2,通常分别被称为“头(head)” 和“依存词(dependant)”,满足或超过一个选定的相关性阈值。搭配的常见类 型包括主谓、动宾、名词-形容词和动词-副词的搭配。

观察到,虽然在源语言目标语言之间存在巨大的差异,但在特定的源语言 和目标语言中的一些搭配类型之间仍然存在较强的对应。例如,中文和英文是差异 很大的语言,然而在主谓、动宾、名词形容词和动词-副词的搭配上又存在较强的 对应。这些搭配类型中的较强对应使得希望采用搭配翻译来将短语和句子从源语言 翻译成目标语言。这样,搭配翻译对机器翻译、交叉语言信息检索、第二语言学习 以及其它双语自然语言处理应用非常重要。常常会由于搭配的特殊性因此具有不可 预测的翻译而造成搭配翻译错误。换句话说,源语言中的各个搭配可能具有相对于 彼此的类似结构和语义,但在目标语言的结构和语义上翻译差异非常大。

例如,假定中文动词“kan4(看)”是一个中文动宾搭配的头,词语“kan 4” 根据“kan4”与之搭配的宾语或依存词可以被译为英文的“see”,“watch”,“look” 或“read”。例如,“kan4”与中文词“dian4ying3(电影)”搭配(其表示英文 中的film或movie),或“dian4shi4(电视)”,其通常表示英文中的“television”。 但是中文搭配“kan4 dian4ying3”和“kan4 dian4shi4”,根据句子,最好各自 翻译为英文的“see film”和“watch television”。因此,虽然搭配“kan4 dian4ying3”和“kan4 dian4shi4”具有类似的结构和语义,但词语“kan 4”被 译成不同的英文。

在另一种情况中,“kan4”可以搭配词语“shu1(书)”,它通常指的是英 文中的“book”。但是,在许多句子中,搭配“kan4 shu1”最好地仅被译为英文 中的“read”,因此,在搭配翻译中省略了宾语“book”。

值得注意的是,此处中文词语是以拼音表示的,声调被表示为罗字母表示 的发音之后的数字。拼音是普通话中文发音的常用识别系统。

过去,搭配翻译方法通常依赖于源语言和目标语言的平行语料库或双语语料 库。但是,通常难以得到一个较大的对齐的双语语料库且其构造相当昂贵。相反, 对源语言和目标语言,更容易得到一个更大的单语语料库。

近来,开发了采用单语语料库的搭配翻译方法。但是,这些方法通常不包括 使用可用或在有限数量上可用的双语语料库。而且,采用单语语料库的这些方法通 常不考虑正在翻译的搭配周围的上下文词语。

因此,仍然需要用于各种自然语言处理应用的搭配翻译和提取的改进方法。

发明概述

本发明包括使用单语语料库和可用的双语语料库构造搭配翻译模型。该搭配 翻译模型采用了一个与关于正在翻译的搭配周围的上下文词语的期望最大化算法。 在其它实施例中,搭配翻译模型被用来标识并提取搭配翻译。在另一些实施例中, 所构造的翻译模型和所提取的搭配翻译用作句子翻译。

附图简述

图1是可在其中实现本发明的一个计算环境的框图

图2是示出本发明三方面的总流程图

图3是一个用于使用对搭配翻译有用的概率信息扩充词汇知识库的系统的框 图;

图4是一个用于以所提取的搭配翻译来进一步扩充词汇知识库的系统的框 图;

图5是一个用于使用扩充的词汇知识库来执行句子翻译的系统的框图;

图6是一个示出以对搭配翻译有用的概率信息来扩充词汇知识库的流程图;

图7是一个示出以所提取的搭配翻译来进一步扩充词汇知识库的流程图;

图8是一个示出为句子翻译使用扩充的词汇知识库的流程图。

说明性实施例的详细描述

对于自然语言处理,包括机器翻译和交叉语言信息检索来说,自动搭配翻译 是一个非常重要的技术。

本发明的一个方面允许以翻译搭配时有用的概率信息来扩充词汇知识库。在 另一方面,本发明包括利用已存储的概率信息来提取搭配翻译,以进一步扩充该词 汇知识库。在另一方面,已获得的词汇概率信息和所提取的搭配翻译都将用于后面 的句子翻译。

在进一步具体描述本发明之前,对可用于实现本发明的一般计算装置进行描 述是有帮助的。图1示出了可在其上实现本发明的合适的计算系统环境100的示 例。计算系统环境100只是合适的计算环境的一个示例,并不旨在对本发明的使 用范围或功能提出任何限制。也不应该把计算环境100解释为对示例性操作环境 100中示出的任一组件或其组合有任何依赖性或要求。

本发明可用众多其它通用或专用计算系统环境或配置来操作。适合在本发明 中使用的公知的计算系统、环境和/或配置的示例包括,但不限于,个人计算机、 服务器计算机、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、 可编程消费者电子产品、网络PC、小型机、大型机、电话系统、包含上述系统或 设备中的任一个的分布式计算机环境等。

本发明可在诸如程序模等由计算机执行的计算机可执行指令的通用语境中 描述。一般而言,程序模块包括例程、程序、对象、组件、数据结构等,它们执行 特定任务或实现特定抽象数据类型。本领域的技术人员可以可将此处提供的描述和 附图实现为处理器可执行指令,该指令可以被写在任何一种形式的计算机可读介质 上。

本发明也可以在分布式计算环境中实现,其中任务由通过通信网络链接的远 程处理设备执行。在分布式计算环境中,程序模块可以位于包括存储器存储设备在 内的本地和远程计算机存储介质中。

参考图1,用于实现本发明的一个示例性系统包括计算机110形式的通用计算 设备。计算机110的组件可以包括,但不限于,处理单元120、系统存储器130和 将包括系统存储器在内的各种系统组件耦合至处理单元120的系统总线121。系统 总线121可以是若干类型的总线结构中的任一种,包括存储器总线或存储器控制 器、外围总线和使用各种总线体系结构中的任一种的局部总线。作为示例,而非限 制,这样的体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA) 总线、扩展的ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线和外 围部件互连(PCI)总线(也被称为Mezzanine总线)。

计算机110通常包括各种计算机可读介质。计算机可读介质可以是能够被计 算机110访问的任何可用介质,且包括易失性和非易失性介质、可移动和不可移动 介质。作为示例,而非限制,计算机可读介质可以包括计算机存储介质和通信介质。 计算机存储介质包括以任何方法或技术实现的用于存储诸如计算机可读指令、数据 结构、程序模块或其它数据等信息的易失性和非易失性、可移动和不可移动介质。 计算机存储介质包括,但不限于,RAM、ROM、EEPROM、闪存或其它存储器技 术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁带盒、磁带、磁盘存 储或其它磁性存储设备、或能用于存储所需信息且可以由计算机110访问的任何其 它介质。通信介质通常具体化为诸如载波或其它传输机制的已调制数据信号中的计 算机可读指令、数据结构、程序模块或其它数据,且包含任何信息传递介质。术语 “已调制数据信号”指的是这样一种信号,其一个或多个特征以在信号中编码信息 的方式被设定或更改。作为示例,而非限制,通信介质包括诸如有线网络或直接线 连接的有线介质,以及诸如声学、RF、红外线和其它无线介质的无线介质。上述 中任一个的组合也应包括在计算机可读介质的范围之内。

系统存储器130包括易失性和/或非易失性存储器形式的计算机存储介质,诸 如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统 133(BIOS)包含有助于诸如启动时在计算机110中的元件之间传递信息的基本例 程,它通常存储在ROM 131中。RAM 132通常包含处理单元120可以立即访问和 /或目前正在操作的数据和/或程序模块。作为示例而非限制,图1示出了操作系统 134、应用程序135、其它程序模块136和程序数据137。

计算机110也可以包括其它可移动/不可移动、易失性/非易失性计算机存储介 质。仅作为示例,图1示出了从不可移动、非易失性磁介质中读取或向其写入的硬 盘驱动器141,从可移动、非易失性磁盘152中读取或向其写入的磁盘驱动器151, 以及从诸如CD ROM或其它光学介质等可移动、非易失性光盘156中读取或向其 写入的光盘驱动器155。可以在示例性操作环境下使用的其它可移动/不可移动、易 失性/非易失性计算机存储介质包括,但不限于,盒式磁带、闪存卡、数字多功能 盘、数字录像带、固态RAM、固态ROM等。硬盘驱动器141通常由诸如接口140 的不可移动存储器接口连接至系统总线121,磁盘驱动器151和光盘驱动器155通 常由诸如接口150的可移动存储器接口连接至系统总线121。

以上描述和在图1中示出的驱动器及其相关联的计算机存储介质为计算机 110提供了对计算机可读指令、数据结构、程序模块和其它数据的存储。例如,在 图1中,硬盘驱动器141被示为存储操作系统144、应用程序145、其它程序模块 146和程序数据147。注意,这些组件可以与操作系统134、应用程序135、其它程 序模块136和程序数据137相同或不同。操作系统144、应用程序145、其它程序 模块146和程序数据147在这里被标注了不同的标号是为了说明至少它们是不同的 副本。

用户可以通过诸如键盘162、麦克163和定点设备161(诸如鼠标跟踪球 或触摸垫)的输入设备向计算机110输入命令和信息。其它输入设备(未示出)可 以包括操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等。这些和其它输入设备通常 由耦合至系统总线的用户输入接口160连接至处理单元120,但也可以由其它接口 或总线结构,诸如并行端口、游戏端口或通用串行总线(USB)连接。监视器191 或其它类型的显示设备也经由接口,诸如视频接口190连接至系统总线121。除监 视器以外,计算机也可以包括其它外围输出设备,诸如扬声器197和打印机196, 它们可以通过输出外围接口190连接。

计算机110可使用至一个或多个远程计算机,诸如远程计算机180的逻辑连 接在网络化环境下操作。远程计算机180可以是个人计算机、手持式设备、服务器、 路由器、网络PC、对等设备或其它常见的网络节点,且通常包括上文相对于计算 机110描述的许多或所有元件。图1中所示逻辑连接包括局域网(LAN)171和广 域网(WAN)173,但也可以包括其它网络。这样的连网环境在办公室、企业范围 计算机网络、内联网和因特网中是常见的。

当在LAN联网环境中使用时,计算机110通过网络接口或适配器170连接至 LAN 171。当在WAN联网环境中使用时,计算机110通常包括调制解调器172或 用于通过诸如因特网等WAN 173建立通信的其它装置。调制解调器172可以是内 置或外置的,它可以通过用户输入接口160或其它合适的机制连接至系统总线121。 在网络化环境中,相对于计算机110描述的程序模块或其部分可以存储在远程存储 器存储设备中。作为示例,而非限制,图1示出了远程应用程序185驻留在存储器 设备181上。可以理解,所示的网络连接是示例性的,且可以使用在计算机之间建 立通信链路的其它手段。

背景搭配翻译模型

根据贝叶斯的定理构造了搭配翻译模型。给定一个源语言(例如,中文)搭 配或三元组ctri=(c1,rc,c2)及其候选的目标语言(例如,英文)的三元组翻译 etri=(e1,re,e2)的集合,其最佳的英文依存三元组为êtri=(ê1,re,ê2)是最大化以下等式 的一个,等式(1)为:

e ^ tri = arg max e tri p ( e tri | c tri )

= arg max e tri ( e tri ) p ( c tri | e tri ) / p ( c tri ) 等式(1)

= arg max e tri p ( e tri ) p ( c tri | e tri )

其中p(etri)被称为语言或目标语言模型,p(ctri|etri)被称为翻译或搭配翻译模型。注 意到,为方便起见,搭配和三元组可被互换使用。实际上,通常使用搭配而不是全 部都是依存三元组,以限制训练语料库的大小。

目标语言模型p(etri)可以使用英语搭配或三元组数据库进行计算。可使用诸如 内插进行的平滑来减少与如将在以下详细描述的数据稀疏相关联的问题。

可如下计算给定英文搭配或三元组在语料库中出现的概率:

p ( e tri ) = freq ( e 1 , r e , e 2 ) N 等式(2)

其中freq(e1,re,e2)表示三元组etri的频率,N表示训练语料库中所有英文三元组的总 计数。对于英文三元组etri=(e1,re,e2),如果假定两个词e1和e2在给定关系re下是条 件独立的(conditionally independent),则等式(2)可以如下重写:

p(etri)=p(re)p(e1|re)p(e2|re)    等式(3)

其中: p ( r e ) = freq ( * , r e , * ) N ,

p ( e 1 | r e ) = freq ( e 1 , r e , * ) freq ( * , r e , * ) ,

p ( e 2 | r e ) = freq ( * , r e , e 2 ) freq ( * , r e , * )

通配符*表示任何一个词语或关系。使用等式(2)和(3),内插语言模型如下:

p ( e tri ) = α freq ( e tri ) N + ( 1 - α ) p ( r e ) p ( e 1 | r e ) p ( e 2 | r e ) 等式(4)

其中0<α<1。平滑因子α可如下计算:

α = 1 - 1 1 + freq ( e tri ) 等式(5)

使用以下两个假定来估计等式1的翻译模型p(ctri|etri)。

假定1:给定一个英文三元组etri,和相应的中文依存关系rc,其中c1和c2是 条件独立的,翻译模型可以表示如下:

p(ctri|etri)=p(c1,rc,c2|etri)    等式(6)

=p(c1|rc,etri)p(c2|rc,etri)p(rc|etri)

假定2:对于一个英文三元组etri,假定ci仅依存于ei(i∈{1,2}),且rc仅依存于 re。等式(6)可以重写为如下:

p(ctri|etri)=p(c1|rc,etri)p(c2| rc,etri)p(re|etri)    等式(7)注意到,

=p(c1|e1)p(c2|e2)p(rc|re)

p(c1|e1)和p(c2|e2)是三元组内的翻译概率;因此,它们不是不受限制的概率。以 下,头(p(c1|e1))和依存词(p(c2|e2))之间的翻译可以被分别表示为phead(c|e)和 pdep(c|e)。

由于中文和英文在同一依存关系之间的对应性较强,为方便起见,假定对对 应的re和rc,p(rc|re)=1,对其它情况,p(rc|re)=0。在其它实施例中,p(rc|re)的 变化范围从0.8到1.0,p(rc|re)的变化范围对应地从0.2到0.0。

可采用吕雅娟和周明在第42届计算语言学协会年会上发表的“Collocation translation acquisition using monolingual corpora”中所述的期望最大化(EM)算法(第 295-302页,2004年),迭代估计出概率值phead(c1|e1)和pdep(c2|e2)。在吕和周的 论文中(2004),EM算法被表示为如下:

E - step : p ( e tri | c tri ) p ( e tri ) p head ( c 1 | e 1 ) p dep ( c 2 | e 2 ) p ( r c | r e ) Σ e tri = ( e 1 , r e , e 2 ) ETri p ( e tri ) p head ( c 1 | e 1 ) p dep ( c 2 | e 2 ) p ( r c | r e )

M - step : p head ( c | e ) = Σ e tri = ( e , * , * ) Σ c tri = ( c , * , * ) p ( c tri ) p ( e tri | c tri ) Σ e tri = ( e , * , * ) Σ c tri CTri p ( c tri ) p ( e tri | c tri )

p dep ( c | e ) = Σ e tri = ( * , * , e ) Σ c tri = ( * , * , c ) p ( c tri ) p ( e tri | c tri ) Σ e tri ( * , * , e ) Σ c tri CTri p ( c tri ) p ( e tri | c tri )

其中ETri表示英文三元组集合,CTri表示中文三元组集合。

将翻译概率phead(c|e)和pdep(c|e)初设为如下的统一分布:

p head ( c | e ) = p dep ( c | e ) = 1 | Γ e | , if ( c Γ e ) 0 , otherwise 等式(8)

其中Γe表示英文字e的翻译集合。使用上述EM算法迭代估计出词语翻译概率。

本发明的搭配翻译模型

本发明的框架包括搭配翻译模型的对数线性建模。本发明的模型中包括的是 吕和周(2004)中描述的搭配翻译模型的各个方面。然而,本发明的模型也采用来 自正在翻译的搭配周围的上下文词语的上下文信息。此外,在可用或者需要的情况 下,本发明的框架集成了基于双语语料库的特征和基于单语语料库的特征两者。

给定一中文搭配ccol=(c1,rc,c2),其候选的英文翻译的集合为ecol=(e1,rc,e2),翻 译概率可被估计为:

p ( e col | c col ) = p λ 1 M ( e col | c col )

= exp [ Σ m = 1 M λ m h m ( e col , c col ) ] Σ e col exp [ Σ m = 1 M λ m h m ( e col , c col ) ] 等式(9)

其中,hm(col,ccol),m=1,...M是一组特征函数。注意到,本发明的翻译模型可使用搭 配而不是仅仅依存三元组来构造。对于每一特征函数hm,存在模型参数 λm,m=1,...,M。给定一组特征,参数λm可使用Franz Josef Osch和Hermann Ney在 第40届计算语言协会上的“Discriminative training and maximum entropy models for statistical machine translation”中描述的IIS或GIS算法”(第295-302页(2002)) 来估计。

用于选择最可能的英文翻译的判定规则为:

e ^ col = arg max e col { p ( e col | c col ) } = arg max e col { p λ 1 M ( e col | c col ) }

= arg max e col { exp [ Σ m = 1 M λ m h m ( e col , c col ) ] Σ e col exp [ Σ m = 1 M λ m h m ( e col , c col ) ] } 等式(10)

= arg max e col { Σ m = 1 M λ m h m ( e col , c col ) }

在本发明的翻译模型中,考虑至少三种特征函数或评分:目标语言评分、内部搭配 翻译评分以及与上下文词语翻译评分,下面将做具体描述。

分配给目标语言评分的特征函数

在本发明中,目标语言的特征函数被定义为:

h1(ecol,ccol)=logp(ecol)    等式(11)

其中,上述p(ecol)通常被称为目标语言模型。可使用关于背景搭配翻译模型描述的 目标或英语语料库来估计该目标语言模型。

分配给内部搭配翻译评分的特征函数

内部搭配翻译评分可以被表示为如下的词语翻译概率:

h2(ecol,ccol)=logp(e1|c1)    等式(12)

h3(ecol,ccol)=logp(e2|c2)    等式(13)

h4(ecol,ccol)=logp(c1|e1)    等式(14)

h5(ecol,ccol)=logp(c2|e2)    等式(15)

注意到,在替换实施例中,可省略特征函数h4和h5。其逆向词语翻译概率p(ci|ei) i=1,2被称为机器翻译的源通道模型中的翻译模型。实验表明,直接概率p(ei|ci) i=1,2通常会在搭配翻译中产生更好的结果。在本发明中,直接概率p(ei|ci)被包 括在搭配翻译模型中作为特征函数。

根据吕和周所描述的方法(2004),可使用两个单语语料库来估计搭配词语 翻译概率。假定在中英文之间存在三个主要依存关系的较强对应:动宾、名词形 容词、动词-副词。然后使用结合双语翻译字典的EM算法来估计等式12至15中 四个内部搭配翻译概率h2至h5。注意到,可以从吕和周(2004)中直接推导出h4 和h5,而且可使用英语作为源语言,中文作为目标语言,并应用这里描述的EM 算法类来似推导得出h2和h3。

此外,本模型中的相关翻译评分可以视为如下表示的本模型的一个特征函数:

h6(ecol,ccol)=logp(re|rc)    等式(16)

类似于吕和周(2004),假定对对应的re和rc,p(re|rc)=0.9,对其它情况, p(re|rc)=0.1。在其它实施例中,对对应的re和rc,p(re|rc)的变化范围从0.8到1.0, 其它情况对应的变化范围从0.2到0.0。在又一些实施例中,也一并省略了特征函 数h6。

分配给上下文词语翻译评分的特征函数

在本发明的搭配翻译模型中,搭配外的上下文词语对搭配翻译消除歧义性也 是有用的。例如,在句子“我在电影院看了一场很有意思的电影”(I saw an interesting film at the cinema),为翻译搭配“看(saw)~电影(film)”,上下文 词语“电影院(cinema)”和“有意思的(interesting)”都有助于翻译。该上下 文词语特征函数可以被表示为如下:

h7(ecol,ccol)=logpc1(e1|D1)    等式(17)

h8(ecol,ccol)=logpc2(e2|D2)    等式(18)

其中,D1是c1的上下文词语集合,D2是c2的上下文词语集合。此处,认为c2是c1的 上下文,c1是c2的上下文,即:

D1={c1-m′,...,c1-1′,c11′,...,c1m′}∪c2

D2={c2-m′,...,c2-1′,c21′,...,c2m′}∪c1

其中是窗口1大小。

简而言之,要被翻译的词语被表示为c(c=c1,or c=c2),e是c的候选翻译, D=(c′1,...,c′n)是c的上下文。采用朴素贝叶斯假定,它可被简化为如下:

p ( e , D ) = p ( e , c 1 , . . . c n )

= p ( e ) p ( c 1 , . . . c n | e ) 等式(19)

p ( e ) Π c { c 1 , . . . , c n } p ( c | e )

用英文语料库可容易估计出p(e)的值。由于内部搭配翻译特征函数中已经考虑了先 验概率pc(e)=p(e|c),因此此处仅需要考虑上下文词语翻译评分计算中的第二个组 成部分,即:

h 7 ( e col , c col ) = Σ c D 1 log p ( c | e 1 ) 等式(20)

h 8 ( e col , c col ) = Σ c D 2 log p ( c | e 2 ) 等式(21)

现在,问题在于如何估计翻译概率p(c′|e)。传统上,可使用双语语料库进行估计。 在本发明中,提供了使用单语语料库估计该概率的方法。

使用单语语料库估计上下文词语的翻译概率

基本的思路是,假定英文中的所有实例(e′,e)都是根据分布 p ( e | e ) = Σ c C p ( c | e ) p ( e | c , e ) 独立生成,则将中文上下文c′映射到对应的英文上下文 e′。这样,可以结合如下的EM算法从英文单语语料库中估计出翻译概率p(c′|e):

E-步骤: p ( c | e , e ) p ( c | e ) p ( e | c , e ) Σ c C p ( c | e ) p ( e | c , e )

M-步骤: p ( e | c , e ) f ( e , e ) p ( c | e , e ) Σ e E f ( e , e ) p ( c | e c , e )

p ( c | e ) Σ e f ( e , e ) p ( c | e , e ) Σ e E f ( e , e )

一开始,

p ( e | c , e ) = 1 | T c | , if e T c 0 , if e T c , 等式(22)其中

p ( c | e ) = 1 | C | , c C

C表示中文词语集合,E表示英文词语集合,Tc表示中文词语c的翻译集合。使用 Em算法可有助于准确将上下文从一种语言变换成另一种语言。

在某些实施例中,为避免零概率,p(c′|e)可以采用先验概率p(c′)进行平滑, 使得:

p(c′|e)=αp′(c′|e)+(1-α)p(c′)    等式(23)

其中,p′(c′|e)是由上述EM算法估计的概率,可对每一次实验,将参数α设定为 0.8,但也可使用类似的值。

将特征中导出的双语语料库集成到搭配翻译模型中

对于特定的源和目标语言对(例如,中文和西班牙文),某些双语语料库是 可用的。本发明的搭配翻译框架可以将这些有价值的双语源集成到同一搭配翻译模 型中。

由于可以使用双语语料库估计出本发明的搭配翻译模型中的所有翻译特征, 所以相对容易地推导出对应的双语语料库。例如,双语翻译概率可被定义如下:

h9(ecol,ccol)=logpbi(e1|c1)     等式(24)

h10(ecol,ccol)=logpbi(e2|c2)    等式(25)

h11(ecol,ccol)=logpbi(c1|e1)    等式(26)

h12(ecol,ccol)=logpbi(c2|e2)    等式(27)

h13(ecol,ccol)=logpbi(e1|D1)    等式(28)

h14(ecol,ccol)=logpbi(e2|D2)    等式(29)

可使用诸如Brown等人在Computational Linguistics上发表的“The mathematics of machine translation:parameter estimation”(19(2),第263-313页(1993))中所述 的IBM模型的现有方法,从双语语料库中估计出这些概率值或信息。

通常,在双语源可用时使用双语源是有用的。双语语料库可以改进翻译概率 估计,因此,改善搭配翻译的准确性。本发明的建模框架是有利的,至少因为它无 缝地集成了单语和可用的双语源两者。

注意到,在众多实施例中,由于对适当地构造适当的搭配翻译模型不是必需 的,省略了此处所述的某些特征函数。例如,在一些实施例中,由于不必要而省略 了特征函数h11和h12。在另一些实施例中,省略了h4和h5。在又一些实施例中,省 略了基于依存关系的特征函数h6。最后,在其它实施例中,在搭配翻译模型的构造 时省略了特征函数h4、h5、h6、h11和h12。

图2是示出本发明中被具体化为单个方法200的至少三个一般方面的概观流 程图。图3、4和4是示出用于执行各个方面的模块的框图。图6、7和8示出了一 般对应于图3、4和5中所示的框图的方法。应该理解的是,此处描述的框图、流 程图、方法是为理解的目的而示出的,且并被认为是限制。例如,为促进实现本发 明各方面,可以组合,分离或省略各模块和步骤。

现在参考图2,方法200中的步骤201包括以稍后将用于进一步进行自然语言 处理尤其是文本和句子的翻译的信息来扩充词汇知识库。步骤201包括根据本发明 构造一个搭配翻译模型的步骤202和利用本发明的搭配翻译模型提取和/或获得搭 配翻译的步骤204。方法200进一步包括使用已构造的搭配翻译模型和已提取的搭 配翻译以执行206处指示的所接收句子的句子翻译的步骤208。可以如步骤210所 指示,迭代进行句子翻译。

图3示出了一个包含词汇知识库构造模块300的系统的框图。词汇知识库构 造模块300包括搭配翻译模型构造模块303,该模块根据本发明构造搭配翻译模型 305。搭配翻译模型305扩充了词汇知识库301,该知识库将稍后用于执行如图4 和图5中所示的搭配翻译提取和句子翻译。图6是示出根据本发明扩充词汇知识库 301的流程图,并一般与图3对应。

词汇知识库构造模块300可以是计算机110上执行,或者是在LAN 171或 WAN 173连接的任何一台远程计算机上存储和执行的应用程序135。同样地,词 汇知识库301可以驻留在计算机110上的任意一个本地存储装置中,如硬盘驱动器 141、或光盘CD、或远程驻留在LAN 171或WAN 173存储器装置中。词汇知识 库构造模块300包括搭配翻译模型构造模块303。

在步骤602,通过搭配翻译模型构造模块303接收源即中文语言语料库302。 源语言语料库302可包括使用任何一种自然语言的文本。然而,此处常常会使用中 文作为说明性的源语言。在大多数实施例中,源语言语料库302包括未处理或已预 处理的数据或文本,例如从报纸、书籍、出版物和期刊、web源、语音至文本引擎 等等获取的文本。源语言语料库302可从上述数据任一输入装置以及上述任一数据 存储装置接收。

在步骤604,源语音搭配提取模块304使用解析器306将中文语料库302解析 成依存三元组,以生成中文搭配或搭配数据库308。在众多实施例中,搭配提取模 块304使用例如基于对数似然比(Log Likelihood Ratio,LLR)度量的评分系统来 生成源语言即中文搭配308,该评分系统用于从依存三元组中提取搭配。这样的 LLR评分在Ted Dunning在Computational Linguistics,10(1),第61-74页(1993) 中发表的“Accurate methods for the statistics of surprise and coincidence”中描述。 在其它实施例中,源语言搭配提取模块304生成更大的依存三元组集合。在其它实 施例中,也可使用从依存三元组中提取搭配的其它方法,如基于共有词语信息 (mutual word information,WMI)的方法。

在步骤606,搭配翻译模型构造模块303从上述任一输入装置以及上述任一数 据存储装置接收目标即英文语言语料库310。也注意到,对英文的使用仅仅是说明 性的,也可以使用其它目标语言。

在步骤608,目标语言搭配提取模块312使用解析器341将英文语料库310 解析成依存三元组。与以上模块304一样,搭配提取模块312可使用从依存三元组 中提取搭配的任一种方法来生成目标即英文搭配316。在其它实施例中,搭配提取 模块312可在无需进一步过滤的情况下生成依存三元组。英文搭配或依存三元组 316可被存储在数据库中以便进一步处理。

在步骤610,参数估计模块320接收英文搭配316,然后使用任何已知的估计 搭配语言模型的方法以目标即英文搭配概率训练器322来估计语言模型p(ecol)。目 标搭配概率训练器322一般基于目标语言语料库310中的每一搭配的计数和搭配的 总数来估计各种搭配的概率,这在以上更详细地描述了。在众多实施例中,训练器 322仅估计所选类型的搭配。如上所述,在中英文语言对动宾、名词-形容词和动 词-副词具有尤其高的对应性。为此,本发明的实施例可将训练的搭配类型限定为 那些具有高度关系对应性的类型。概率值324用于估计上述特征函数h1。

在步骤612,参数估计模块320接收中文搭配308、英文搭配316、以及双语 字典(如汉英字典),并采用词语翻译概率训练器332估计词语翻译概率334。在 大多数实施例中,词语翻译概率训练器332使用吕和周(2004)中描述的EM算法, 来使用单语中文和英文语料库估计词语翻译概率模块。这样的概率值pmon(e|c)用 于估计上述的特征函数h4和h5。

在步骤614,原始源和目标语言被逆转,例如,英文被认为是源语言,而中文 是目标语言。参数估计模块320接收到逆转的源和目标语言搭配,并借助于英汉字 典来估计英文中文词语翻译概率模型。这样的概率值pmon(c|e)被用于估计上述的特 征参数h2和h3。

在步骤616,参数估计模块320接收到中文搭配308、英文语料库310,和双 语字典336,并使用根据本发明如上所述的EM算法构造上下文翻译概率模型342。 以EM算法估计概率值p(c′|e1)和p(c′|e2),它们并被用于估计上述特征函数h7和h8。

在步骤618,估计347处指示的关系翻译评分即概率p(re|rc)。一般,可假定 在中文和英文的同一依存关系之间存在较强的对应。因此,在大多数实施例中,假 定如果re与re对应,则p(re|rc)=0.9,否则p(re|rc)=0.1。p(re|rc)的假定值可用于估 计特征函数h6。但在其它实施例中,如果re与re对应,则p(re|rc)值变化范围为0.8 到1.0,其它情况为0.2到0。

在步骤620,搭配翻译模型构造模块303接收双语语料库350。双语语料库350 一般是一个平行的或句子对齐的源和目标语言语料库。在步骤622,双语词语翻译 概率训练器估计364处指示的的概率值p(re|rc)。注意到,目标和源语言可以逆转 成模型概率值pbi(e|c)。pbi(c|e)和pbi(e|c)的值可用于估计上述特征函数h9到h12。

在步骤624,双语上下文翻译概率训练器352估计pbi(e1|D1)和pbi(e2|D2)的值。 这样的概率值可用于估计上述特征函数h13和h14。

在估计了所有参数后,搭配翻译模型305可以用于在线搭配翻译。它也可以 用于离线搭配翻译字典获取。现在参考图2、4和7,图4示出了一个系统,该系 统执行提取搭配翻译以使用特定源和目标语言对的搭配翻译字典进一步扩充词汇 知识库201的步骤204。图7一般与图4对应,示出了使用词汇搭配翻译模型305 来提取和/或获取搭配翻译。

在步骤702,搭配提取模块304接收源语言语料库。在步骤704,搭配提取模 块304使用任何一种已知的从自然语言文本中提取搭配的方法来从源语言语料库 302中提取源语言搭配308。在众多实施例中,搭配提取模块304包括对数似然比 (LLR)评分器306。LLR评分器306对依存三元组ctri=(c1,rc,c2)进行评分,以标 识308处指出的源语言搭配ccol=(c1,rc,c2)。在众多实施例中,对数似然比(LLR) 评分器306如下计算LLR评分:

Logl=aloga+blogb+clogc+dlogd

-(a+b)log(a+b)-(a+c)log(a+c)

-(b+d)log(b+d)-(c+d)log(c+d)

+NlogN

其中,N是所有中文三元组的总数,且

a=f(c1,rc,c2),

b=f(c1,rc,*)-f(c1,rc,c2),

c=f(*,rc,c2)-f(c1,rc,c2),

d=N-a-b-c.

注意到,f指示特定三元组的计数或频率,*是指示任何中文词语的“通配符”。 标识出频率和LLR值大于所选阈值的依存三元组,并将其作为源语言搭配308。

如上所述,在多个实施例中,取决于正在处理的源和目标语言对,仅提取特 定类型的搭配。例如,可为中英文语言对,提取动宾(VO),名词-形容词(AN), 动词-副词(AV)搭配。在一个实施例中,也加入了主谓(SV)搭配。选择特定 搭配类型时的一个重要考虑在于源语言和一个或多个目标语言之间的较强对应性。 还注意到,LLR评分仅是用于确定搭配的一种方法,并不旨在是限定。还可以使 用从依存三元组中标识搭配的任何一种已知方法(例如加权共有信息(WMI))。

在步骤706,搭配翻译提取模块400接收搭配翻译模型305,后者包括上述的 概率值Pmon(c′|e)、Pmon(e|c)、Pmon(c|e)、P(ecol)、Pbi(c′|e)、Pbi(e|c)、Pbi(c|e)和P(re|rc)。

在步骤708,搭配翻译模块402将中文搭配308翻译成目标即英文搭配。首先 403使用搭配翻译模型中的概率来计算特征函数。在大多数实施例中,特征函数与 上述相关联的概率函数具有对数线性关系。然后,404使用搭配计算特征函数,使 得中文搭配308中的各个中文搭配ccol被翻译成最可能的英文搭配êcol,如404及以 下所指示:

e ^ col = arg max e col { Σ m = 1 M λ m h m ( e col , c col ) }

在多个实施例,执行进一步过滤以确保仅提取高度可靠的搭配翻译。为此, 搭配翻译提取模块400可包括上下文冗余过滤器406和/或双向翻译约束过滤器 410。注意到,在不同的上下文中,一个搭配可能被译成不同的译文。例如,“看~ 电影”或“kan4dian1ying3”(拼音)可根据不同的上下文接收若干译文,例如, “see film”、“watch film”和“look film”。

在步骤710,上下文冗余过滤器406对所提取的中英文搭配对进行过滤。在大 多数实施例中,上下文冗余过滤器406计算最高频率译文计数与所有译文计数的比 率。如果该比率满足所选阈值,则该搭配及其对应的译文将被作为如步骤408所指 示的中文搭配翻译候选。

在步骤712,双向翻译约束过滤器410对翻译候选408进行过滤,以生成可在 搭配翻译字典中使用以便稍后处理的所提取的搭配翻译416。步骤712包括以英文 中文搭配翻译模型提取如412所示的英文搭配翻译候选。这样的英文中文翻译模型 可通过诸如步骤614(图6中所示)等先前步骤来构造,其中,中文被认为是目标 语言,而英文被认为是源语言。提取这些出现在翻译候选集合408、414两者中的 搭配翻译作为最终的搭配翻译416。

图5是用于使用根据本发明构造的搭配翻译字典和搭配翻译模型来执行句子 翻译的系统的框图。图8一般对应于图5,示出了使用本发明的搭配翻译字典和搭 配翻译模型的句子翻译。

在步骤802,句子翻译模块500通过关于图1所述的任何一个输入装置或存储 装置接收源即中文句子。在步骤804,句子翻译模块500接收或访问搭配翻译字典 416。在步骤805,句子翻译模块500接收或访问搭配翻译模型305。在步骤806, 包括至少一个依存性解析器的解析器504将源语言句子502解析成经解析的中文句 子506。

在步骤808,搭配翻译模块500基于在中文和目标即英文之间具有高度对应性 的搭配的类型来选择中文搭配。在某些实施例中,这样的搭配类型包括如步骤511 所示的动宾,名词-形容词,动词-副词搭配。

在步骤810,搭配翻译模块500用搭配翻译字典416将中文搭配511翻译成框 513处所示的目标即英文搭配514。在步骤810,对于511中使用搭配翻译字典无 法找到翻译的搭配,搭配翻译模块500使用搭配翻译模型305将这些中文搭配翻译 成目标即英文搭配514。在步骤812,英文语法模块516接收英文搭配514,并基 于适当的英文语法规则517来构造英文句子518。英文句子518然后可被返回到应 用层,或被进一步处理,如步骤520所示。

尽管参考特定的实施例描述了本发明,但本领域的技术人员应该认识到,可 在形式和细节上作出改变,而不背离本发明的精神和范围。

发明背景

高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈