首页 / 专利库 / 电脑编程 / 算法 / 期望最大化算法 / 来源于单语和可用双语语料库的搭配翻译

来源于单语和可用双语语料库的搭配翻译

阅读:777发布:2020-09-19

专利汇可以提供来源于单语和可用双语语料库的搭配翻译专利检索,专利查询,专利分析的服务。并且提供了用于提取搭配翻译的方法和系统。该方法包括使用单语源和 目标语言 语料库以及可用的双语语料库来构造一个搭配翻译模型。搭配翻译模型采用关于围绕搭配的上下文词语的期望最大化 算法 。该搭配翻译模型稍后可用于提取一个搭配翻译字典。基于上下文冗余和/或双向翻译约束的可任选 过滤器 可用于确保该字典中仅包含高度可靠的搭配翻译。所构造的搭配翻译模型和所提取的搭配翻译字典可稍后用于进一步的 自然语言处理 ,诸如句子翻译。,下面是来源于单语和可用双语语料库的搭配翻译专利的具体信息内容。

1.一种构造搭配翻译模型的方法,所述方法包括以下步骤:
从单语源语料库中提取源语言搭配和用于源语言搭配的上下文词语集合,每个上下文词语集合包括一个选定窗口的词语;
从单语目标语料库中提取目标语言搭配;
使用所述源语言搭配、所述目标语言搭配以及所述上下文词语集合用期望最大化算法来确定多个翻译概率,每个翻译概率提供了在给定目标语言搭配中的一个词语的情况下的上下文词语集合中的词语的概率;
将上下文词语集合中的所有词语的翻译概率组合起来形成单语上下文翻译概率;
使用双语语料库来确定双语上下文翻译概率,其中每个双语上下文翻译概率提供了在给定上下文词语集合的情况下的目标语言搭配中的词语的概率;以及
使用至少所述源和目标语言搭配来构造搭配翻译模型,其中所述搭配翻译模型是基于一组特征函数的,其中所述特征函数包括对于第一目标词语和第一搭配集合的单语上下文翻译概率的对数以及对于第一目标词语和第一搭配集合的双语上下文翻译概率的对数。
2.根据权利要求1所述的方法,其特征在于,所述期望最大化算法使用单语源和目标语言语料库来估计参数。
3.根据权利要求1所述的方法,其特征在于,所述特征函数还包括目标语言搭配语言模型。
4.根据权利要求1所述的方法,其特征在于,所述特征函数还包括源到目标语言词语翻译概率信息的词语翻译模型。
5.根据权利要求1所述的方法,其特征在于,所述特征函数还包括目标到源语言词语翻译概率信息的词语翻译模型。
6.根据权利要求1所述的方法,其特征在于,所述特征函数还包括使用所述双语语料库训练的词语翻译语言模型。
7.根据权利要求1所述的方法,其特征在于,还包括以下步骤:
接收源语言语料库;
将所述源语言语料库解析成源语言依存三元组;
从所解析的源语言依存三元组中提取所述源语言搭配;
访问所述搭配翻译模型,以提取与所提取的源语言搭配中的某些相对应的搭配翻译。
8.根据权利要求7所述的方法,其特征在于,所提取的源语言搭配中的某些是基于在所述源和目标语言之间具有高度对应性的搭配的类型来选择的。
9.一种提取搭配翻译的方法,包括以下步骤:
接收源语言语料库;
从所述源语言语料库中提取源语言搭配;
接收包括一组特征函数的搭配翻译模型,所述一组特征函数包括围绕所提取的源语言搭配的上下文词语的上下文词语翻译概率;
使用所述搭配翻译模型将源语言搭配翻译成目标语言搭配;
使用上下文冗余过滤器对目标语言搭配进行过滤,以形成源语言搭配翻译候选;
接收第二搭配翻译模型;
使用所述第二搭配翻译模型来将所述源语言搭配翻译候选翻译成源语言搭配;以及使用双向过滤器根据用所述第二搭配翻译模型形成的源语言搭配来对源语言搭配翻译候选进行过滤,以生成最终的搭配翻译。
10.根据权利要求9所述的方法,其特征在于,还包括以下步骤:
接收使用所述源和目标语言对的双语语料库;
使用所接收的双语语料库来估计词语翻译概率值。
11.一种构造搭配翻译模型的系统,所述系统包括:
用于从单语源语料库中提取源语言搭配和用于源语言搭配的上下文词语集合的装置,每个上下文词语集合包括一个选定窗口的词语;
用于从单语目标语料库中提取目标语言搭配的装置;
用于使用所述源语言搭配、所述目标语言搭配以及所述上下文词语集合用期望最大化算法来确定多个翻译概率的装置,每个翻译概率提供了在给定目标语言搭配中的一个词语的情况下的上下文词语集合中的词语的概率;
用于将上下文词语集合中的所有词语的翻译概率组合起来形成单语上下文翻译概率的装置;
用于使用双语语料库来确定双语上下文翻译概率的装置,其中每个双语上下文翻译概率提供了在给定上下文词语集合的情况下的目标语言搭配中的词语的概率;以及用于使用至少所述源和目标语言搭配来构造搭配翻译模型的装置,其中所述搭配翻译模型是基于一组特征函数的,其中所述特征函数包括对于第一目标词语和第一搭配集合的单语上下文翻译概率的对数以及对于第一目标词语和第一搭配集合的双语上下文翻译概率的对数。

说明书全文

来源于单语和可用双语语料库的搭配翻译

[0001] 发明背景
[0002] 本发明通常涉及自然语言处理。更具体地,本发明涉及搭配翻译。
[0003] 依存三元组(dependency triple)是一种词汇上受到限制的、具有特殊句法或依存关系的词语对,具有通式,其中w1和w2是词语,r是依存关系。例如,如<开启,Obj,灯>的依存三元组是一个动宾(verb-object)依存三元组。在一个句子的词语之间存在多种类型的依存关系,因此存在多种类型的依存三元组。搭配是依存三元组的一种类型,其中单个词语w1和w2,通常分别被称为“头(head)”和“依存词(dependant)”,满足或超过一个选定的相关性阈值。搭配的常见类型包括主谓、动宾、名词-形容词和动词-副词的搭配。
[0004] 观察到,虽然在源语言目标语言之间存在巨大的差异,但在特定的源语言和目标语言中的一些搭配类型之间仍然存在较强的对应。例如,中文和英文是差异很大的语言,然而在主谓、动宾、名词形容词和动词-副词的搭配上又存在较强的对应。这些搭配类型中的较强对应使得希望采用搭配翻译来将短语和句子从源语言翻译成目标语言。这样,搭配翻译对机器翻译、交叉语言信息检索、第二语言学习以及其它双语自然语言处理应用非常重要。常常会由于搭配的特殊性因此具有不可预测的翻译而造成搭配翻译错误。换句话说,源语言中的各个搭配可能具有相对于彼此的类似结构和语义,但在目标语言的结构和语义上翻译差异非常大。
[0005] 例如,假定中文动词“kan4(看)”是一个中文动宾搭配的头,词语“kan 4”根据“kan4”与之搭配的宾语或依存词可以被译为英文的“see”,“watch”,“look”或“read”。例如,“kan4”与中文词“dian4ying3(电影)”搭配(其表示英文中的film或movie),或“dian4shi4(电视)”,其通常表示英文中的“television”。但是中文搭配“kan4 dian4ying3”和“kan4 dian4shi4”,根据句子,最好各自翻译为英文的“see film”和“watch television”。因此,虽然搭配“kan4dian4ying3”和“kan4 dian4shi4”具有类似的结构和语义,但词语“kan 4”被译成不同的英文。
[0006] 在另一种情况中,“kan4”可以搭配词语“shu1(书)”,它通常指的是英文中的“book”。但是,在许多句子中,搭配“kan4 shu1”最好地仅被译为英文中的“read”,因此,在搭配翻译中省略了宾语“book”。
[0007] 值得注意的是,此处中文词语是以拼音表示的,声调被表示为罗字母表示的发音之后的数字。拼音是普通话中文发音的常用识别系统。
[0008] 过去,搭配翻译方法通常依赖于源语言和目标语言的平行语料库或双语语料库。但是,通常难以得到一个较大的对齐的双语语料库且其构造相当昂贵。相反,对源语言和目标语言,更容易得到一个更大的单语语料库。
[0009] 近来,开发了采用单语语料库的搭配翻译方法。但是,这些方法通常不包括使用可用或在有限数量上可用的双语语料库。而且,采用单语语料库的这些方法通常不考虑正在翻译的搭配周围的上下文词语。
[0010] 因此,仍然需要用于各种自然语言处理应用的搭配翻译和提取的改进方法。
[0011] 发明概述
[0012] 本发明包括使用单语语料库和可用的双语语料库构造搭配翻译模型。该搭配翻译模型采用了一个与关于正在翻译的搭配周围的上下文词语的期望最大化算法。在其它实施例中,搭配翻译模型被用来标识并提取搭配翻译。在另一些实施例中,所构造的翻译模型和所提取的搭配翻译用作句子翻译。
[0013] 附图简述
[0014] 图1是可在其中实现本发明的一个计算环境的框图
[0015] 图2是示出本发明三方面的总流程图
[0016] 图3是一个用于使用对搭配翻译有用的概率信息扩充词汇知识库的系统的框图;
[0017] 图4是一个用于以所提取的搭配翻译来进一步扩充词汇知识库的系统的框图;
[0018] 图5是一个用于使用扩充的词汇知识库来执行句子翻译的系统的框图;
[0019] 图6是一个示出以对搭配翻译有用的概率信息来扩充词汇知识库的流程图;
[0020] 图7是一个示出以所提取的搭配翻译来进一步扩充词汇知识库的流程图;
[0021] 图8是一个示出为句子翻译使用扩充的词汇知识库的流程图。
[0022] 说明性实施例的详细描述
[0023] 对于自然语言处理,包括机器翻译和交叉语言信息检索来说,自动搭配翻译是一个非常重要的技术。
[0024] 本发明的一个方面允许以翻译搭配时有用的概率信息来扩充词汇知识库。在另一方面,本发明包括利用已存储的概率信息来提取搭配翻译,以进一步扩充该词汇知识库。在另一方面,已获得的词汇概率信息和所提取的搭配翻译都将用于后面的句子翻译。
[0025] 在进一步具体描述本发明之前,对可用于实现本发明的一般计算装置进行描述是有帮助的。图1示出了可在其上实现本发明的合适的计算系统环境100的示例。计算系统环境100只是合适的计算环境的一个示例,并不旨在对本发明的使用范围或功能提出任何限制。也不应该把计算环境100解释为对示例性操作环境100中示出的任一组件或其组合有任何依赖性或要求。
[0026] 本发明可用众多其它通用或专用计算系统环境或配置来操作。适合在本发明中使用的公知的计算系统、环境和/或配置的示例包括,但不限于,个人计算机、服务器计算机、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子产品、网络PC、小型机、大型机、电话系统、包含上述系统或设备中的任一个的分布式计算机环境等。
[0027] 本发明可在诸如程序模等由计算机执行的计算机可执行指令的通用语境中描述。一般而言,程序模块包括例程、程序、对象、组件、数据结构等,它们执行特定任务或实现特定抽象数据类型。本领域的技术人员可以可将此处提供的描述和附图实现为处理器可执行指令,该指令可以被写在任何一种形式的计算机可读介质上。
[0028] 本发明也可以在分布式计算环境中实现,其中任务由通过通信网络链接的远程处理设备执行。在分布式计算环境中,程序模块可以位于包括存储器存储设备在内的本地和远程计算机存储介质中。
[0029] 参考图1,用于实现本发明的一个示例性系统包括计算机110形式的通用计算设备。计算机110的组件可以包括,但不限于,处理单元120、系统存储器130和将包括系统存储器在内的各种系统组件耦合至处理单元120的系统总线121。系统总线121可以是若干类型的总线结构中的任一种,包括存储器总线或存储器控制器、外围总线和使用各种总线体系结构中的任一种的局部总线。作为示例,而非限制,这样的体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、扩展的ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线和外围部件互连(PCI)总线(也被称为Mezzanine总线)。
[0030] 计算机110通常包括各种计算机可读介质。计算机可读介质可以是能够被计算机110访问的任何可用介质,且包括易失性和非易失性介质、可移动和不可移动介质。作为示例,而非限制,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以任何方法或技术实现的用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括,但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁带盒、磁带、磁盘存储或其它磁性存储设备、或能用于存储所需信息且可以由计算机110访问的任何其它介质。通信介质通常具体化为诸如载波或其它传输机制的已调制数据信号中的计算机可读指令、数据结构、程序模块或其它数据,且包含任何信息传递介质。术语“已调制数据信号”指的是这样一种信号,其一个或多个特征以在信号中编码信息的方式被设定或更改。作为示例,而非限制,通信介质包括诸如有线网络或直接线连接的有线介质,以及诸如声学、RF、红外线和其它无线介质的无线介质。上述中任一个的组合也应包括在计算机可读介质的范围之内。
[0031] 系统存储器130包括易失性和/或非易失性存储器形式的计算机存储介质,诸如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS)包含有助于诸如启动时在计算机110中的元件之间传递信息的基本例程,它通常存储在ROM 131中。RAM 132通常包含处理单元120可以立即访问和/或目前正在操作的数据和/或程序模块。作为示例而非限制,图1示出了操作系统134、应用程序135、其它程序模块136和程序数据137。
[0032] 计算机110也可以包括其它可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例,图1示出了从不可移动、非易失性磁介质中读取或向其写入的硬盘驱动器141,从可移动、非易失性磁盘152中读取或向其写入的磁盘驱动器151,以及从诸如CD ROM或其它光学介质等可移动、非易失性光盘156中读取或向其写入的光盘驱动器155。可以在示例性操作环境下使用的其它可移动/不可移动、易失性/非易失性计算机存储介质包括,但不限于,盒式磁带、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等。硬盘驱动器141通常由诸如接口140的不可移动存储器接口连接至系统总线121,磁盘驱动器151和光盘驱动器155通常由诸如接口150的可移动存储器接口连接至系统总线121。
[0033] 以上描述和在图1中示出的驱动器及其相关联的计算机存储介质为计算机110提供了对计算机可读指令、数据结构、程序模块和其它数据的存储。例如,在图1中,硬盘驱动器141被示为存储操作系统144、应用程序145、其它程序模块146和程序数据147。注意,这些组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同或不同。操作系统144、应用程序145、其它程序模块146和程序数据147在这里被标注了不同的标号是为了说明至少它们是不同的副本。
[0034] 用户可以通过诸如键盘162、麦克163和定点设备161(诸如鼠标跟踪球或触摸垫)的输入设备向计算机110输入命令和信息。其它输入设备(未示出)可以包括操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等。这些和其它输入设备通常由耦合至系统总线的用户输入接口160连接至处理单元120,但也可以由其它接口或总线结构,诸如并行端口、游戏端口或通用串行总线(USB)连接。监视器191或其它类型的显示设备也经由接口,诸如视频接口190连接至系统总线121。除监视器以外,计算机也可以包括其它外围输出设备,诸如扬声器197和打印机196,它们可以通过输出外围接口190连接。
[0035] 计算机110可使用至一个或多个远程计算机,诸如远程计算机180的逻辑连接在网络化环境下操作。远程计算机180可以是个人计算机、手持式设备、服务器、路由器、网络PC、对等设备或其它常见的网络节点,且通常包括上文相对于计算机110描述的许多或所有元件。图1中所示逻辑连接包括局域网(LAN)171和广域网(WAN)173,但也可以包括其它网络。这样的连网环境在办公室、企业范围计算机网络、内联网和因特网中是常见的。
[0036] 当在LAN联网环境中使用时,计算机110通过网络接口或适配器170连接至LAN171。当在WAN联网环境中使用时,计算机110通常包括调制解调器172或用于通过诸如因特网等WAN 173建立通信的其它装置。调制解调器172可以是内置或外置的,它可以通过用户输入接口160或其它合适的机制连接至系统总线121。在网络化环境中,相对于计算机110描述的程序模块或其部分可以存储在远程存储器存储设备中。作为示例,而非限制,图1示出了远程应用程序185驻留在存储器设备181上。可以理解,所示的网络连接是示例性的,且可以使用在计算机之间建立通信链路的其它手段。
[0037] 背景搭配翻译模型
[0038] 根据贝叶斯的定理构造了搭配翻译模型。给定一个源语言(例如,中文)搭配或三元组ctri=(c1,rc,c2)及其候选的目标语言(例如,英文)的三元组翻译etri=(e1,re,e2)的集合,其最佳的英文依存三元组为êtri=(ê1,re,ê2)是最大化以下等式的一个,等式(1)为:
[0039]
[0040] 等式(1)
[0041]
[0042] 其中p(etri)被称为语言或目标语言模型,p(ctri|etri)被称为翻译或搭配翻译模型。注意到,为方便起见,搭配和三元组可被互换使用。实际上,通常使用搭配而不是全部都是依存三元组,以限制训练语料库的大小。
[0043] 目标语言模型p(etri)可以使用英语搭配或三元组数据库进行计算。可使用诸如内插进行的平滑来减少与如将在以下详细描述的数据稀疏相关联的问题。
[0044] 可如下计算给定英文搭配或三元组在语料库中出现的概率:
[0045] 等式(2)
[0046] 其中freq(e1,re,e2)表示三元组etri的频率,N表示训练语料库中所有英文三元组的总计数。对于英文三元组etri=(e1,re,e2),如果假定两个词e1和e2在给定关系re下是条件独立的(conditionally independent),则等式(2)可以如下重写:
[0047] p(etri)=p(re)p(e1|re)p(e2|re) 等式(3)
[0048] 其中:
[0049]
[0050]
[0051] 通配符*表示任何一个词语或关系。使用等式(2)和(3),内插语言模型如下:
[0052] 等式(4)
[0053] 其中0<α<1。平滑因子α可如下计算:
[0054] 等式(5)
[0055] 使用以下两个假定来估计等式1的翻译模型p(ctri|etri)。
[0056] 假定1:给定一个英文三元组etri,和相应的中文依存关系rc,其中c1和c2是条件独立的,翻译模型可以表示如下:
[0057] p(ctri|etri)=p(c1,rc,c2|etri) 等式(6)
[0058] =p(c1|rc,etri)p(c2|rc,etri)p(rc|etri)
[0059] 假定2:对于一个英文三元组etri,假定ci仅依存于ei(i∈{1,2}),且rc仅依存于re。等式(6)可以重写为如下:
[0060] p(ctri|etri)=p(c1|rc,etri)p(c2| rc,etri)p(re|etri) 等式(7)注意到,[0061] =p(c1|e1)p(c2|e2)p(rc|re)
[0062] p(c1|e1)和p(c2|e2)是三元组内的翻译概率;因此,它们不是不受限制的概率。以下,头(p(c1|e1))和依存词(p(c2|e2))之间的翻译可以被分别表示为phead(c|e)和pdep(c|e)。
[0063] 由于中文和英文在同一依存关系之间的对应性较强,为方便起见,假定对对应的re和rc,p(rc|re)=1,对其它情况,p(rc|re)=0。在其它实施例中,p(rc|re)的变化范围从0.8到1.0,p(rc|re)的变化范围对应地从0.2到0.0。
[0064] 可采用吕 雅娟和周明 在第42届计算 语言学协会 年会上发表 的“Collocationtranslation acquisition using monolingual corpora”中所述的期望最大化(EM)算法(第295-302页,2004年),迭代估计出概率值phead(c1|e1)和pdep(c2|e2)。在吕和周的论文中(2004),EM算法被表示为如下:
[0065]
[0066]
[0067]
[0068] 其中ETri表示英文三元组集合,CTri表示中文三元组集合。
[0069] 将翻译概率phead(c|e)和pdep(c|e)初设为如下的统一分布:
[0070] 等式(8)
[0071] 其中Γe表示英文字e的翻译集合。使用上述EM算法迭代估计出词语翻译概率。
[0072] 本发明的搭配翻译模型
[0073] 本发明的框架包括搭配翻译模型的对数线性建模。本发明的模型中包括的是吕和周(2004)中描述的搭配翻译模型的各个方面。然而,本发明的模型也采用来自正在翻译的搭配周围的上下文词语的上下文信息。此外,在可用或者需要的情况下,本发明的框架集成了基于双语语料库的特征和基于单语语料库的特征两者。
[0074] 给定一中文搭配ccol=(c1,rc,c2),其候选的英文翻译的集合为ecol=(e1,rc,e2),翻译概率可被估计为:
[0075]
[0076] 等式(9)
[0077] 其中,hm(col,ccol),m=1,...M是一组特征函数。注意到,本发明的翻译模型可使用搭配而不是仅仅依存三元组来构造。对于每一特征函数hm,存在模型参数λm,m=1,...,M。给定一组特征,参数λm可使用Franz Josef Osch和Hermann Ney在第40届计算语言协会上的“Discriminative training and maximum entropy models forstatistical machine translation”中描述的IIS或GIS算法”(第295-302页(2002))来估计。
[0078] 用于选择最可能的英文翻译的判定规则为:
[0079]
[0080] 等式(10)
[0081]
[0082] 在本发明的翻译模型中,考虑至少三种特征函数或评分:目标语言评分、内部搭配翻译评分以及与上下文词语翻译评分,下面将做具体描述。
[0083] 分配给目标语言评分的特征函数
[0084] 在本发明中,目标语言的特征函数被定义为:
[0085] h1(ecol,ccol)=logp(ecol) 等式(11)
[0086] 其中,上述p(ecol)通常被称为目标语言模型。可使用关于背景搭配翻译模型描述的目标或英语语料库来估计该目标语言模型。
[0087] 分配给内部搭配翻译评分的特征函数
[0088] 内部搭配翻译评分可以被表示为如下的词语翻译概率:
[0089] h2(ecol,ccol)=logp(e1|c1) 等式(12)
[0090] h3(ecol,ccol)=logp(e2|c2) 等式(13)
[0091] h4(ecol,ccol)=logp(c1|e1) 等式(14)
[0092] h5(ecol,ccol)=logp(c2|e2) 等式(15)
[0093] 注意到,在替换实施例中,可省略特征函数h4和h5。其逆向词语翻译概率p(ci|ei)i=1,2被称为机器翻译的源通道模型中的翻译模型。实验表明,直接概率p(ei|ci)i=1,2通常会在搭配翻译中产生更好的结果。在本发明中,直接概率p(ei|ci)被包括在搭配翻译模型中作为特征函数。
[0094] 根据吕和周所描述的方法(2004),可使用两个单语语料库来估计搭配词语翻译概率。假定在中英文之间存在三个主要依存关系的较强对应:动宾、名词形容词、动词-副词。然后使用结合双语翻译字典的EM算法来估计等式12至15中四个内部搭配翻译概率h2至h5。注意到,可以从吕和周(2004)中直接推导出h4和h5,而且可使用英语作为源语言,中文作为目标语言,并应用这里描述的EM算法类来似推导得出h2和h3。
[0095] 此外,本模型中的相关翻译评分可以视为如下表示的本模型的一个特征函数:
[0096] h6(ecol,ccol)=logp(re|rc) 等式(16)
[0097] 类似于吕和周(2004),假定对对应的re和rc,p(re|rc)=0.9,对其它情况,p(re|rc)=0.1。在其它实施例中,对对应的re和rc,p(re|rc)的变化范围从0.8到1.0,其它情况对应的变化范围从0.2到0.0。在又一些实施例中,也一并省略了特征函数h6。
[0098] 分配给上下文词语翻译评分的特征函数
[0099] 在本发明的搭配翻译模型中,搭配外的上下文词语对搭配翻译消除歧义性也是有用的。例如,在句子“我在电影院看了一场很有意思的电影”(I saw aninteresting film at the cinema),为翻译搭配“看(saw)~电影(film)”,上下文词语“电影院(cinema)”和“有意思的(interesting)”都有助于翻译。该上下文词语特征函数可以被表示为如下:
[0100] h7(ecol,ccol)=logpc1(e1|D1) 等式(17)
[0101] h8(ecol,ccol)=logpc2(e2|D2) 等式(18)
[0102] 其中,D1是c1的上下文词语集合,D2是c2的上下文词语集合。此处,认为c2是c1的上下文,c1是c2的上下文,即:
[0103] D1={c1-m′,...,c1-1′,c11′,...,c1m′}∪c2
[0104] D2={c2-m′,...,c2-1′,c21′,...,c2m′}∪c1
[0105] 其中是窗口1大小。
[0106] 简而言之,要被翻译的词语被表示为c(c=c1,or c=c2),e是c的候选翻译,D=(c′1,...,c′n)是c的上下文。采用朴素贝叶斯假定,它可被简化为如下:
[0107]
[0108] 等式(19)
[0109]
[0110] 用英文语料库可容易估计出p(e)的值。由于内部搭配翻译特征函数中已经考虑了先验概率pc(e)=p(e|c),因此此处仅需要考虑上下文词语翻译评分计算中的第二个组成部分,即:
[0111] 等式(20)
[0112] 等式(21)
[0113] 现在,问题在于如何估计翻译概率p(c′|e)。传统上,可使用双语语料库进行估计。在本发明中,提供了使用单语语料库估计该概率的方法。
[0114] 使用单语语料库估计上下文词语的翻译概率
[0115] 基本 的思 路是,假 定英 文中 的所 有实 例(e′,e)都 是根 据分 布独立生成,则将中文上下文c′映射到对应的英文上下文e′。这样,可以结合如下的EM算法从英文单语语料库中估计出翻译概率p(c′|e):
[0116] E-步骤:
[0117] M-步骤:
[0118]
[0119] 一开始,
[0120] 等式(22)其中
[0121]
[0122] C表示中文词语集合,E表示英文词语集合,Tc表示中文词语c的翻译集合。使用Em算法可有助于准确将上下文从一种语言变换成另一种语言。
[0123] 在某些实施例中,为避免零概率,p(c′|e)可以采用先验概率p(c′)进行平滑,使得:
[0124] p(c′|e)=αp′(c′|e)+(1-α)p(c′) 等式(23)
[0125] 其中,p′(c′|e)是由上述EM算法估计的概率,可对每一次实验,将参数α设定为0.8,但也可使用类似的值。
[0126] 将特征中导出的双语语料库集成到搭配翻译模型中
[0127] 对于特定的源和目标语言对(例如,中文和西班牙文),某些双语语料库是可用的。本发明的搭配翻译框架可以将这些有价值的双语源集成到同一搭配翻译模型中。
[0128] 由于可以使用双语语料库估计出本发明的搭配翻译模型中的所有翻译特征,所以相对容易地推导出对应的双语语料库。例如,双语翻译概率可被定义如下:
[0129] h9(ecol,ccol)=logpbi(e1|c1) 等式(24)
[0130] h10(ecol,ccol)=logpbi(e2|c2) 等式(25)
[0131] h11(ecol,ccol)=logpbi(c1|e1) 等式(26)
[0132] h12(ecol,ccol)=logpbi(c2|e2) 等式(27)
[0133] h13(ecol,ccol)=logpbi(e1|D1) 等式(28)
[0134] h14(ecol,ccol)=logpbi(e2|D2) 等式(29)
[0135] 可 使 用 诸 如 Brown等 人 在 Computational Linguistics上 发 表 的“The mathematics ofmachine translation:parameter estimation”(19(2),第 263-313 页(1993))中所述的IBM模型的现有方法,从双语语料库中估计出这些概率值或信息。
[0136] 通常,在双语源可用时使用双语源是有用的。双语语料库可以改进翻译概率估计,因此,改善搭配翻译的准确性。本发明的建模框架是有利的,至少因为它无缝地集成了单语和可用的双语源两者。
[0137] 注意到,在众多实施例中,由于对适当地构造适当的搭配翻译模型不是必需的,省略了此处所述的某些特征函数。例如,在一些实施例中,由于不必要而省略了特征函数h11和h12。在另一些实施例中,省略了h4和h5。在又一些实施例中,省略了基于依存关系的特征函数h6。最后,在其它实施例中,在搭配翻译模型的构造时省略了特征函数h4、h5、h6、h11和h12。
[0138] 图2是示出本发明中被具体化为单个方法200的至少三个一般方面的概观流程图。图3、4和4是示出用于执行各个方面的模块的框图。图6、7和8示出了一般对应于图3、4和5中所示的框图的方法。应该理解的是,此处描述的框图、流程图、方法是为理解的目的而示出的,且并被认为是限制。例如,为促进实现本发明各方面,可以组合,分离或省略各模块和步骤。
[0139] 现在参考图2,方法200中的步骤201包括以稍后将用于进一步进行自然语言处理尤其是文本和句子的翻译的信息来扩充词汇知识库。步骤201包括根据本发明构造一个搭配翻译模型的步骤202和利用本发明的搭配翻译模型提取和/或获得搭配翻译的步骤204。方法200进一步包括使用已构造的搭配翻译模型和已提取的搭配翻译以执行206处指示的所接收句子的句子翻译的步骤208。可以如步骤210所指示,迭代进行句子翻译。
[0140] 图3示出了一个包含词汇知识库构造模块300的系统的框图。词汇知识库构造模块300包括搭配翻译模型构造模块303,该模块根据本发明构造搭配翻译模型305。搭配翻译模型305扩充了词汇知识库301,该知识库将稍后用于执行如图4和图5中所示的搭配翻译提取和句子翻译。图6是示出根据本发明扩充词汇知识库301的流程图,并一般与图3对应。
[0141] 词汇知识库构造模块300可以是计算机110上执行,或者是在LAN 171或WAN 173连接的任何一台远程计算机上存储和执行的应用程序135。同样地,词汇知识库301可以驻留在计算机110上的任意一个本地存储装置中,如硬盘驱动器141、或光盘CD、或远程驻留在LAN 171或WAN 173存储器装置中。词汇知识库构造模块300包括搭配翻译模型构造模块303。
[0142] 在步骤602,通过搭配翻译模型构造模块303接收源即中文语言语料库302。源语言语料库302可包括使用任何一种自然语言的文本。然而,此处常常会使用中文作为说明性的源语言。在大多数实施例中,源语言语料库302包括未处理或已预处理的数据或文本,例如从报纸、书籍、出版物和期刊、web源、语音至文本引擎等等获取的文本。源语言语料库302可从上述数据任一输入装置以及上述任一数据存储装置接收。
[0143] 在步骤604,源语音搭配提取模块304使用解析器306将中文语料库302解析成依存三元组,以生成中文搭配或搭配数据库308。在众多实施例中,搭配提取模块304使用例如基于对数似然比(Log Likelihood Ratio,LLR)度量的评分系统来生成源语言即中文搭配308,该评分系统用于从依存三元组中提取搭配。这样的LLR评分在Ted Dunning在Computational Linguistics,10(1),第61-74页(1993)中发表的“Accurate methods for the statistics of surprise and coincidence”中描述。在其它实施例中,源语言搭配提取模块304生成更大的依存三元组集合。在其它实施例中,也可使用从依存三元组中提取搭配的其它方法,如基于共有词语信息(mutual word information,WMI)的方法。
[0144] 在步骤606,搭配翻译模型构造模块303从上述任一输入装置以及上述任一数据存储装置接收目标即英文语言语料库310。也注意到,对英文的使用仅仅是说明性的,也可以使用其它目标语言。
[0145] 在步骤608,目标语言搭配提取模块312使用解析器341将英文语料库310解析成依存三元组。与以上模块304一样,搭配提取模块312可使用从依存三元组中提取搭配的任一种方法来生成目标即英文搭配316。在其它实施例中,搭配提取模块312可在无需进一步过滤的情况下生成依存三元组。英文搭配或依存三元组316可被存储在数据库中以便进一步处理。
[0146] 在步骤610,参数估计模块320接收英文搭配316,然后使用任何已知的估计搭配语言模型的方法以目标即英文搭配概率训练器322来估计语言模型p(ecol)。目标搭配概率训练器322一般基于目标语言语料库310中的每一搭配的计数和搭配的总数来估计各种搭配的概率,这在以上更详细地描述了。在众多实施例中,训练器322仅估计所选类型的搭配。如上所述,在中英文语言对动宾、名词-形容词和动词-副词具有尤其高的对应性。为此,本发明的实施例可将训练的搭配类型限定为那些具有高度关系对应性的类型。概率值324用于估计上述特征函数h1。
[0147] 在步骤612,参数估计模块320接收中文搭配308、英文搭配316、以及双语字典(如汉英字典),并采用词语翻译概率训练器332估计词语翻译概率334。在大多数实施例中,词语翻译概率训练器332使用吕和周(2004)中描述的EM算法,来使用单语中文和英文语料库估计词语翻译概率模块。这样的概率值pmon(e|c)用于估计上述的特征函数h4和h5。
[0148] 在步骤614,原始源和目标语言被逆转,例如,英文被认为是源语言,而中文是目标语言。参数估计模块320接收到逆转的源和目标语言搭配,并借助于英汉字典来估计英文中文词语翻译概率模型。这样的概率值pmon(c|e)被用于估计上述的特征参数h2和h3。
[0149] 在步骤616,参数估计模块320接收到中文搭配308、英文语料库310,和双语字典336,并使用根据本发明如上所述的EM算法构造上下文翻译概率模型342。以EM算法估计概率值p(c′|e1)和p(c′|e2),它们并被用于估计上述特征函数h7和h8。
[0150] 在步骤618,估计347处指示的关系翻译评分即概率p(re|rc)。一般,可假定在中文和英文的同一依存关系之间存在较强的对应。因此,在大多数实施例中,假定如果re与re对应,则p(re|rc)=0.9,否则p(re|rc)=0.1。p(re|rc)的假定值可用于估计特征函数h6。但在其它实施例中,如果re与re对应,则p(re|rc)值变化范围为0.8到1.0,其它情况为0.2到0。
[0151] 在步骤620,搭配翻译模型构造模块303接收双语语料库350。双语语料库350一般是一个平行的或句子对齐的源和目标语言语料库。在步骤622,双语词语翻译概率训练器估计364处指示的的概率值p(re|rc)。注意到,目标和源语言可以逆转成模型概率值pbi(e|c)。pbi(c|e)和pbi(e|c)的值可用于估计上述特征函数h9到h12。
[0152] 在步骤624,双语上下文翻译概率训练器352估计pbi(e1|D1)和pbi(e2|D2)的值。这样的概率值可用于估计上述特征函数h13和h14。
[0153] 在估计了所有参数后,搭配翻译模型305可以用于在线搭配翻译。它也可以用于离线搭配翻译字典获取。现在参考图2、4和7,图4示出了一个系统,该系统执行提取搭配翻译以使用特定源和目标语言对的搭配翻译字典进一步扩充词汇知识库201的步骤204。图7一般与图4对应,示出了使用词汇搭配翻译模型305来提取和/或获取搭配翻译。
[0154] 在步骤702,搭配提取模块304接收源语言语料库。在步骤704,搭配提取模块304使用任何一种已知的从自然语言文本中提取搭配的方法来从源语言语料库302中提取源语言搭配308。在众多实施例中,搭配提取模块304包括对数似然比(LLR)评分器306。LLR评分器306对依存三元组ctri=(c1,rc,c2)进行评分,以标识308处指出的源语言搭配ccol=(c1,rc,c2)。在众多实施例中,对数似然比(LLR)评分器306如下计算LLR评分:
[0155] Logl=aloga+blogb+clogc+dlogd
[0156] -(a+b)log(a+b)-(a+c)log(a+c)
[0157] -(b+d)log(b+d)-(c+d)log(c+d)
[0158] +NlogN
[0159] 其中,N是所有中文三元组的总数,且
[0160] a=f(c1,rc,c2),
[0161] b=f(c1,rc,*)-f(c1,rc,c2),
[0162] c=f(*,rc,c2)-f(c1,rc,c2),
[0163] d=N-a-b-c.
[0164] 注意到,f指示特定三元组的计数或频率,*是指示任何中文词语的“通配符”。标识出频率和LLR值大于所选阈值的依存三元组,并将其作为源语言搭配308。
[0165] 如上所述,在多个实施例中,取决于正在处理的源和目标语言对,仅提取特定类型的搭配。例如,可为中英文语言对,提取动宾(VO),名词-形容词(AN),动词-副词(AV)搭配。在一个实施例中,也加入了主谓(SV)搭配。选择特定搭配类型时的一个重要考虑在于源语言和一个或多个目标语言之间的较强对应性。还注意到,LLR评分仅是用于确定搭配的一种方法,并不旨在是限定。还可以使用从依存三元组中标识搭配的任何一种已知方法(例如加权共有信息(WMI))。
[0166] 在步骤706,搭配翻译提取模块400接收搭配翻译模型305,后者包括上述的概率值Pmon(c′|e)、Pmon(e|c)、Pmon(c|e)、P(ecol)、Pbi(c′|e)、Pbi(e|c)、Pbi(c|e)和P(re|rc)。
[0167] 在步骤708,搭配翻译模块402将中文搭配308翻译成目标即英文搭配。首先403使用搭配翻译模型中的概率来计算特征函数。在大多数实施例中,特征函数与上述相关联的概率函数具有对数线性关系。然后,404使用搭配计算特征函数,使得中文搭配308中的各个中文搭配ccol被翻译成最可能的英文搭配êcol,如404及以下所指示:
[0168]
[0169] 在多个实施例,执行进一步过滤以确保仅提取高度可靠的搭配翻译。为此,搭配翻译提取模块400可包括上下文冗余过滤器406和/或双向翻译约束过滤器410。注意到,在不同的上下文中,一个搭配可能被译成不同的译文。例如,“看~电影”或“kan4dian1ying3”(拼音)可根据不同的上下文接收若干译文,例如,“see film”、“watch film”和“look film”。
[0170] 在步骤710,上下文冗余过滤器406对所提取的中英文搭配对进行过滤。在大多数实施例中,上下文冗余过滤器406计算最高频率译文计数与所有译文计数的比率。如果该比率满足所选阈值,则该搭配及其对应的译文将被作为如步骤408所指示的中文搭配翻译候选。
[0171] 在步骤712,双向翻译约束过滤器410对翻译候选408进行过滤,以生成可在搭配翻译字典中使用以便稍后处理的所提取的搭配翻译416。步骤712包括以英文中文搭配翻译模型提取如412所示的英文搭配翻译候选。这样的英文中文翻译模型可通过诸如步骤614(图6中所示)等先前步骤来构造,其中,中文被认为是目标语言,而英文被认为是源语言。提取这些出现在翻译候选集合408、414两者中的搭配翻译作为最终的搭配翻译416。
[0172] 图5是用于使用根据本发明构造的搭配翻译字典和搭配翻译模型来执行句子翻译的系统的框图。图8一般对应于图5,示出了使用本发明的搭配翻译字典和搭配翻译模型的句子翻译。
[0173] 在步骤802,句子翻译模块500通过关于图1所述的任何一个输入装置或存储装置接收源即中文句子。在步骤804,句子翻译模块500接收或访问搭配翻译字典416。在步骤805,句子翻译模块500接收或访问搭配翻译模型305。在步骤806,包括至少一个依存性解析器的解析器504将源语言句子502解析成经解析的中文句子506。
[0174] 在步骤808,搭配翻译模块500基于在中文和目标即英文之间具有高度对应性的搭配的类型来选择中文搭配。在某些实施例中,这样的搭配类型包括如步骤511所示的动宾,名词-形容词,动词-副词搭配。
[0175] 在步骤810,搭配翻译模块500用搭配翻译字典416将中文搭配511翻译成框513处所示的目标即英文搭配514。在步骤810,对于511中使用搭配翻译字典无法找到翻译的搭配,搭配翻译模块500使用搭配翻译模型305将这些中文搭配翻译成目标即英文搭配514。在步骤812,英文语法模块516接收英文搭配514,并基于适当的英文语法规则517来构造英文句子518。英文句子518然后可被返回到应用层,或被进一步处理,如步骤520所示。
[0176] 尽管参考特定的实施例描述了本发明,但本领域的技术人员应该认识到,可在形式和细节上作出改变,而不背离本发明的精神和范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈