人们在用外语写作时,通常会遇到通用词典未收录的实体单元(如: 术语、专有名词、词组和固定短语),对于这样的实体单元而言,往往是 虽经大量时间的查阅词典、资料检索,却仍然得不到一个准确的翻译结 果(例如:车牌号→License plate number,三国演义→The Romance of Three Kingdoms)。在
机器翻译系统中,常常缺乏对未知的专业术语和名 词的翻译知识,从而导致整个系统翻译
精度急剧下降。在跨语言信息检 索中,也是由于那些词典未收录的查询项没有相应的译文,从而成为阻 碍整个
信息检索系统性能提高的
瓶颈。
可见,获取某些重要的、词典中没有记载的实体单元(也称未登录 查询项、未登录项)的译文意义是重大的。在解决上述问题时,部分专 业人员会尝试用网络
搜索引擎,但是返回大量的无关页面和冗余信息, 使得用户很难发现他们所需要有用的译文相关知识。本发明的目标是利 用互联网上丰富的信息资源,通过词组单元(实体单元)本身的组成单 元在目标语言中语义预测来获取词典查不到且通用搜索引擎无法有效搜 索到的实体单元的译文。
获取双语翻译对或译文的方法总体可以归结为以下几类:1)从平行 语料中获取译文。该方法需要建立大规模的两种语言对齐的语料。为了 减少手工建立语料库的工作量,一些研究人员提出了从网上自动收集对 齐语料,然而网上的非结构化数据使得语料对齐起来比较困难;2)从非 平行语料中获取译文。该方法是根据在大规模统计语料中
源语言的上下 文和目标译文的上下文信息应该相同或者相近这个线索来获取译文。该 方法克服了平行语料数量不足的缺点,充分利用现有的语料资源,但是 获取译文的效果较前者差,而且,从已有的研究结果来看,该方法主要 集中于单个词的译文获取;3)根据与短语中各组成成分对应的译文组合 来获取译文。根据与短语中各组成成分对应的译文组合并进行评价从而 来获取译文,该方法比较适合应用在基本名词短语或一般的名词短语的 译文获取上,而通常的术语或固定短语,他们的译文很少是各组成成分 译文的简单组合;4)同源匹配和Transliteration(音译)方法获取译 文,该方法只局限于适合有着某种对应的内在联系的语言之间翻译,例 如从日语到汉语译文获取、以及韩文到英语译文获取;5)利用Anchor (
锚点)文本信息来获取译文。该方法利用联接到同一网页的许多不同 语言的锚点文本来提取译文,该方法比较适合有自己
网站的公司名译文 获取。6)从网上获取译文。人们在使用亚洲语言(例如:汉语,日语、 韩语等等)进行写作的时候,特别是在写作科技论文、专业文章时,如 果遇到了比较专业的术语通常都会标注上相应的英语译文,随着互联网 的发展以及可以
访问的
电子文档、科技论文、开放的数字图书馆的增多, 这方面的资料将会变得越来越丰富,所以,相比较前面的5种方法,通 过Web挖掘方法获取术语、词组和固定短语单元的译文是一种非常有效 的系统方案。Nagata在论文中(M.Nagata,T.Saito,and K.Suzuki, Using the Web as a Bilingual Dictionary,Proc.ACL 2001 Workshop Data-Driven Methods in Machine Translation,2001)提出使用Web 搜索引擎获得日语文档中的英语翻译,它是以日语为搜索项,在返回的 100个文档中搜索其英文翻译。然而,该系统没有对译文边界和出现的统 计噪声进行的挖掘处理,另外在搜索包含日语词的前100个网页中可能 不包含有效的英文信息,这些就限制该系统的进一步应用。
Cheng的论文(P.J.Cheng,et al.Translating unknown queries with web corpora for cross-language information retrieval.SIGIR 2004)也是利用Web资源获得未知的查询项的译文从而应用于英汉跨语 言信息检索中。然而,该系统中主要集中于发现英语查询项的中文翻译, 所以可以利用从中文网页中搜索英语的方式来避免如何获取有效网页的 问题。另外,该方法仅利用候选单元的
频率特征信息,而没有挖掘深层 次的特征。
Zhang的论文(Y.Zhang,P.Vines,RMIT Chinese-English CLIR at NTCIR-4,In Working Notes of the Fourth NTCIR Workshop Meeting) 提出通过搜索Web上的双语句对文本(是指在两种语言中,句子和句子 翻译一一对应的文本),获得未登录词的译文,从而提高跨语言信息检索 的性能。该方法以汉语为搜索项,在Google中提取前100个文档的
摘要, 利用共现统计出可能的译文。然而,前100个网页很难包含有效的网页。
根据上述分析,前面的相关研究都是利用通用搜索引擎返回来的前 100个网页摘要进行统计,没能解决如何获取具有双语注释的有效网页的 问题。另外,前面的研究基本上都是利用频率特征,没有对其他的特征 形式进行深入的研究处理。事实上,对于汉英(或日英,韩英)译文获 取,输入汉语(日语、韩文),搜索引擎返回来的前100个网页绝大多数 是与该词相关的汉语(日语、韩文)网页信息,很少包含有效的英文等 价物;而如果下载所有的网页进行分析是不切合实际的,这是因为输入 一个汉语专业术语,返回的网页将成千上万,如果将所有的网页都下载, 时间消耗太大而没办法实现;除了词频信息,还有其他信息特征如分布、 源词和目标候选的长度比例、距离、关键词、符号和边界信息对译文获 取具有非常重要的影响。因此,如果有一种方法能够获取这些有效的网 页并综合利用这些特征就显得尤为重要了。本发明提出了基于语义预测 的方法来进行有效的网页获取,同时利用多个特征融合的候选评价方法 来进行候选排序。
本发明的目的在于利用互联网上丰富的信息资源,基于语义预测获 取词典查不到且通用搜索引擎无法有效搜索到的实体单元的译文,并提 供有效的上下文信息以辅助用户阅读和写作外文。
根据本发明的一个方面,提供了一种基于语义预测的译文获取设备, 用于输入一种源语言(中文、日文、韩文)查询项,输出所述输入查询 项在另一种语言中按权值大小排列的
候选译文列表;包括:
单元分割装置,将输入所述的查询项尽可能地分割成有意义的单元 候选集;通过把待分割的查询项分别输送到正向最大匹配和逆向最大匹 配两个模
块中,利用单元项词典(在通用的词典中只保留由1-3字组成、 有意义的且具有形容词或名词性质的选项)进行单元分割,然后将这两 个模块的切分结果进行合并,形成分割后的候选单元集;
单元译文
知识库建立装置,该装置通过前后缀语义扩展的方法来扩 充所述候选单元在初始的通用词典中的单元译文候选,并利用Web搜索 的方法对扩充译文进行评价,如果是合适的译文,该单元候选译文将作 为单元译文知识库的一部分,否则,该扩充的单元候选译文无效,处理 完所有扩充的单元候选译文以后,最终形成单元译文知识库;
语义预测装置,该装置是将源语言(汉语、日语、韩文)中的查询 项利用语义预测的方法获得在目标语言中与该源语言查询项语义相关的 语义相关项;语义预测将单元分割装置得到的候选单元集,通过单元译 文知识库来预测该单元的可能译文,并将其和所述查询项组合进行搜索; 取其前20个网页,利用基于频率和距离相结合的方法计算其语义相关度, 得到前五个选项作为目标语言和源语言的语义相关项;
有效网页获取装置,将前述经过语义预测获得的目标语言中的语义 相关项,与所述查询项组合在一起,送到搜索引擎中,搜索引擎通过多 线程下载模块快速下载前200个网页,这些网页就是既包含源语言查询 项又包含目标语言等价物的有效网页;
多特征候选评价装置,该装置根据前述获取的有效网页,经过文档 和网页分析模块,得到影响查询项译文获取的特征信息库,包括频率和 分布、距离、长度比例和边界特征;同时通过候选译文统计模块挖掘得 到可能形态的候选,并利用词缀冗余信息处理方法来去除噪声,最后将 分析的多个特征以加权和的融合方式进行评价,得到查询项译文候选列 表。
根据本发明的另一个方面,提供了一种基于语义预测的译文获取方 法,输入一种源语言的查询项,输出该查询项在目标语言中的候选译文 列表,其特征是,包括以下步骤:单元分割步骤,将输入的所述查询项 尽可能地分割成有意义的候选单元集;单元译文知识库建立步骤,扩充 所述候选单元在原始通用词典中的单元候选译文,并对扩充的单元候选 译文进行评价形成单元译文知识库;语义预测步骤,利用基于所述单元 译文知识库的语义预测的方法获得目标语言中与源语言中的所述查询项 语义相关的语义相关项;有效网页获取步骤,将前述获得的目标语言中 的语义相关项与所述查询项组合,利用组合后的项,通过搜索引擎获得 有效的网页;候选评价步骤,根据前述获取的有效网页,对查询项候选 译文进行评价得到查询项候选译文列表。
优选地,所述单元分割步骤将输入的所述查询项通过正向最大匹配 和逆向最大匹配方法并辅以单元项词典尽可能地分割成有意义的候选单 元集。
优选地,所述单元译文知识库建立步骤进一步包括:前后缀语义扩 展步骤,通过前后缀语义扩展的方法来扩充所述候选单元在原始通用词 典中的单元候选译文;译文评价步骤,利用Web搜索引擎返回的数目来 评价扩充的单元候选译文的合理性并作为单元候选译文项的排序标准, 如果是合适的译文,则该单元候选译文将作为单元译文知识库的一部分, 否则,该单元候选译文无效,处理完所有扩充的单元候选译文后,最终 形成单元译文知识库。
优选地,所述的语义预测步骤进一步包括:组合查询形成步骤,将 单元译文知识库中的单元候选译文集和所述查询项组合在一起,形成组 合查询项进行搜索;收集文档步骤,收集检索的文档和网页结果,从中 选取最前面的多个网页,进行文本提取和分析;语义相关度计算步骤, 在前面已经分析的网页中,进行语义相关度计算,选取前五个选项作为 所述的语义相关项。
优选地,所述语义相关度计算步骤基于频率和距离进行语义相关度 计算。
优选地,所述的有效网页获取步骤将前述经过语义预测获得的目标 语言中的语义相关项与所述查询项组合在一起,送到搜索引擎中,搜索 引擎通过多线程下载模块快速下载前面的多个网页。
优选地,所述的候选评价步骤进一步包括:文档和网页转换步骤, 将下载的不同格式的电子文档和网页转换成文本信息;候选译文统计步 骤,以目标语言词为递增单元,结合停词和分隔标记的规则库,构建和 发现查询项候选译文的边界,统计候选译文的频率、分布特征;候选噪 声处理步骤,对统计过程中出现的噪声进行识别处理,利用统计频率比 值是否大于一定
阈值的方法来消除在所述查询项候选译文统计步骤的结 果中出现的词缀冗余信息;评价步骤,对前述的查询项候选译文进行评 价,得到查询项候选译文列表。
更优选地,所述评价步骤包括:特征提取步骤,提取影响查询项候 选译文的特征,以及融合评价步骤,根据所提取的影响查询项候选译文 的特征,以加权值的形式进行评价,得到查询项候选译文列表。
其中,所述源语言是中文、日文或韩文,所述目标语言是英文。
其中,基于频率和距离相结合的方法为利用下述公式计算语义相关 度:
其中
Δ(t)表示查询项到目标候选之间的平均距离,如果平均距离越大, 表明该候选项和查询项相关程度就越低,Di(s,t)表示查询项和目标之间 的字
节距离,f(t)表示目标候选t出现的频率。
优选地,所述影响查询项候选译文的特征是以下特征中的一种或更 多种:候选的频率以及其在不同网页中的分布;查询项和目标候选的长 度比例;查询项和目标候选距离;查询项和目标候选之间的关键词、符 号和边界信息。
优选地,所述融合评价步骤根据以下公式对各译文候选进行打分, 取分值Score(t)大的多个候选作为最后的候选译文列表,
其中
D(i,j)表示查询项i和候选单元j的字 节距离,pL(s,t) 是查询项s的长度和目标候选t的长度的长度比例关 系,δ(i,j)w是对查询项和目标候选之间有无关键词、符号和边界信息的判 断,如果两者存在预定义的关键词、关键符号和边界信息则δ(i,j)=1,否 则δ(i,j)=0,w是预定的权值。
本发明的有益效果在于,通过本发明可以利用互联网的信息而挖掘 出未登录词单元的翻译选项从而能够帮助用户正确地阅读/写作外文。该 设备可以直接应用于外语的辅助翻译、阅读、写作方面而作为计算机辅 助语言学习的一部分;该设备还可以用来构建双语词典工具,在建立双 语词典时,一方面它可以提供专业词典的翻译候选选项,另一方面,它 可对已有的词典中的多个译文选项进行评价;对于机器翻译系统,本发 明可提供一些未知的实体单元的翻译知识,从而提高整个系统的翻译精 度。对于跨语言信息检索,本发明可帮助发现那些没有相应的译文的未 登录查询项的译文,从而提高整个信息检索系统的性能。
附图说明
图1示出了基于语义预测的译文获取设备及其方法
流程图;
图2是单元分割方法流程图;
图3是单元译文知识库建立流程图;
图4提供了词典知识库扩展的例子;
图5是语义预测流程图;
图6是有效网页获取流程图;
图7是多特征候选评价装置及其方法的流程图;
图8是源词和目标候选之间的距离直方图。
下面结合附图说明本发明的具体实施方式。图1示出了依据本发明 一个
实施例的基于语义预测的译文获取设备,如图1所示,在一个实施 例中,该设备包括:
单元分割装置,将输入所述的短语单元(查询项)尽可能地分割成 有意义的候选单元集;
单元译文知识库建立装置,通过前后缀语义扩展的方法来扩充候选 单元原始通用词典中的单元候选译文(具体地,保留通用词典中由1-3 个字组成、有意义的名词或形容词选项,而对于多字词词条,如果它们 包含词典中已保留的选项,则将其译文加入到该选项的译文中作为它们 的前后缀语义扩展项),并利用Web搜索的方法对扩充的译文进行评价形 成单元译文知识库;
语义预测装置,该装置是将源语言(汉语、日语、韩文)中的原始 查询项利用语义预测的方法获得目标语言(英语)中的与该源语言语义 相关的项;
有效网页获取装置,将前述获得的目标语言中的语义相关项与原始 查询项相合并,通过搜索引擎获得既包含源语言查询项又包含目标语言 等价物的有效网页;
候选评价装置,根据前述获取的有效网页,对原始查询项候选译文 进行评价得到原始查询项候选译文列表。在图1所示的本实施例中,该 评价装置为多特征候选评价装置,该装置根据前述获取的有效网页,经 过文档和网页分析,候选译文统计,噪声处理得到多个特征,并利用所 得到的多个特征按照加权融合的方式进行评价,得到最后的查询项译文 候选列表;应该注意,可以使用本领域所公知的任何候选评价装置,而 不仅仅局限在本发明中描述的多特征候选评价装置。由于其他的评价装 置为本领域所公知,因而本文着重描述依据本发明的多特征候选评价装 置。
进一步,如图1所示,该设备还可包括:输入装置,用于输入一种 源语言(中文、日文、韩文)短语单元;输出装置,用于输出所述输入 短语单元在另一种语言中按权值大小排列的候选译文列表,及上下文信 息。
所述的输入装置可以是计算机,通过计算机的
键盘将所述的短语单 元输入。也可以通过网络(例如局域网及互联网)将短语单元输入,在 这种情况下,输入装置也可以为采用网络
接口的结构。另外,也可以从
扫描仪、存储装置(例如
硬盘驱动装置)等将短语单元输入。在这种情 况下,输入装置为可与所述扫描仪、存储装置等进行数据通信的结构〔例 如USB(Universal Serial Bus)等有线连接及blue tooth等的无线连 接〕。另外,也可以将存储介质〔例如各种闪存
存储器及
软盘(注册商标)、 CD(Compact Disk)、DVD(Digital Versatile Disc、Digital Video Disc)〕 所存储的短语单元输入。在该情况下,输入装置可以是从存储介质中读 出数据的装置(例如闪存存储器读出器及软盘驱动装置、CD驱动装置、 DVD驱动装置)。
另外,输入装置也可以为适合上述多种情况的结构。
可以通过网络将译文信息输出。在该情况下,输出装置为具有网络 接口的结构。另外,也可以将译文信息输出到个人计算机等其他的信息 处理装置及存储装置中。在该情况下,输出装置为可与所述个人计算机 等其他信息处理装置或存储装置等进行数据通信的结构。另外,也可以 将译文信息输出(写入)到存储介质内。在该情况下,输出装置为将数 据写入到这些存储装置或存储介质内的装置(例如闪存存储器记录器及 软盘驱动装置、CD-R驱动装置、DVD R驱动装置)。
例如,为了将译文信息输出到显示器等的显示装置中,以使用输出 装置所输出的数据,在此种情况下,输出装置例如也可以为作为和显示 器等的显示装置进行数据通信的接口的结构,也可以为与显示器等的显 示装置相连接、或将数据提交给内置的信息处理装置的接口的结构。
另外,输出装置也可以为适合上述的多种情况的结构。
图2是单元分割装置进行的单元分割的方法的流程图。该方法将待 分割的术语尽可能地分割成有意义的单元。首先将术语分别输送到正向 最大匹配和逆向最大匹配模块中,在这两个模块中,利用单元项词典(在 通用的词典中只保留由1-3个字组成的、有意义的且具有形容词或名词 性质的选项)对其进行分割,然后将这两个模块的切分结果进行合并, 形成分割后的候选单元集。
获取专业术语的各个成分相当于一个组成单元分割过程。由于大多 数专业术语本身就是一个未登录词组或者是由未登录词所组成,而通用 的分词程序在处理具有很多未登录词的情况下,效果不是非常理想。根 据对专有名词或术语的内部结构分析发现,通常后面的部分为表达该术 语的中心意思部分,而逆向最大匹配算法比较适合这种情况,能够发现 比较完整的语义单元。而在有些情况下,短语内部结构中前面的修饰部 分是从头开始由多字组成的单元,这样,正向最大匹配算法就能够更好 地发现这些组成单元。因此本发明提出了利用正向和逆向相结合的方式 进行单元分割处理,同时将所分割出的单元的长度限制在三个字以内。 分隔不超过三个字的目的是通过更小的分割粒度来进行更为准确的预 测。例如:对于由串“abcd”组成的专业术语,首先在正向最大匹配模 块中用正向最大匹配算法分析,得到的结果为“ab cd”,然后在逆向最 大匹配模块中对其利用逆向最大匹配算法分析得到的结果为“a bcd”。 组合两种分割结果,得到的分割候选单元集为“ab cd a bcd”。该分割 候选将作为目标语义预测装置的输入。正向最大匹配算法和逆向最大匹 配算法是本领域一般技术人员所公知的,在此不予赘述,但是这种组合 用法未被公开过。
图3单元译文知识库的建立流程。该流程通过前后缀语义扩展的方 法来扩充原始通用词典中的翻译候选,从而形成单元译文知识库。首先 有一个初始的汉英词典知识库,系统根据前后缀语义扩展模块,对每个 可能的词典选项候选进行扩展,然后利用Web检索模块返回的有效数目, 来对扩展的译文进行评价,如果是合适的译文,该候选将作为单元译文 知识库的一部分,否则,该扩展译文项无效。
由于系统处理的实体单元(查询项)是单个术语、固定短语或专有 名词,每个短语本身的长度比较短,再经过单元分割得到的各组成单元 通常是更短的缩写形式组成,因而如果使用通用的词典提供的译文来翻 译很难满足语义预测的需要。这里提出一种单元译文知识库建立方法来 解决这个问题。对于在通用的词典中所有词条,我们只保留由1-3个字 组成、有意义的名词或形容词选项,对于多字词词条,如果他们包含词 典中已保留的选项(一般为其前缀或后缀),则将其译文加入到该选项的 译文中作为它们前后缀语义扩展项,同时利用基于Web搜索返回的数目 来进行评价。例如:对于术语“流通股”,分解成“流通”和“股”两个 单元,而“股”在词典中通常只有两个含义:section,thigh,根据这 个意思很难做出准确的语义预测,但是我们可以通过包含该单元的更长 词如股票(stock)和股东(stockholder)的译文进行推演,他们相应 的译文stock和stockholder被增加到“股”的翻译知识库中。同样对 于术语“三国演义”,“演”在词典中通常只有两个含义:act,practice, 但是我们可以通过包含该单元更长词的译文进行推演,故表演 (performance)和演化(evolution)的译文也增加到“演”的知识库 里。图4给出两个前后缀语义扩展的例子。
通过上述语义扩展方式形成的译文,并不是每个都是有效的,有些 情况下,被扩展的译文不可能和该词在网页和文档中同时出现,它除了 占用资源也就没有任何意义,因此有必要去除。为了评价那些不合理的 译文推演,利用搜索引擎检索返回的结果数目来评价推演的合理性并作 为译文候选项排列顺序的评价标准。例如:为了评价“股”的扩展译文 项“Stock”的合理性,将其组合起来送到通用搜索引擎Google中进行 搜索,组合的搜索项为“股stock-股票”,该搜索项表示将搜索除了 在“股票”中出现的“股”外,股和Stock同时出现的次数,从网上返回 的同现次数316000。该数目也将作为候选项的排序标准。同时判断返回 的次数是否低于100,如果低于100,该项将不加入单元译文知识库中; 否则,根据数目的大小来排序单元译文知识库中的译文候选项,处理完 所有选项,得到的结果就为单元译文知识库。
图5是语义预测装置的语义预测方法流程图。该方法是将源语言(汉 语、日语、韩文)中的原始查询项利用语义预测的方法获得在目标语言 中与源语言语义相关的项。首先,组合查询形成模块通过单元分割装置 和单元译文知识库来预测得到候选单元的译文集合,并将其和原始查询 项组合在一起,形成混合查询项进行搜索,收集文档模块收集检索结果, 取其前20个网页,然后利用语义相关度计算模块,选取出目标语言中的 前五个选项,作为和源语言相关的语义预测项。
中文专业术语和专有名词通常由多个字或者词组成,虽然很难直接 从各个字或词获得它们的准确含义,但是可以从组成的字或词中推断其 部分或者相关的语义和词汇。例如:“三国演义”,它的各组成单元对应 的译文分别为:三(three),国(country,nation),演(act,practice), 义(meaning,justice),从这些译文中大体有一个“三个国家的事”的
印象;“车牌号”,它的各组成单元对应的译文为:车(vehicle,car),牌 (brand,plate,board),号(number,size,data),从这些译文中大体 有一个“车、号码”的印象。语义预测方法就是利用前述的单元译文知 识库预测的译文词义或者词汇项作为关键词的查询扩展,利用这些的查 询扩展检索出一批按相关程度排序的相关文档;然后自动在这些文档中 统计出与原始查询项非常相关的词汇来扩展查询,从而得到更为准确的 搜索结果。该方法解决了在搜索结果中前100个网页中很少发现带有英 文标识的问题。前面例子经过单元译文知识库扩展,组合后形成的搜索 项分别为:″三国演义″+(three|country|nation|act|practice |justice|meaning),“车牌号”+(vehicle|car|brand|plate |board|number|size|data)。该方法和信息检索中的伪相关反馈 技术的区别为:1)在伪相关反馈中,无论是单语检索伪相关反馈,还是 跨语言信息检索中的翻译前伪相关反馈(源语→源语)以及翻译后的伪 相关反馈(目标语→目标语),它们都是从与查询语言相同的词汇单元来 进行反馈,即反馈和查询语言相同。而本发明中输入是源语言(汉语), 反馈是目标语言(英语),实现源语→目标语的相关反馈,同时将其应用 到前人没有用到的专业术语译文挖据领域。2)伪相关反馈只是利用自 动收集的文档来反馈,而我们的语义预测中,在自动收集文档中增加了 自身组成单元在目标语言中的语义预测,使得反馈更具有针对性。
虽然在单元译文知识库中进行了预测性术语译文扩展,然而由于预 测性的语义与实际意思往往具有一定的差距,因此,这里使用一次反馈 过程(也就是下面说明的反馈部分),以便从网上获取更为准确的目标语 语义相关项。从经过预测性扩展的搜索结果中,收集前20个相关文档, 从中选取和源术语中相关的目标语言词汇单元。如何有效地选择这些单 元是一个问题。统计发现,某个单元的频率越大,它与原始查询项的共 现次数就越多,他们语义也更为相关。同样,如果某个单元和查询项距 离越远,它们的语义相关可能性就越小,距离越近,语义相关可能性就 越大。经过反复的实验研究,本发明提出了词频加平均距离的语义相关 度计算方法:
其中
f(t)表示目标候选t出现的频率,Δ(t)表示源词(原始查询项)到 目标候选之间的平均距离,如果平均距离越大,表明该候选项和其相关 程度就越低。这里增加1是为了避免平均距离为0出现除数溢出。Di(s,t) 表示源词和目标之间的字节距离,N表示统计中出现的总数。该方法对于 提取一些出现频率较低且相等的情况下具有很好的区分性能。在反馈后 得到的候选词中,利用该评价方法进行排序,选取前5个相关的候选项, 作为提炼后的扩展项,在前面的例子中,″三国演义″和“车牌号”目标 语言中的语义相关项分别为Kingdoms,Three,Romance,Chinese, Traditional;License,Plate,Number,trademark,vehicle。
图6是有效网页获取装置的进行有效网页获取的流程图。经过语义 预测获得的目标语言中语义相关项,该相关项和原始查询项组合在一起, 送到搜索引擎进行相关文档的搜索,系统通过多线程下载模块快速下载 网页,从而获得那些既包含中文又包含英语的双语有效网页。
为了发现汉语术语、专有名词、词组和固定短语的英文翻译,我们 必须寻找有效的网页,即收集那些既包含中文又包含英语的双语网页。 但是在通用的搜索引擎中,输入一个汉语专业术语,返回的网页将成千 上万,如果将所有的网页都下载,时间消耗太大,是不切实际的。如果 按照已有文献中提到只下载前100个网页摘要,实验发现对于大多数汉 语专业术语来说,前100个网页摘要很少有包含英文的网页出现,例如: 三国演义、车牌号、三好学生、百慕大三
角。因此,必须提出切实可行 的方法来获取这些有效的网页。本发明提出首先利用对每个术语各组成 单元的可能意思进行预测,并使用基于语义相关知识进行扩展,将扩展 后的搜索项进行搜索;然后在前20个搜索结果中使用频率和平均距离的 方法来提炼出语义更加相关的搜索项,提炼后的扩展项和原搜索项组合 在一起再进行搜索,从而得到有效的相关网页。例如:原始查询项″三国 演义″经过语义扩展组合,形成″三国演义″+(Kingdoms|Three| Romance|Chinese|Traditional),该搜索将获取这些既包括″三国演 义″,且包括Kingdoms,Three,Romance,Chinese,Traditional五个 单词中任一单词的网页。同样对于“车牌号”,搜索项为“车牌号” +(License|Plate|Number|Trademark|Vehicle)。
通过搜索引擎获取相关度顺序排列的网页搜索结果,利用多线程下 载模块,快速下载前200个网页,这些网页就是既包含源语言查询项又 包含英语等价物的有效网页,它们将提供给后面的多特征候选评价装置 分析。
图7示出了多特征候选评价装置及其译文评价方法的流程图。该装 置根据前述获取的有效网页,经过文档和网页分析模块(文档和网页转 换装置)转换成文本;并通过候选译文统计模块得到可能形态的候选, 并进行噪声处理,对原始查询项候选译文进行评价得到原始查询项译文 候选列表。优选地,提取影响译文获取的特征,并利用这些特征,对将 原始查询项候选译文进行加权融合评价,来得到原始查询项译文候选列 表。
文档和网页分析模块将下载的不同格式的电子文档和网页转换成文 本信息。进一步,在依据本发明的该实施例中,此时还通过一特征提取 装置提取影响候选译文的特征,其中包括:候选的频率以及其在不同网页 中的分布;源词和目标候选的长度比例;源词和目标候选距离;源词和 目标候选之间的关键词、符号和边界信息。这种提取的提取方法式比较 简单,在文本中进行统计即可。
候选译文统计是为了构建出术语译文的所有可能形态的候选单元并 快速有效地统计其频率、分布等特征信息。该方法以英语词为递增单位 并辅以停词和分隔标记的规则库,可以有效地获得查询项候选译文的正 确边界,特别适用于挖掘出以子集形式存在的译文。在获取的有效网页中, 经过网页分析模块转
化成有效的文本形式。在文本中直接
定位到关键词
位置,然后在关键词为中心的100个字节窗口中,以每个英语词作为开 始索引,分别以词递增的方式形成候选串。系统按照Hash索引和二分的 方法查找该候选串,如果发现该串,则累加其频率,否则,在搜索到的 位置添加该候选项。处理完一个电子文档和网页后,同时记录候选的分 布信息。在程序实现中,同时建立一些停词和分隔标记的规则库和相对 于关键词起始位置的启发式规则来提高统计速度。
候选译文噪声处理是消除在挖掘的结果中出现的词缀冗余信息。它 的特点是该词是更长词的前缀或者后缀,而且频率比更长的词高。例如: 1.三国演义:Three Kingdoms(30)Romance of the Three Kingdoms(22) The Romance of Three Kingdoms(7),例中的“Three Kingdoms”是后 缀型冗余信息,它应该被删除。2.蓝筹股Blue Chip(35),Blue Chip Economic Indicators(10),例2中的“Blue Chip”也符合前面后缀型 冗余信息的定义,但是它是正确的候选,应该将其保留。为了解决该问 题,提出利用统计频率比值是否大于一定阈值的方法来解决。
经过特征提取模块的处理,可以得到影响原始查询项候选译文的主 要特征:1)候选的频率以及其在不同网页中的分布。频率是反映候选的 最重要特征,也是整个决策的
基础。频率越大,该候选与源词同时出现 的次数就越多,也就更可能成为候选。分布特征主要反映候选词在不同 网页的分布信息,如果候选分布的越均匀,他的权重就应该越大,这和 我们直觉也是一致的。例如:“认股期权”的候选词“put option”和“short put”的频率都是5,在网页中分布为”1,1,1,1,1”,“2,2,1”, “put option”比“short option”分布更均匀,所以它更可能成为候 选。2)源词和目标候选的长度比例。源词和目标候选词之间的长度应该 满足一定的约束关系,只有候选的单词数目在一定的范围之内,才可能 成为候选。经过统计,二个或三个单词英语的专有名词占所有短语分布 的85.7%,比例最多。而汉语中,3-7字的专有名词最多,占整个分布的 85.4%。为了统计汉语字数和英语词数之间的分布关系,我们对5800个 术语词对进行统计,例如:当汉语的字数为W=3时,对应的英语词数为2 时的分布概率最大,P(E=2|W=3)=78%,几乎没有实例超出1-4这个范 围。因此我们能够充分利用这样的概率分布在译文选择时施加不同的权 重。3)源词和目标候选的距离。直观上,如果两个词距离越远,则它们 是一个翻译对的概率越小,如果距离越近,互为翻译对的概率就越大, 基于这一原理,可以充分利用距离信息来提高正确的候选的得分权值。 为了估计网上汉语术语和对应的英文译文之间的距离关系,我们在5800 ×200个汉英词对的网页上进行统计,结果如图8所示,其中负值表示英 语译文出现在汉语术语之前。候选单元和源词之间距离基本上分布在 -60-60字节距离范围以内,超出这个范围很少发生。候选单元在源词之 前出现的概率和在其之后出现的概率基本上相等。统计分布曲线近似可 以描述成高斯分布曲线,因此我们提出利用高斯曲线对其进行拟合。经 过拟合计算,拟合的变量u=1,sigma=2,因此,距离对评价函数的贡献 概率表示为:
D(i,j)表示源词i和候选单元j的 字节距离。4)源词和目标候选之间的关键词、符号和边界信息。源词与 候选词之间可能存在一些关键的词和大写的英文字母,它们可以为判断 提供帮助,例如:中文叫、中文译为、中文名称、中文名称为、中文称 为、或称为、又称为、英文叫、英文名为、英文称为、英文全称等等。 两个句对之间存在的标点符号也可以提供很强的约束能
力,比如,如果 出现“(”,“)”“[”等标点符号时,他们互为翻译词对的权重应该相应 的增加。正确地判断出这些情况一方面可使得统计结果更为全面,另一 方面是由于这些候选有更大可能成为正确的译文。边界信息是指候选单 元在网页中出现时有明显的分隔标记,如从汉语到英语、括号或符号边 界、独立出现的单元等。在采用本领域所公知的候选译文评价方法时, 可以不进行特征提取模块的特征提取。
融合评价模块和融合评价的方法。经过去除译文噪声的处理,对查 询项候选译文进行排序,以便让最可能的候选排在前面。根据前面提出 的4种主要特征按照一定的加权融合方式对每个候选进行打分。评价公 式定义如下:
该公式反映出这样的信息,Score(t)与pL(s,t),N,pD(i,j)成正比关系。如 果每个项的值越大,表明其对整体的贡献越大,其得分越高,该候选也 就更有可能成为译文。由于源词和目标候选的长度比例关系pL(s,t)(pL(s,t), 是通过大量数据统计(学习训练)得到的,例如前面的P(E=2|W=3)=78%) 反映的是源词(查询项)s和目标候选t之间整体对应的比例,因此它作 为宏观上的权值对Score(t)产生影响。它是通过获取的大量专业术语、 专业名词词典训练出的模型关系,每种比例关系对应一个概率权值。N反 映候选单元在不同网页中的分布,它表示包含候选单元的网页数目,N越 大,Score(t)也越大。而距离比例关系pD(i,j)定义为在第i个网页中第j 次出现的源词和目标词之间的距离贡献概率,主要体现在微观上,与每 个统计词对进行乘积。权值0.4和0.6是在频率和分布之间寻找一个平 衡点,0.4表示该候选所有数目的所占权值,0.6表示在每个网页中用距 离最近的数值来累加这部分所占的权值。δ(i,j)w是源词和目标候选之间的 关键词、符号和边界信息的贡献,如果两者存在预定义的关键词、关键 符号和边界信息δ(i,j)=1,将增加奖励w;否则δ(i,j)=0,对整个公式没有 影响,w的具体数值通过试验调整(训练)得到的。
经过候选译文评价,最终输出排序后的查询项候选列表,同时也给 出相应的上下文信息和原始网页。用户可以访问上下文和原始网页获取 更多的参考信息。
另外,应该认识到,在各个实施例中,可以通过专
门的
电路或线路 (例如,互连以执行专门功能的离散
逻辑门)、通过由一个或更多个处理 器执行的程序指令,或者通过两者的组合来执行该各个动作。因此,可 以通过多种不同的形式来实施该各个方面,并且所有这些形式都被认为 处于所描述内容的范围内。对于该各个方面中的每一个,任何这种形式 的实施例在此都可以指“被构造用来执行所述动作的逻辑”,或者另选地, 是指“执行或者能够执行所述动作的逻辑”。
进一步,根据本发明的实施例,本发明的目的还可以由计算机可读 介质实现,所述介质存储上述的程序。计算机可读介质可以是能够包含、 存储、传达、传播、或传送程序,以由指令执行系统、设备或装置使用 的或与指令执行系统、设备或装置相结合的任何装置。该计算机可读介 质例如可以是但不限于电子、磁、光、电磁、红外或
半导体系统、设备、 装置或者传播介质。该计算机可读介质的更具体的示例(非穷尽列举) 可以包括:具有一根或更多根
导线的电连接、便携式计算机磁盘、随机 存取存储器(RAM)、
只读存储器(ROM)、可擦除可编程只读存储器(EPROM 或闪存)、光纤,以及便携式光盘只读存储器(CDROM)。
本发明实施例的以上说明只用于例示和说明的目的。前述说明并不 旨在将本发明穷尽在或限制在所公开的精确形式。很明显,对于本领域 的技术人员来说,许多
修改和变型是显而易见的。所选择并描述的实施 例是为了最好地解释本发明的原理及其实际应用,从而使本领域其他技 术人员理解本发明的各种实施例及其各种变型例,以适合于特定的预期 使用。应该理解,本发明的范围由
权利要求和它们的等同物限定。