首页 / 专利库 / 人工智能 / 候选译文 / 翻译装置、翻译方法以及计算机可读介质

翻译装置、翻译方法以及计算机可读介质

阅读:771发布:2020-07-21

专利汇可以提供翻译装置、翻译方法以及计算机可读介质专利检索,专利查询,专利分析的服务。并且本 发明 涉及翻译装置、翻译方法以及计算机可读介质。提供了一种翻译装置,该翻译装置包括:双语例句词典,该双语例句词典存储了第一种语言的多个例句和作为所述多个例句的译文的第二种语言的多个例句;输入单元,该输入单元输入所述第一种语言的输入句;第一搜索单元,该第一搜索单元搜索所述输入句是否与所述第一种语言的所述多个例句中的任一例句匹配;第二搜索单元,该第二搜索单元在所述第一搜索单元没有找到匹配例句时,从所述第一种语言的所述多个例句中搜索与所述输入句相似的至少一个候选例句;以及输出单元,该输出单元输出作为所述第一搜索单元搜索到的例句的译文或者作为所述第二搜索单元搜索到的所述候选例句的译文的所述第二种语言的例句。,下面是翻译装置、翻译方法以及计算机可读介质专利的具体信息内容。

1、一种翻译装置,该翻译装置包括: 双语例句词典,该双语例句词典存储了第一种语言的多个例句和作为所述第一种语言的所述多个例句的译文的第二种语言的多个例句; 输入单元,该输入单元输入所述第一种语言的输入句; 第一搜索单元,该第一搜索单元搜索所述输入句是否与所述双语例句词典中的所述第一种语言的所述多个例句中的任一例句匹配; 第二搜索单元,该第二搜索单元在所述第一搜索单元没有找到匹配例句时,从所述双语例句词典中的所述第一种语言的所述多个例句中搜索与所述输入句相似的至少一个候选例句;以及 输出单元,该输出单元输出作为所述第一搜索单元搜索到的例句的译文的或者作为所述第二搜索单元搜索到的所述候选例句的译文的所述第二种语言的例句。
2、 根据权利要求1所述的翻译装置,其中,当从所述输入单元输入所述第二种语言的输入句时,所述第一搜索单 元搜索所述第二种语言的所述输入句是否与所述双语例句词典中的所述第 二种语言的所述多个例句中的任一例句匹配;当所述第一搜索单元没有找到匹配例句时,所述第二搜索单元从所述 双语例句词典中的所述第二种语言的所述多个例句中搜索与所述第二种语 言的所述输入句相似的至少一个候选例句;并且所述输出单元输出作为所述第一搜索单元搜索到的例句的译文的或 者作为所述第二搜索单元搜索到的所述候选例句的译文的所述第一种语言 的例句。
3、 根据权利要求1所述的翻译装置,其中,所述第一搜索单元生成 所述输入句的散列值,并且基于所生成的所述散列值来搜索与所述输入句 匹配的例句。
4、 根据权利要求1所述的翻译装置,其中,所述第二搜索单元生成 所述输入句的N-gram串,并且基于所生成的所述N-gmm串来搜索相似的 例句,其中,N为自然数。
5、 根据权利要求4所述的翻译装置,其中,当所生成的所述N-gram 串与预先提供的搜索无用N-gram匹配时,所述第二搜索单元从所生成的 所述N-gram串中去除匹配的所述无用N-gram。
6、 根据权利要求4所述的翻译装置,其中,所述第二搜索单元包括 N-gram索引部,该N-gram索引部以N-gmm字典树结构存储所述第一种 语言的所述多个例句和所述第二种语言的所述多个例句。
7、 根据权利要求6所述的翻译装置,其中, 所述第二搜索单元根据所述输入句生成Bi-gram字符串;并且 所述N-gram索引部以Bi-gram字典树结构存储所述例句。
8、 根据权利要求4所述的翻译装置,其中,所述第二搜索单元对每 个例句中包含的根据所述输入句生成的N-gram的数量进行计数,并且基 于所述计数的结果来确定所述输入句与所述例句之间的相似性,并基于所 述确定的结果来选择候选例句。
9、 一种利用双语例句词典的翻译方法,该双语例句词典存储了第一 种语言的多个例句和作为所述第一种语言的所述多个例句的译文的第二种 语言的多个例句,所述翻译方法包括以下步骤:输入步骤,该输入步骤输入所述第一种语言的输入句;第一搜索步骤,该第一搜索步骤搜索所述输入句是否与所述双语例句 词典中的所述第一种语言的所述多个例句中的任一个例句匹配;第二搜索步骤,该第二搜索步骤在所述第一搜索步骤没有找到匹配例 句时,从所述双语例句词典中的所述第一种语言的所述多个例句中搜索与 所述输入句相似的至少一个候选例句;以及输出步骤,该输出步骤输出作为所述第一搜索步骤搜索到的例句的译 文的或者作为所述第二搜索步骤搜索到的所述候选例句的译文的所述第二 种语言的例句。
10、 根据权利要求9所述的翻译方法,其中,当输入所述第二种语言的输入句时,所述第一搜索步骤搜索所述第二 种语言的所述输入句是否与所述双语例句词典中的所述第二种语言的所述多个例句中的任一例句匹配;当所述第一搜索步骤没有找到匹配例句时,所述第二搜索步骤从所述 双语例句词典中的所述第二种语言的所述多个例句中搜索与所述第二种语 言的所述输入句相似的至少一个候选例句;并且所述输出步骤输出作为所述第一搜索步骤搜索到的例句的译文或者 作为所述第二搜索步骤搜索到的所述候选例句的译文的所述第一种语言的 例句。
11、 一种计算机可读介质,该计算机可读介质存储使计算机执行使用 双语例句词典进行翻译的过程的程序,该双语例句词典存储第一种语言的 多个例句和作为所述第一种语言的所述多个例句的译文的第二种语言的多 个例句,所述过程包括以下步骤:输入步骤,该输入步骤输入所述第一种语言的输入句; 第一搜索步骤,该第一搜索步骤搜索所述输入句是否与所述双语例句词典中的所述第一种语言的所述多个例句中的任一例句匹配;第二搜索步骤,该第二搜索步骤在所述第一搜索步骤没有找到匹配例句时,从所述双语例句词典中的所述第一种语言的所述多个例句中搜索与所述输入句相似的至少一个候选例句;以及输出步骤,该输出步骤输出作为所述第一搜索步骤搜索到的例句的译文的或者作为所述第二搜索步骤搜索到的所述候选例句的译文的第二种语言的例句。
12、 根据权利要求11所述的存储有使计算机执行进行翻译的过程的 程序的计算机可读介质,其中,当从所述输入单元输入所述第二种语言的输入句时,所述第一搜索步 骤搜索所述第二种语言的所述输入句是否与所述双语例句词典中的所述第 二种语言的所述多个例句中的任一例句匹配;当所述第一搜索步骤没有找到匹配例句时,所述第二搜索步骤从所述 双语例句词典中的所述第二种语言的所述多个例句中搜索与所述第二种语 言的所述输入句相似的至少一个候选例句;并且所述输出步骤输出作为所述第一搜索步骤搜索到的例句的译文的或者是所述第二搜索步骤搜索到的所述候选例句的译文的所述第一种语言的 例句。

说明书全文

翻译装置、翻译方法以及计算机可读介质 技术领域本发明涉及利用双语例句词典的翻译装置、翻译方法以及翻译程序。 背景技术机器翻译是一种利用计算机来进行的从一种语言到另一种语言的转 换。全世界对机器翻译已经进行了半个世纪的研究与开发。可以将用于机 器翻译的方法大致分成三种:(1)基于分析的机器翻译方法,(2)基于示 例的机器翻译方法,以及(3)基于统计的机器翻译方法。基于分析的机器翻译方法是这样一种技术,即,该技术例如执行对第 一种语言的词素分析、句法和语义分析,接着,将分析的结果转换成第二 种语言,并且生成第二种语言的译句。这种用于分析自然语言的技术仍然 不够成熟,由此,基于分析的机器翻译方法的实际用途已经面临限制。另 外,因为缺乏学习能,所以其难于改进或改变翻译引擎。基于统计的机器翻译方法是这样一种技术,即,该技术利用语言模型 和统计模型来构建翻译模型。用于构建各模型所需的学习数据(语料库) 是有限的,由此,其难于进行实际应用。基于示例的机器翻译方法模仿了人类学习外语的机制。其通过参照己经学到的例句的译文来翻译新文档。这种方法首先由Nagao教授于19世 纪80年代提出。此后,已经进行了对这种方法的深入研究和开发。另选的是,存在用于辅助翻译工作的辅助翻译系统。辅助翻译软件与 机器翻译软件的不同之处在于,当句子不能被正确翻译时,辅助翻译软件 根据存储的双语例句词典向翻译者提供相似的例句和所述例句的译句或部 分翻译结果。JP 2005-107597A叙述了一种例句搜索装置,并且公开了一种利用示 例数据库搜索与输入句相似的例句(尤其是包括输入句在内的这种句子)

的技术。JP06-83864A叙述了一种自动翻译装置,并且公开了一种利用输 入句的词素之间的关系从例句数据库中选择最接近的例句的技术。JP 08-106474A公开了这样一种方法,即,该方法采用易于观看的方式对相似 的例句进行分组,以显示翻译输入句所需的相似的例句。图23例示了双语例句词典的概要。图23所示双语例句词典包括存储 器1,存储器1存储有由中文例句和与所述中文例句相对应的日文例句组 成的多个例句对。当用户输入中文的输入句2时,例句搜索部3搜索与输 入句2匹配的中文例句,并且输出与输入句2对应的日文译句4。利用现有技术的双语例句词典,搜索输入句与例句之间的匹配,由此, 除了获得与例句匹配的例句译文的信息以外,不能获得该译文句子的其它 信息。因此,即使存储有与输入句相似的例句,用户也不能使用该相似的 例句,这意味着未能有效地使用该双语例句词典。另外,当把利用OCR(光 学字符识别)系统扫描的文档数据用于输入句时,如果在扫描中存在任何 误识别,则与例句的匹配发生失配,从而尽管存储有匹配例句,但也不能 获得输入句的译文。作为用于搜索双语例句词典中的例句的方法,存在字符索引方法和单 词索引方法。前者针对存在于双语语料库中的每个字符创建字符索引。利 用这种方法,因要搜索的数据量变得非常庞大而难于进行实时翻译。后者 针对存在于双语语料库中的每个单词创建单词索引。这需要词素分析,以 从输入句中提取单词,由此,如果词素分析的结果不正确,则翻译将变得 困难起来。词素分析尤其不适于技术术语和成语。发明内容本发明的一个方面提供了一种翻译装置,该翻译装置包括:双语例句 词典,该双语例句词典存储了第一种语言的多个例句和作为所述第一种语 言的所述多个例句的译文的第二种语言的多个例句;输入单元,该输入单 元输入所述第一种语言的输入句;第一搜索单元,该第一搜索单元搜索所 述输入句是否与所述双语例句词典中的所述第一种语言的所述多个例句中 的任一例句匹配;第二搜索单元,该第二搜索单元在所述第一搜索单元没

有找到匹配例句时,从所述双语例句词典中的所述第一种语言的所述多个 例句中搜索与所述输入句相似的至少一个候选例句;以及输出单元,该输 出单元输出作为所述第一搜索单元搜索到的例句的译文的或者作为所述第 二搜索单元搜索到的所述候选例句的译文的所述第二种语言的例句。优选的是,当从所述输入单元输入所述第二种语言的输入句时,所述 第一搜索单元搜索所述第二种语言的所述输入句是否与所述双语例句词典中的所述第二种语言的所述多个例句中的任一例句匹配;当所述第一搜索单元没有找到匹配例句时,所述第二搜索单元从所述双语例句词典中的所述第二种语言的所述多个例句中搜索与所述第二种语言的所述输入句相似 的至少一个候选例句;并且所述输出单元输出作为所述第一搜索单元搜索到的例句的译文的或者作为所述第二搜索单元搜索到的所述候选例句的译 文的所述第一种语言的例句。即,所述翻译装置能够实现分别对第一种语 言和第二种语言的所述输入句的双向翻译。优选的是,所述第一搜索单元生成所述输入句的散列值,并且基于生 成的散列值来搜索与所述输入句匹配的例句。通过使用所述散列值进行搜 索,可以精确且快速地搜索所述匹配例句。优选的是,所述第二搜索单元生成所述输入句的N-gmm (N元文法, N为自然数)串,并且基于生成的N-gmm串来搜索相似的例句。通过利 用N-gram串,可以容易地实现对所述相似例句的搜索。优选的是,当所述生成的N-gram串与预先提供的搜索无用N-gmm 匹配时,所述第二搜索单元从所述生成的N-gram串中去除匹配的无用 N-gram。通过预先去除搜索无用N-gram串,可以快速地搜索所述相似的 例句。优选的是,所述第二搜索单元包括N-gram索引部,该N-gmm索引 部按N-gmm字典树(TRIE)结构存储所述第一种语言的所述多个例句和 所述第二种语言的所述多个例句。通过利用TRIE结构,可以快速地搜索 例句。更优选的是,所述第二搜索单元根据所述输入句生成Bi-gmm (两 个连续的字符,2-gmm)字符串;并且所述N-gram索引部按Bi-gram字 典树结构存储所述例句。与字符索引的方法相比,可以实现快速搜索。与

单词索引的方法相比,可以容易地进行搜索。优选的是,所述第二搜索单元按每例句来对根据所述输入句生成的N-gram的数量进行计数,并且基于所述计数的结果来确定所述输入句与所 述例句之间的相似性,从而基于所述确定的结果来选择候选例句。通过选 择所述候选例句并且通过能够输出其对应的译文,可以执行针对用户的辅 助翻译。本发明的一个方面提供了一种利用双语例句词典的翻译方法或存储 了利用双语例句词典的程序的介质,该双语例句词典存储了第一种语言的 多个例句和作为所述第一种语言的所述多个例句的译文的第二种语言的多个例句,所述翻译方法包括以下步骤:输入步骤,该输入步骤输入所述第 一种语言的输入句;第一搜索步骤,该第一搜索步骤搜索所述输入句是否 与所述双语例句词典中的所述第一种语言的所述多个例句中的任一例句匹 配;第二搜索步骤,该第二搜索步骤在所述第一搜索步骤没有找到匹配例 句时,从所述双语例句词典中的所述第一种语言的所述多个例句中搜索与 所述输入句相似的至少一个候选例句;以及输出步骤,该输出步骤输出作 为所述第一搜索步骤搜索到的例句的译文的或者作为所述第二搜索歩骤搜 索到的所述候选例句的译文的所述第二种语言的例句。根据本发明,针对不能找到与输入句匹配的例句的情况,提供了同一 语言的与输入例句相似的候选例句和该候选例句的对应译文。因此,双语 例句词典获得有效使用,并且可以执行针对用户的辅助翻译。而且,通过 实现分别对采用第一种语言和第二种语言的输入句的双向翻译,所述翻译 装置被简化设置并且防止了成本增加。另外,即使对输入句的单词的词素 分析不正确,也可以从存储的双语例句词典中正确地提取双语例句数据。 同样,即使从OCR获得的句子数据没有被正确识别,也可以正确地提取 存储的双语例句数据。附图说明将基于下列附图,对本发明的实施例进行详细说明,其中, 图1是例示了机器翻译系统的构成的框图

图2是示意性地例示了根据本发明一示例的翻译存储器装置的框图;图3例示了翻译存储器装置的第一种语言(第二种语言)的搜索词典 的构成;图4例示了翻译存储器装置的硬件构成;图5是根据一示例的翻译存储器装置的功能框图;图6例示了散列值计算部的示例;图7示出了双语例句词典与散列值索引部之间的关系; 图8是例示根据一示例搜索与输入句匹配的例句的操作的流程图; 图9例示了 N-gram索引的TRIE结构; 图10例示了 Bi-gram字典树结构; 图11是例示相似例句搜索部的操作的流程图; 图12例示了双语例句词典部的例句计数区; 图13是根据Bi-gram索引方法的翻译存储器的功能框图; 图14是例示Bi-gram生成部的操作的流程图; 图15例示了根据第二示例的Bi-gram索引部的构成; 图16例示了图15所示Bi-gram索引部的第一种语言Bi-gram第一字 符列表的细节;图17例示了图15所示Bi-gram索引部的第一种语言Bi-gram列表的细节;图18例示了图15所示Bi-gram索引部的第一种语言例句编号列表的细节;图19例示了根据第二示例的Bi-gram索引部的操作; 图20例示了根据第二示例的Bi-gram索引部的具体操作; 图21是例示了根据第二示例的相似例句搜索部的搜索操作的流程图; 图22例示了根据本发明一示例的由翻译存储器装置生成的具体翻译 示例;以及图23例示了现有技术的句子到句子例句词典的概要。 具体实施方式

图1例示了根据本发明一示例的机器翻译系统的总图。机器翻译系统 10被设计成用于执行从较简单翻译到较复杂翻译的翻译,以加快翻译的速 度。另外,机器翻译系统10具有对没有译出的部分进行自动收集并提供 准确的对应译文的学习功能。机器翻译系统10包括r翻译存储器装置14,其对从原始语言文本句 子输入部12输入的句子以句子为单位进行翻译;基于示例的翻译装置16, 其输入在翻译存储器装置14中未匹配的输入句(即,被指出为不恰当的输入句),并且对例如经词素分析的输入句的单词的示例句型进行翻译;单 词直译装置18,其输入在基于示例的翻译装置16中没有翻译出来的单词 作为不恰当的单词,并且翻译该单词;以及目标语言文本句子输出部20, 其基于由上述翻译装置恰当翻译的结果,生成并输出目标语言的文本句子。机器翻译系统10还包括:不恰当翻译句自动收集部22,其收集在基 于示例的翻译装置16中没有翻译出的句子并且生成针对收集的句子的恰 当译文;学习装置24,其执行对由不恰当译句自动收集部22生成的译文 的检查或修正;以及翻译词典26。翻译词典26包括:双语单词词典26a, 其存储第一种语言的单词和作为所述单词的译文的第二种语言的单词;双 语例句词典26b,其存储第一种语言的例句和作为所述例句的译文的第二 种语言的例句;以及基于示例句型(example sentence pattern)的句型词典 26c,其存储第一种语言的示例句型和作为所述示例句型的译文的第二种语 言的示例句型。可以将翻译词典26用于翻译存储器装置14、基于示例的 翻译装置16,以及单词直译装置18中。图1的机器翻译系统是示范构成, 并且例如可以包括基于其它模式的引擎的翻译引擎。在这个示例中,用于机器翻译系统10的翻译存储器装置14具有新特 征。图2例示了根据本发明一示例的翻译存储器装置的构成。翻译存储器 装置14包括第一种语言搜索词典14-1和第二种语言搜索词典14-2。当输 入第一种语言或第二种语言的输入句时,第一种语言和第二种语言搜索词 典14-1和14-2搜索与该输入句匹配的例句或候选例句,从而提取并输出其译文。图3是例示了第一种语言或第二种语言搜索词典的构成的框图。当输 入第一种语言的输入句时,散列索引搜索部30生成输入句的散列值,并 且从双语例句词典26b中搜索与第一种语言的输入句的散列值完全匹配的例句的散列值,并且提取例句的译文。对于散列索引搜索部30没有找到 与输入句完全匹配的例句的情况,N-gram索引搜索部32根据输入句生成 N-gram,并且利用生成的N-gram字符串从双语例句词典26b中搜索第一 种语言的相似候选例句,并且提取该候选例句的译文。如下所述,为了进一步提高速度并节省存储空间,在生成Bi-gram(2-gram)时,可以使用无用字符列表,以去除包含有在每个例句中都具 有高的出现概率的字符的N-gram。另外,利用无用Bi-gmm列表,可以去 除在每个例句中都具有高出现概率的Bi-gram。对于输入了第二种语言的 输入句的情况,可以与第一种语言的情况下的过程类似地执行这些过程。图4例示了翻译存储器装置的硬件构成。翻译存储器装置包括:输入 单元40、显示单元42、主存储单元44、外部存储单元46、中央处理单元(CPU) 48,以及连接这些单元的总线50。输入单元40可以包括可以提供用户接口或光学地读取打印在文本上的单词的光学读取器等。显示单元 42可以包括用于显示原始语言的文本句子或翻译结果的显示器等。主存储 单元44可以包括ROM或RAM,以存储用于控制翻译操作的程序或包含 操作结果等的数据。外部存储单元46可以包括诸如硬盘的大存储装置, 并且可以在其中存储双语例句词典26b。 CPU 48可以基于存储在主存储单 元44中的程序来控制翻译操作。图5是一示例的翻译存储器装置的功能框图。根据一示例的翻译存储 器装置包括:第一种语言输入部100,其输入第一种语言的输入句;散列 值计算部102,其接收来自第一种语言输入部IOO的输入句,并且计算该 输入句的散列值;N-gram生成部104,其从第一种语言输入部100接收输 入句,并且生成该输入句的N-gram字符串;无用N-gram列表106,其存 储第一种语言的无用N-gram;散列值索引部108,其存储第一种语言的多 个例句的散列值;N-gram索引部110,其按N-gram字典树结构存储第一 种语言的例句;例句匹配部112,其比较在散列值计算部102中计算的输 入句的散列值和存储在散列值索引部108中的例句的散列值,并且搜索与

输入句匹配的例句;相似例句搜索部114,其在例句匹配部112中进行的 匹配失败时,基于由N-gmm生成部104生成的输入句的N-gram字符串从 N-gmm索引部110中搜索相似的候选例句;双语例句词典116,其存储第 —种语言的例句和作为所述例句的译文的第二种语言的例句,并且提取作 为例句匹配部112中搜索到的例句或相似例句搜索部114中搜索到的候选 例句的译文的第二种语言的例句或候选例句;以及输出部118,其将双语 例句词典部116提取的例句输出至显示器、打印机等。翻译存储器装置包括:第二种语言输入部200;散列f直计算部202, 其计算第二种语言的输入句的散列值;N-gmm生成部204,其生成第二种 语言的输入句的N-gram字符串;无用N-gram列表206,其存储第二种语 言的无用N-gmm;散列值索引部208,其存储第二种语言的多个例句的散 列值;N-gram索引部210,其按N-gram字典树结构存储第二种语言的例 句;例句匹配部212,其搜索与第二种语言的输入句匹配的第二种语言的 例句;以及相似例句搜索部214,其在例句匹配部212中进行的匹配失败 时,基于第二种语言的输入句的N-gram字符串从N-gmm索引部210中搜 索第二种语言的相似的候选例句。对于第二种语言的输入句,执行与针对 第一种语言执行的搜索过程类似的搜索过程,并且输出作为输入句的译文 的第一种语言的例句。第一种语言输入部100或第二种语言输入部200从外部输入要翻译的 第一种语言或第二种语言的文档的句子。可以利用OCR或存储在介质中 的电子信息来输入输入句。第一种语言的例句散列值计算部102或第二种语言的例句散列值计算 部202计算输入句的散列值。如下所述执行对散列值的计算。如果输入句 是S并且包含在输入句中的字符是Ci (i=l、 2、…、n; n为自然数),则 可以将输入句表示为S=C1 C2…Cn,并且可以将输入句S的散列值表示 为Hash (S)。 Hash (S)的默认值为0,并且可以通过图6所示公式计算 Hash (S)。在图6中,"or"意指逐位"或"操作,"and"意指逐位"与" 操作,"A<< (m)"意指将A向左移位m位,而"mod"操作意指模操作。 L是Hash索引表的长度(例句对的数量)。11101101«4表示将11101101

向左移位4位从而变成11010000的例子。当然,除了上述方法以外,还可以通过其它方法来计算输入句的散列值。第一种语言的散列索引部108或第二种语言的散列索引部208中的每一个都存储有例句的散列值和双语例句词典的地址,该双语例句词典存储 有例句和该例句的译文。基于该地址,每一个例句匹配部112和212都搜 索例句的译文。图7示出了双语例句词典与散列索引部之间的关系。出于对与散列值对应的例句进行标识的目的,第一种语言的散列索引 部108包括多个记录,该多个记录存储了针对存储在双语例句词典中的第 —种语言的所有例句的散列值(Hash (C) =0到Hash (C) =L-1)和地址, 该地址是存储所述例句的地址。类似的是,第二种语言的散列索引部208 包括多个记录,该多个记录存储了针对第二种语言的所有例句的散列值 (Hash (J) =0到Hash (J) =L-1)和地址,该地址用于标识与散列值对 应的例句。双语例句词典部116存储多对第一种语言的例句和第二种语言的例 句,(SC1、 SJ1)、 (SC2、 SJ2)、…、(SCL、 SJL)。 SCi (i=l、 2、…、L) 表示第一种语言的例句(第二种语言的句子SJi的译文),而SJKi=l、2、…、 L)表示句子SCi (第一种语言的例句)的第二种语言的译文。针对所述多 对例句中的每一对,分别设置了对应的地址。通过下一个例句地址链接具 有同一散列值的多个例句。另外,针对所述多对例句中的每一对,分配了 针对N-gmm的数量的计数区250,该计数区在如下所述搜索相似例句时使 用。下面,参照图8的流程图,对搜索与输入句匹配的例句的操作进行说 明。下面说明对第一种语言的输入句的搜索。当从第一种语言输入部100 输入了第一种语言的输入句SC时(步骤SlOl),散列值计算部102根据 上述计算方法计算输入句SC的散列值Hash (SC)(步骤S102)。将计算 出的散列值Hash (SC)提供给例句匹配部112。例句匹配部112从索引部 108搜索与Hash (SC)匹配的记录,并读取该记录(步骤S103)。接着, 例句匹配部112获得一地址(该地址是在所述记录中存储的例句的标识信 息)(步骤S104),并且基于该地址读取存储在双语例句词典部116中的例

句对(步骤S105)。例句匹配部112将所述例句对中包括的第一种语言的例句Sd与输入 句SC相比较,并且确定例句SCi和输入句SC是否相同(步骤S106)。如 果例句SCi和输入句SC相同,则例句匹配部112从输出部118输出第二 种语言的例句SCj (其是例句SCi的译文)(步骤S107)。另一方面,如果 例句SCi和输入句SC不相同,则例句匹配部112确定第一种语言的下一 个例句的地址是否为空值(Null)(步骤S108)。如果该地址为空值,则表 明不存在与输入句的散列值(SC)匹配的例句,从而完成搜索。如果下一 个地址存在,则例句匹配部112获得下一个地址(步骤S109),并且读取 该下一个地址中的例句对(S105),接着重复与输入句的比较。对于输入第二种语言的输入句的情况,与第一种语言的输入句类似, 从散列索引部208读取与散列值匹配的记录,并且按该记录中存储的地址搜索第二种语言的例句,从而输出作为该例句的译文的第一种语言的例句。 当不存在具有与输入句的散列值匹配的散列值的例句时,相似例句搜索部114和214利用输入句的N-gmm字符串搜索相似的例句。下面,对 根据输入句生成N-gram字符串的N-gram生成部104和204进行说明。如 图9所示,N-gram索引部110和210以TRIE结构存储所有N-gram (其 包含在双语例句词典部的例句中)。在N-gmm字典树结构中, 一个结点存 储一个字符,从而通过存在于从叶端到根部的结点来指定N-gmm。 一个结 点包括:结点ID、字符信息(字符C)、标志、当标志为1时指向例句编 号列表记录的指针、父结点的结点ID,以及左侧同辈结点的结点ID。 TRIE 结构中的每一个结点的结点ID都按深度优先搜索的搜索顺序设置。字符 信息是一个字符,并且使用双字节字符集。然而,考虑到搜索速度,在搜 索TRIE结构的第一级处的各结点可以存储一个单词的第一字符的高位字 节,而在第二级处的各结点可以存储一个单词的第一字符的低位字节。根 部是第0级。最左侧子结点的结点ID是当前结点ID+1 ,并且从左到右按 字符信息值的升序来排列同辈结点。标志O指结点为内部结点,而标志l 指存在于从根部到结点的路径中的结点是N-gram。N-gram是由N个字符组成的字符串。如果输入句S=C1 C2…CnCn+1…Cm,则可以将其N-gram字符串表示如下:(C1C2…Cn)、 (C2 C3…Cn+1)、 (C3 C4…Cn+2)、…、(Ck Ck+1…Cn+k-l)。在根据 这个示例的TRIE结构中,结点ID的标志为1。这意味着例句编号列表与 结点ID的叶端关联。例句编号列表包括多个记录对,该多个记录对中的 每一对记录都是由对包含N-gram "字符i…字符j"的例句进行标识的 编号和指向包含该N-gmm "字符i…字符j"的下一个例句编号列表的 指针组成。换句话说,例句编号列表是一组对包含字符的例句进行标识的 信息的记录,所述字符根据从叶端到根部的结点来指定。例如,如图10所示,当N-gram索引部是Bi-gmm字典树结构时, 从叶端到根部的结点存储了Bi-gmm字符串(Cll、 C21)、 (Cll、 C22)、(C12、 C23)、…、(Clm、 C2c)、 (Clm、 C2t)。例句编号列表与Bi-gram 叶端中的每一个叶端关联。与(Cll、 C21)关联的例句编号列表包括记录 260、 262、…、270。记录260存储有对包含(Cll、 C21)的例句进行标 识的编号S010和指向记录262的指针P1。记录262存储有对包含(Cll、 C21)的下一个例句进行标识的编号S015和指向下一个记录的指针P2。 在最后的记录270中,存储有对最后的例句进行标识的标号S020和为空 值的指针。这样,通过例句编号列表指定了包含(Cll、 C21)的所有例句。 按类似的方式,针对其它Bi-gram分别提供例句编号列表。下面,参照图11的流程图,对相似例句搜索部的操作进行说明。假 定输入了第一种语言的输入句。从输入部100输入第一种语言的输入句SC (步骤S201)。如果不能根据散列值获得匹配的例句,则将输入句SC输 入至N-gram生成部104,接着,N-gram生成部104生成输入句SC的N-gram 串(C1C2C3、 C2C3C4、…、Ch…Cn; h个N-gram)(步骤S202)。在这 个步骤中,N-gram生成部104参照预先存储有无用N-gram的第一种语言 无用N-gram列表106,并且排除与该列表中存储的N-gram匹配的任何 N-gram。无用N-gram列表是利用统计方法和人工方法构建的。通过排除 无助于搜索相似例句的N-gmm,可以改进搜索相似例句的效率和处理速 度。将由N-gram生成部104生成的N-gmm字符串提供给相似例句搜索 部114。相似例句搜索部114执行针对所有例句ID的Num (ID) =0、 Sim (ID) =0的处理,作为初始化操作(步骤S203)。 Num (ID)表示例句包 含的N-gram的编号,而Sim (ID)表示例句的相似性。当输入句SC的N-gram的数量为h个时,相似例句搜索部114从i=l 到i=h搜索包含该N-gmm的例句。换句话说,相似例句搜索部114参照 N-gram索引部110,并且从N-gram字典树结构搜索N-gram (CiCi+1… Ck)(步骤S204)。如果在N-gram字典树结构中找到任何匹配N-gram (CiCi+1…Ck)(步骤S205),则相似例句搜索部114利用存储有字符 Ck的结点中的"指向例句编号列表记录的指针",从例句编号列表获得包 含(CiCi+1 ••• Ck)的所有例句ID (ID1、 ID2、…)(步骤S206)。通过 这个步骤,执行Num (ID1) =Num (ID1) +1、 Num (ID2) =Num (ID2) +1、…的处理,针对每一个例句,将匹配N-gram的数目加"1"。优选的 是,将添加后的Num (ID)的数目写入计数区250,该计数区对应于双语 例句词典中的各例句。当完成对匹配N-gram的数目的增加时,并且在N-gram字典树结构 中没有找到N-gram (CiCi+1 ••• Ck)时,相似例句搜索部114执行i=i+l 的处理(步骤S207),并且从N-gram字典树结构中搜索输入句SC的下一 个N-gram (步骤S204)。当通过上述类似步骤搜索到下一个N-gram时, 将对应例句的匹配N-gram的数目加"1"。重复这种处理i=h次,艮卩,与 根据输入句SC生成的N-gram的字符串数量一样多的次数。如图12所示,当完成对输入句的N-gram的搜索时,将N-gram的数 目保留在双语例句词典部中的例句的计数区250中。相似例句搜索部114 针对Num (IDj) >0的所有例句(其在计数区250中的N-gram的数目等 于或大于1),执行对Sim (IDj) =Num (IDj) /n的计算(步骤S208)。 n 的值确定了相似性Sim (IDj)的阈值。相似例句搜索部114针对Sim (IDj)〉阈值的所有例句,从双语例句 词典部116读取第IDj个例句对信息(SCj、 SJj)。根据该信息,输出部118 输出与输入句SC相似的候选例句和该候选例句的译文(SCj、 SJj)(步骤 S209)。

上述相似性Sim (IDj)的计算是一个示例,而不必限于这个示例。例 如,针对Num (IDj) >0的所有例句,可以执行对Sim (IDj) =2 X Num (IDj) / (NumBG (SCj) +NumBG (SJj))的计算。NumBG (SC)表示输入句 SC的N-gram的数目。尽管图11和图12示出了针对第一种语言的输入句来搜索相似例句的 示例,但是,类似的是,还可以针对第二种语言的输入句执行搜索处理。图13是根据一示例的利用Bi-gram索引方法构成的翻译存储器的框 图。图13所示构成除了增加第一种语言和第二种语言的无用字符列表120 和220以夕卜,基本上与图5所示构成类似。针对将N-gmm改变成Bi-gram 的框,在它们的标号之后添加了 "a"。当没有找到与第一种语言的输入句CS匹配的例句时,搜索与输入句 CS相似的例句。通过Bi-gram索引方法执行所述搜索。下面,参照图14, 对Bi-gram生成部104a的操作进行说明。在第一种语言输入部100中输入 第一种语言的输入句CS (步骤S301),接着,Bi-gram生成部104a根据输 入句CSK:i C2…Cn获得Bi-gram串C1C2、 C2C3、…、Cn-lCn (步骤 S302)。接着,Bi-gram生成部104a参照无用字符列表120,从Bi-gram串 C1C2、 C2C3、 •••、 Cn-lCn中去除包含该无用字符列表中的字符的任何 Bi-gram,从而获得Bi-gram字符串C1C2、 C2C3、…、ChCk (步骤S303)。 另夕卜,Bi-gram生成部104a参照无用Bi-gram列表106a,从Bi-gram字符 串C1C2、 C2C3、…、ChCk中去除在无用Bi-gram列表中包含的任何 Bi-gram (步骤S304),从而最终获得Bi-gram串C1C2、 C2C3、…、CuCv(步骤S305)。可以按与N-gmm的情况下类似的方式执行随后的处理, 并且输出与第一种语言的输入句相似的第一种语言的候选例句和该候选例 句的译文。针对根据第二种语言的输入句生成Bi-gram的情况,可以与第 一种语言的情况下的处理类似地执行处理。下面,对本发明的第二示例进行说明。尽管在上述示例中,利用 Bi-gram索引部110a的Bi-gram字典树结构来搜索Bi-gram,但是根据第 二示例的Bi-gram索引部在不利用TRIE结构的情况下,就可以搜索根据

输入句生成的Bi-gmm串。图15例示了针对第一种语言的Bi-gmm索引部的构成。Bi-gram索引 部300包括:第一种语言字符散列值计算部302、第一种语言Bi-gram第 一字符列表304、第一种语言Bi-gram列表306,以及第一种语言例句编号 列表308。尽管未示出,但是可以类似地构成针对第二种语言的Bi-gram 索引部。字符散列值计算部302是将第一种语言或第二种语言的所有字符码转 换成顺序码的函数。如图16所示,Bi-gram第一字符列表304包括Bi-gram 第一字符(即,第一字符O、 1、…、i)和指向Bi-gram列表的指针。如图 17所示,Bi-gram列表306包括:Bi-gram第二字符、指向包含Bi-gram"字 符i字符j"的例句的编号列表的指针、以及指向下一个Bi-gmm "字符i 字符h"的Bi-gram列表的指针。如图18所示,例句编号列表308包括包 含Bi-gram "字符i字符j"的例句的编号和包含下一个相同Bi-gmm的例句的编号列表记录的指针。图19例示了图18所示Bi-gram索引部的细节。例如,如果第一种语 言字符散列值计算部302计算的散列值与Bi-gram第一字符列表304中的 第一字符CO匹配,则第一字符CO的对应指针搜索Bi-gram列表306中的 记录310。记录310中存储的是:Bi-gram第二字符COl、对与Bi-gram字 符CO和C01相对应的例句进行标识的编号、以及指向下一个记录312的 指针。记录312中存储的是:Bi-gram第二字符C02、对与Bi-gram字符 CO和C02相对应的例句进行标识的编号,以及指向下一个记录的指针。 在例句编号列表308中的由记录310指向的记录320中,存储有例句编号 S010和指针,该例句编号S010对应于Bi-gram字符CO和C01 ,而该指针 指向包含Bi-gram字符CO和C01的下一个例句编号的记录。可以类似地 设置针对第二种语言的Bi-gram索引的构成。图20例示了搜索Bi-gmm索引的示例。例如,当通过散列值计算部 根据Bi-gram第一字符列表指定了 "测"时,"测"的指针指向Bi-gram列 表中的记录。在图20中,作为跟随"测"的第二字符,示出了 "定"、"算" 以及"地"。通过指向例句编号列表的指针访问包含这些Bi-gram("测定"、

"测算"、"测地")的例句。参照图21,对第二示例的相似例句搜索操作的操作流程进行说明。当 输入第一种语言的输入句,并且没有找到与该输入句匹配的例句时执行该操作。在输入部100中输入第一种语言的输入句SC (步骤S401)。 Bi-gmm 生成部104a生成输入句SC的Bi-gram串(C1C2、 C2C3、…、Cn-lCn)(步骤S402)。在这个步骤中,Bi-gram生成部104a参照无用Bi-gram列 表106a和无用字符列表120,并且从所述Bi-gram串中去除在这些列表中 包含的字符或字符串。当生成输入句SC的Bi-gram串时,相似例句搜索部114针对所有例 句ID,初始化Mim (ID)、 Sim (ID),并且重置成Num (ID) =0、 Sim(ID) =0 (步骤S403)。其还设置为i=l,以便执行与输入句SC中包含的 Bi-gmm串的数量一样多次数的例行搜索处理。接着,相似例句搜索部114使Bi-gram索引部110a的字符散列值计 算部302计算字符Ci的散列值Hash (CO (步骤S404)。接下来,相似例 句搜索部114参照第一种语言的Bi-gram第一字符列表304,并且读取指 向在第Hash (Ci)个记录中存储的Bi-gram列表306的指针信息BP (Ci)(步骤S405)。接着,相似例句搜索部114读取由指针信息BP (Ci)指示的记录信 息,并且搜索字符-Ci+l的记录(步骤S406)。相似例句搜索部114确定 字符二Ci+l的记录是否存在(步骤S407)。针对字符:Ci+l的记录存在的 情况,相似例句搜索部114参照在Bi-gram列表306中的字符="Ci+l" 的记录中存储的"指向例句的编号列表的指针",并且从第一种语言例句 编号列表308获得包含Bi-gram串CiCi+l的所有例句ID(ID1、 ID2、…), 并计算Num (ID1) =Num (ID1) +1、 Num (ID2) =Num (ID2) +1、… (步骤S408)。可以将该计算结果存储在相似例句搜索部114中,或者可 以将该计算值写入与双语例句词典部116的例句对应的区域中。当完成该计算时,对于字符-Ci+l的记录不存在的情况,执行i=i+l 的处理(步骤S409),接着,字符散列值计算部302继续计算并搜索下一 个Bi-gmm串的第一字符的散列值(步骤S404)。同样,对于根据输入句SC生成的所有Bi-gmm串中的每一个来说,搜索包含这些Bi-gram串的例 句,并且保存对所包含的Bi-gmm串的数目的计数结果。当完成对输入句SC的Bi-gram的搜索时,相似例句搜索部114针对 Num (IDj) >0 (其中Bi-gram的数目等于或大于1)的所有例句,执行Sim (IDj) =Num (IDj) /n的计算(步骤S410)。 n的值确定了相似性的阈值 Sim (IDj)。接着,相似例句搜索部114针对Sim (IDj) >阈值的所有例句, 从双语例句词典部116读取第IDj个例句对信息(SQ、 SJj)。根据该信息, 输出部118输出与输入句SC相似的候选例句和该候选例句的译文(SCj、 SJj)(步骤S411)。可以按照与对第一种语言的输入句的搜索操作类似的 步骤执行对第二种语言的输入句的搜索操作。用于计算相似性的方法不限于上述示例。例如,针对Num (IDj) >0 的所有例句,可以执行Sim(IDj)=2XNum(IDj)/(NumBG(SCj)+NumBG (SJj))的计算。NumBG (SC)表示输入句SC的N-gram的数目。图22例示了一具体翻译示例。SC1表示中文输入句,而SJl表示作 为该中文句的译文的日文例句。类似的是,SC2和SJ2、 SC3和SJ3分别 为例句对。Hash (SC1)、 Hash (SC2)、 Hash (SC3)分别为中文例句的 散列值,而Hash (SJ1)、 Hash (SJ2)、 Hash (SJ3)分别为日文例句的散 列值。当在图5所示翻译存储器装置中输入中文例句SC1时,散列值计算部 102计算出散列值5878。例句匹配部112参照散列索引部108,并且搜索 与散列值5878匹配的记录。对于匹配记录存在的情况,例句匹配部112 参照该记录中存储的指针(地址),并且参照在双语例句词典部116中的中 文例句,并输出与该中文句的译文对应的日文例句SJ1。当输入其它中文 例句SC2、 SC3时,执行类似的处理。另一方面,当输入日文例句SJ1时,散列值计算部202计算出散列值 5914。例句匹配部212参照散列索引部208,并且搜索与散列值5914匹配 的记录。对于匹配记录存在的情况,例句匹配部212参照该记录中存储的 指针(地址),并且参照在双语例句词典部116中的日文例句,并输出作为 该日文句的译文的中文例句SC1。当输入其它日文例句SJ2、 SJ3时,执行

类似的处理。

尽管已经对本发明的示范实施例进行了详细说明,但应当理解,实施 例仅是出于例示性的目的,并且在不脱离所附权利要求限定的发明范围的 情况下,可以对本发明进行各种修改或改变。

可以将根据本发明 一方面的翻译装置用于翻译存储器或翻译系统。尤 其是,可以用于利用具有双语例句词典的翻译存储器的辅助翻译系统。

高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈