首页 / 专利库 / 人工智能 / 词性标注 / 汉语外语句型转换双向机器翻译方法

汉语外语句型转换双向机器翻译方法

阅读:1011发布:2021-09-10

专利汇可以提供汉语外语句型转换双向机器翻译方法专利检索,专利查询,专利分析的服务。并且本 发明 是一种以词为单位采用汉语语音码的基于句型转换的汉语与外语的双向 机器翻译 的方法,属于机器翻译技术领域。通过这种方法可以方便地将汉语与另外一种语言比如英语互译,一方面翻译时由于汉语信息的表达采用仅用26个拉丁字母为码元的包含汉语声、韵、调在内的按词连写的汉语语音码,就克服了目前所有汉语与外语翻译只能通过汉字和汉语拼音进行,且汉字和汉语拼音与ASCII码不能100%兼容,以及汉字所表达的汉语信息每次翻译前必须先要进行分词的弊端,另一方面由于采用与所翻译的目标语基本相一致的词法和句法系统 基础 上的句型转换的方法,使得本机器翻译方法比传统的机器翻译方法更准确,效果更好。对输入时是汉字或汉语拼音或汉语语音表达的汉语,既可以按传统的方法进行翻译,也可以先转换成汉语语音码后再进行翻译,同理需要时翻译后得到的汉语语音码既可以直接表达汉语信息,还可以方便地转换成汉字和汉语拼音及汉语语音或汉语特定人或汉语方言以及少数民族语言语音,本发明还能进一步扩展为一种外语与另一种外语之间的双向机器翻译方法,能广泛应用于机器翻译等汉语信息处理领域,给各种计算机和 嵌入式系统 的汉语和外语以及一种外语与另一种外语的双向机器翻译提供了极大的便利。,下面是汉语外语句型转换双向机器翻译方法专利的具体信息内容。

1.一种可以采用汉字、汉语拼音以及汉语语音,也可以采用汉语语音码,在建立源语言目标语言基本相一致的词法句法基础上,通过汉语与外语双向句型转换,实现包括可以应用在各种计算机和嵌入式系统在内的汉语与外语的双向机器翻译的方法。
2. 如权利要求书l所述的翻译方法,其特征在于:所使用的汉语语音码以词为单位,采 用按词连写的方式,用且仅用26个拉丁字母来表达汉语信息,组成词的每一音节具有声、韵、 调信息,采用"声码+介码+韵码+调码兼隔音节符号"的顺序进行编码排列。
3. 如权利要求书1所述的翻译方法,其特征在于:首先运用人工的方法建立同一种语言 句子的词性串与句型的对应关系,然后再在建立汉语与需要翻译的外语基本相一致的词法系 统和句法系统基础上,建立所需要翻译的两种语言间的句型对照关系。
4. 如权利要求书l所述的翻译方法,其特征在于:翻译时机器先扫描源语言的句子,通 过查源语言标注词性的词典得到源语言的句子的词性串,通过查源语言词性串与源语言句型 的对应关系表,将源语言的句子的词性串转换成对应的源语言句型,再通过查源语言句型与 目标语言句型对照表,将源语言句型转换成匹配的目标语言句型,最后通过查源语言与目标 语官对照词典的方法,将源语言中的单词或词组翻译成目标语言的单词或词组,并按目标语 言句型的顺序以词为单位排列输出,便得到我们所需要的目标语言语句。
5. 如权利要求书1所述的翻译方法,其特征在于:对源语言中的复句先进行语法分析将 复句中的所有从句提取出来,通过层层提取直到最后将从句提成单句为止,再按上述翻译单 句的方式进行机器翻译,复句部分则通过查源语言和目标语言句型对照表完成复句句型转换, 并完成除从句的复句其它成分的翻译,最后将翻译好的从句放入转换后相应复句句型中的相 应位置,如此循环往复一直到得到我们所需要的整个目标语言句子为止。
6. 如权利要求书l或2所述的翻译方法,其特征在于:当源语言是用汉字或汉语拼音或 汉语语音表达的汉语时,既可以按传统的方法无需转换直接进行翻译,也可以通过标准转换 模先将汉字或汉语拼音或汉语语音转换成汉语语音码再进行翻译,外语翻汉语时,翻译得 到的用汉语语音码表示的目标语言既可以直接用于表达汉语信息,必要时也可以通过标准转换模块转换成汉字或汉语拼音或汉语语音或汉语特定人或汉语方言以及少数民族语言语音输 出。
7. 如权利要求书1或2所述的翻译方法,其特征在于:在汉语信息表示处于汉字或汉语 拼音状态时,其标点符号的用法同传统的中文标点符号相同,汉语信息表示处于汉语语音码 状态时其标点符号的用法同英文。
8. 如权利要求书4或6所述的翻译方法,其特征在于:在上述转换中同种语言句子的词 性串与句型之间、源语言句型与目标语言句型之间,源语言单词与目标语言单词之间、语音 码和汉字之间以及拼音和汉字之间,当出现不是一一对应的情况时,可以依据源语言或目标 语言词法句法上下文联系及统计规律等手段先进行判别后再进行翻译或转换。
9. 如权利要求书1或4所述的翻译方法,对子源语言中的文言文、诗词、成语、典故、 俚语、缩略语等不便进行语法分析的内容,不进行词性查询和句型转换,在词性查询和句型 转换前直接通过查找预先储存在机器中的一一对应的实例库匹配后输出。
10. 如权利要求书1或-3所述的翻译方法,其特征在于:当将该翻译方法用到的与汉语 对应的各个要素如汉语标注词性的词典、汉语人工建立的词性串与汉语句型对照表以及汉语 与目标外语句型转换对照表换成另外一种外语翻译时相应用到的上述各个要素时,上述翻译 方法还可以扩展成一种外语翻译成另外一种外语的机器翻译方法。

说明书全文

汉语外语句型转换灰向机器翻译方法一. 所属技术领域一种汉语与外语的双向机器翻译的方法,该方法采用两项关键技术, 一是采用与ASCII 码,100%兼容的用且仅用26个拉丁字母以词为单位的汉语语音码,二是建立汉语与所要翻译 的外语基本相一致的词法系统句法系统,并在此基础上建立两种语言对应句型关系,翻译时 通过将两种语言对应句型实行双向转换的方式来实现双向机器翻译,当将该翻译方法用到的 与汉语对应的各个要素如汉语标注词性的词典、汉语人工建立的词性串与汉语句型对照表以 及汉语与目标外语句型转换对照表换成另外一种外语翻译时相应用到的上述各个要素时,上 述翻译方法还可以扩展成一种外语翻译成另外一种外语的方法。本发明属于机器翻译技术领 域。二. 背景技术在世界范围内电子机器翻译走过的历程大致可分为以下四个阶段:1、设想和初探阶段 (1946-1954年),1946年,美国的韦弗(Weaver, Warren)和美国人布思(Booth, A.D.)首次提出将电脑用于机译系统。1947年,布思与布里顿提出用数字计算机查阅储存在电脑记 忆里的词典。同年,他们编制出自动查阅字典程序。1950年,美国人E凯弗拉提出在机译中 由人工进行译前编辑和译后审校的方案。1954年,美国乔治敦大学与IBM公司联合试验 使用电脑的机译系统,这标志着机器翻译进入新的发展阶段。2、迅速发展阶段(1954-1966 年),美国先后出现许多研究小组,英、法、德、意等政府积极为研究项目提供资助,苏联和 东欧一些国家的研究工作也很活跃。3、低潮阶段(1966-1976年),'互相竟争和封导致 研究内容重复,耗费大量可以节省的时间和金钱, 一些研究人员又遭到困难和挫折,在美国, 最初人们认为机器可以完全代替人译的幻想普遍破灭,研究经费随之大幅度收缩,西欧也是 如此,美国语言处理自动化咨询委员会于1966年发表了一份调查报告,她的出笼标志着机译 研究低潮阶段的开始。4、复苏阶段(1976-现在),直到1976年3月,在弗吉尼亚的拉什陵 举行了一次机译研讨会,美国的机译研究才开始复苏。中国是世界上第五个进行机器翻译实验的国象,从一开始就得到了国家的高度重视。早 在1956年它便以"机器翻译"/ "自然语言的数学理论"列入了当时的《科学发展纲要》,以 后则列为"六五"、"七五",以及"863"等重大科研项目,中国的机器翻译研究也有过10 年的停滞,70年代中期,我国机器翻译研究从停滞走向了复苏。80年代中期90年代初期是 我国的机器翻译研究自复苏以来第二个重要时期,在这一时期里,产生过两个在中国机译史 上具有重要意义的实用系统,它们分别是军事科学院研制的"KY-1"英汉机译系统,它获得 了国家科技进步二等奖,后来被开发为"译星",成为中国第一个商品化系统,另一个是中科 院计算所研制的"863-IMT"英汉机译系统,它获得了国家科技进步一等奖,它的技术带来 了十分可观的效益。卯年代初期至今,中国的机器翻译走入了快速发展的时期,出现了许多 商品化系统,到目前为止已经有一些具有相当实用价值的计算机翻译系统被推向巿场,比较 典型的有:中软公司的翻译软件《译星》和北京交大铭泰出品的《东方快车》以及中科院华 建公司推出的汉语外语翻译系统,可以说所有这些翻译系统都为人类实现用机器代替人来进 行翻译的构想作出了极其重要和宝贵的贡献。

在目前包括以上这些系统在内的所有汉语与外语单向或双向翻译系统中,主要还存在两个有待于进一步完善的地方:第一在汉语翻译成外语时,它们只能用汉字或汉语拼音所表示的汉语与外语进行单向或 双向翻译。众所周知方表意汉字的计算机机内码不在128个ASCII码的码符集内,而且用 汉字表达的汉语信息在机器处理前和处理后都是不分词的,机器在每次翻译前都先要进行分 词处理;而汉语拼音还存在几个不便于机器信息处理的弊病,比如:l.拼式太长,2.五个声调 (含一个轻声)没有字母化且不在ASCII码的范围内,3.汉语单词音f的声、韵、调没有便 于机器信息处理的从左到右的一维线性排列,而是上下排列,4.如果没有非字母化的汉语拼 音隔音节符号的隔音节帮助,汉语拼音在以词为单位连写时,音节和音节之间往往容易发生 混淆,产生混音现象。以上所有这些都不便于机器对汉语信息的处理,给机器翻译和汉语信息处理带来较大的困难。第二随着句子的复杂程度的增加,机器翻译句子的准确性和可懂度会有较大的下降,特别是在汉文翻成以英文为代表的外文时,这 一 问题尤为突出。造成以上两种情况的原因是多方面的,但最主要的是两条: 一是没有能够发明并采用用 且仅用26个拉丁字母,就能够对包含汉语的22个声母(含一个零声母),38个韵母,5个声 调(含一个轻声)进行汉语全息编码的与ASCII码100%兼容的分词连写的汉语语音码;二 由于汉语语法理论的不成熟不完备,因此没有能建立一套与所要翻译的目标语言比如英语相 一致或基本相一致的汉语词法和句法系统,以及在此基础上建立起来的源语言句型比如汉语 句型和目标语言句型比如英语句型转换对照关系,并通过实行对应句型的双向转换,实现源 语言比如汉语和目标语言比如英语之间可色互换的双向机器翻译。 三.发明内容本发明的目的是提供一种采用用且仅用26个拉丁字母以词为单位分词连写的汉语语音 码,并通过建立在汉语和所要互为转换的外语基本相一致的词法系统句法系统基础上的句型 转换来实现汉语与外语的双向机器翻译的方法来解决以上存在的弊端。具体来说本发明方法所采用的汉语语音码,它用且仅用26个拉丁字母作为码元,以词为 单位采用按词连写的方式对组成词的每一音节的声、韵、调先进行编码转换,再依照"声码+ 介码+韵码+调码兼隔音节符号"的顺序进行编码排列,由于26个拉丁字母属于128个ASCII 码码符集范围内,因此一旦传统用于表示汉语信息的汉字或汉语拼音或汉语语音转换成该种 汉语语音码后,世界上一切用于处理西码的所有软硬件资源都可以不加改造地用于处理汉语 语音码所表达的汉语信息。而且无论在机器翻译前还是翻译后,汉语语音码在表达汉语信息 时总是分词连写的,因此机器翻译时对汉语语音码所表达的汉语信息不需要像汉字所表达的 汉语信息那样每次进行分词。汉语语音码分词的实现主要是通过以下两条途径: 一是在输入机器时像英文一样已经是 按词输入的,词与词之间有空格,因此输入机器后就不需要再分词,二是从没有分过词的汉 字或汉语拼音转换过来的汉语语音码,这种情况下, 一般采取用传统的先分词再转换的方法 和转换后再分词两种方法,这两种方法都可以通过机器标准分词和转换模块自动进行,对少 量机器分得不恰当的词,还可以实行人工干预,正确无误后交给机器进行机器翻译。一般采用汉语语音码表达汉语信息后,机器对原句只进行一次分词便可,不需要像汉字 所表达的汉语信息那样在翻译前往往需要每次进行分词,而且由于语音码是分词连写的,因

此当语音码作为目标语言输出翻译结果时,通过翻译得到的已经分过词的翻译的结果,就像目标语言是英文那样可以得到保存,以利于下次作为源语言时使用。在汉语的词法和句法系统的建立方面我们采取建立汉语与所要翻译的外语基本相 一致的 词法系统和句法系统。所谓词法就是关于词类的定义和划分以及研究单词、询形的变化及其用法的。比如:名 词的定义、动词的时态和语态的变化、非谓语动词的形态等。所谓句法就是是关于句子成分的定义和划分以及研究句子种类、句子结构及其内部形式 的。比如:主语的定义、句子的分类、句子成分的分类和划分等等。所谓句型就是句子内部各个单词、词组、短语、从句的词性或相当词性及其在句子中所 担当成分的排列顺序及其形式。比如:(人称代词1作主语)+ (时间名词1作时间状语)+ (动词1作谓语)+ (名词2作宾 语)等,它是一句句子的单词或词组或从句的词性或相当词性和它在句子中所作成分组成 的排列顺序表达式。研究表明词法、句法、句型三者之间有着及其密切的关系,词法和句法就像描述句子句 型的两根坐标轴,句子的句型就是相对由这两个坐标轴组成的坐标系的句子的轨迹。对具体 的某一个句子来说, 一旦用于该句子的词法和句法确定了,那么该句子的句型也就被唯一地 确定下来了,也就是说句法和词法具有控制句型的作用,实践中我们可以通过设置适当的词 法和句法系统使句型变得简单明了。由于汉语是世界上使用人口最多的一种语言,而英语是世界上使用最广泛的一种语言, 英文是互联网上文献资料最多的一种文字,又由于英语是拼音文,因此完成了英文的翻译也 就完成了对英语的翻译,为了使本发明所阐述的方法更具普遍性和实用性,因此在本发明专 利说明书举例时,我们采用汉语和英语的翻译为例,其实其方法和思路对汉语与其它外语的 机器翻译或者一种外语与另外一种外语的机器翻译也是同样适用的。比如为了要完成汉语和英语之间的双向翻译,我们对汉语的词法系统和句法系统进行重 新构造,使得汉语和英语的词法系统和句法系统基本一致,并在此基础上建立两种语言对应 句型关系,翻译时通过将两种语言对应句型实行双向转换的方式来实现两种语言的双向机器 翻译。具体来说汉语的词法部分,我们主要建立了与英语词类具有基本一致对应关系的汉语的 十类词类比如:名词、代词、数量词、副词、形容词、动词、介词、连词、语气词和象声词。 这十类词的定义和在句中能够充当的成分与英语也具有基本一致的对应关系。还建立了与英 语具有基本一致对应关系的汉语谓语动词的时体变化、汉语非谓语动词形态、汉语动词的语 态和虚拟语气的形态等。具体来说汉语的句法部分,我们主要建立了与英语具有基本一致对应关系的汉语的八类 句子成分比如:主语、谓语、宾语、表语、同位语、定语、状语、补语,以及这八类句子成 分的定义和在句中能够充当八类句子成分的词类導。还通过研究大量的汉语的句子,根据汉 语句子类型按其结构和表明的语气以及用途,将汉语句子分成与英语真有基本一致对应关系 的以下几类:汉语句子的类型可以按从结构上来分和从语气及用途上来分,从结构上分又可 以将句子类型分为单句和复句两类,其中单句可以进一步分成主谓句和非主谓句,非主谓句 又包括无主句和独词句;复句又可以细分为并列复句、主语从句、宾语从句、表语从句、同 位语从句、定语从句、状语从句。按从语气及用途上来分又可以将句子细分成四类:陈述句、 疑间句、祈使句和感叹句。利用以上我们建立的与英语具有基本一致对应关系的汉语的词法和句法系统,我们用人 工的方法建立了汉语的句型,再用人工的方法将相应的句子翻译成英语,并按同样的办法将 得到的英语句子对照英语的词法和句法系统,我们可以得到该英语的句子的句型,此时这两 句汉语和英语的句子就具有对应关系,由于此时的两种语言的句型是在基本相同的词法和句 法系统中得到的,因此两种语言此时的不同主要表现在同一意义的单词书面表达形式的不同 和句型的不同,前者只要通过汉英和英汉词典便可解决,这方面已经有很成熟的技术,后者 可以通过人工建立起来的汉语和英语句型转换对照表进行句型转换便可,这样便完成了汉语 与英语的翻译,同理也可以实现英语与汉语的翻译,这样便实现了汉语与英语的互译。我们把用以上方法分析许多句子得到的同一语言单词或词组词性串和句型对应表及不同 语言句型对应表,并把处理非一一对应时计算机判别需要用到的汉语词法句法上下文联系及 统计规律等预先储存在对应的备注栏里,这样我们便得到一个包含汉语词法句法上下文联系 及统计规律的同一语言的词性串与句型转换对照表和不同语言句型与句型转换对照表,这样 机器翻译的过程实际上就转变为机器不断扫描源语言的句子,通过查标注词性的词典得到源 语言的句子的词性串,然后通过査源语言词性串与源语言句型的对应关系表,将源语言的句 子的词性串转换成对应的源语言句型,再通过查源语言句型与目标语言句型对照表,将源语 言句型转换成匹配丛目标语言句型,最后通过查源语言和目标语言翻译词典的方法将源语言 中的单词或词组翻译成目标语言的单词或词组,并按目标语言句型的顺序以词为单位排列输 出,便得到我们所需要的目标语言的语句,其情形见附图。对于源语言中的文言文、诗词、成语、典故、俚语、缩略语等不便进行语法分析的内容, 不进行词性查询和句型转换,在词性查询和句型转换前直接通过查找预先储存在机器中的一 一对应的实例库匹配后输出。换句话说在进行机器翻译时,先进行实例库匹配,找不到匹配 时,则再进行上述词性查找句型査找和转换的机器翻译程序。上述这些翻译程序的过程对包括汉英在内的所有的语言相互翻译是不变的,人们不断对 上述对照表及词典和实例库增加对应转换关系以及增加备注信息的过程,就是增加机器翻译 能的过程,由于该对照表和词典及实例库是人类知识和智能的结晶,因此这种翻译系统是 建立在人类知识和智能基础上的翻译系统,可以说这样的翻译系统实际上是机器和人类优势 互补的系统,因为对机器来说它的特长是海量记忆、变化越少越好的程序化运行、高速查找 匹配、高效转换输出,而人的特长是知识性、分析归纳性、智能性,以上机器翻译方法的设 计恰好充分发挥了人和机器的这两个方面的不同特点。当我们将上述标注词性的源语言和目标语言翻译词典和上述同一种语言的词性串与句型 及源语言与目标语言句型转换对照表及实例库换成其它语种的时,在机器翻译运行程序基本 不变的情况下,就可以实现汉语与其它语种或其它语种与其它语种之间的翻译。四. 附图说明附图是以汉语与英语句子为例的语言一与语言二双向可逆翻译顺序过程图。五. 具体实施方式下面结合实施例对本发明的具体实施方式作进一步的说明。 (一)所采用的语音码的每一音节声、韵、调的编码方法可以采用类似以下的方法: (注:括号内的符号均为汉语拼音符号,不带括号的字母为本发明所采用的汉语每一音 节声、韵、调的编码,以上以下叙述均同。) 1、 声码的编码: b: (b) p: (p) m: (m) f: (f) d: (d) t: (t)n: (n) 1: (1) (g) k: (k) h: :(h) j: (zh)(j) q: (ch): ,(q) X :(sh), (x) r:z: (z) c: (c) s: (s) y: (y) w :(w) 2、 介码的编码: i: (i) u: (u) y: ( U ) 3、 韵码的编码: a: (a) o: (o) e: (e) i: (i) u: (u) y: ( U )k: (ao ) c: ( ai) s : ( an) x: (ou) w: (ei) n: ( en )z: (ua) 1: (uo ) b: (ang) d: (ong) P: (eng) q: (ing) g: (ng) (无声母韵母)er: (er ) r: (i)[只与(zh)、 (ch)、 (sh)相拼] 4、 调码的编码: a : ( 一 )阴平 e: (/)阳平 v: ( V )上声 u: (\) 去声o: (不标)轻声 (二)利用上述编码的汉语信息全息表示可以采用如下的方法:,以单词为单位,这里将单个汉字看作单音节词,根据组成该单词的每个音节的《汉语拼 音方案》中的拼音,依次按"声码+介码+韵码+调码兼隔音节符号"的顺序编码,同一个单 词的多个音节不用空格隔开连写,单词与单词之间的编码用空格隔开。这里由于将独立运用的汉字看作单音节词,因此,本发明的汉字编码的方法和汉语单词 音节编码的方法相同,在本发明中单词音节编码按词连写后得到单词编码,我们将由若干个 单词组成的一组词称为词组,本发明的词组的编码同汉语句子的编码相同,由于单词可以表 示词组和汉语句子,因此词组的编码和汉语句子的编码都可以通过单词的编码实现,而不需 要对词组和汉语句子另外制定一套专的编码,一般在整句整篇以词为单位表示汉语信息时, 在理解时一般不需要进行同音字词的选择,原则上听起来不会产生歧义的句子,用编码表达 时也不会产生歧义。下面例举一些用本发明方法对汉语和英语进行双向翻译的例子: 1. wovmno mwvtisa xrvydu laadqawnv •(汉语语音码表示的汉语信息) 我们 每天 使用 拉丁文。(用汉字表示的汉语信息)a) 查标注单词词性的汉语词典建立单词词性串:(句中括号内的部分是词性,以下均同) wovmno (人称代词1 )十mwvtisa (时间名词1 )十xrvydu (动词1 ) +laadqawnv (名词2 ).我们(人称代词l) +每天(时间名词1) +使用(动词1) +拉丁文(名词2)。b) 根据上面得到的句子词性串查表得到预先储存在表中的汉语句型: (词性和该词所作的句子成分串组成句型,以下均同)wovmno (人称代词1作主语)+mwvtisa (时间名词1作时间状语)+xrvydu (动词 1作谓语)+ laadqawnv (名词2作宾语)我们(人称代词1作主语) +每天(时间名词1作时间状语) +使用(动词 1作谓语)+拉丁文•(名词2作宾语)

c) 根据上面得到汉语句型的查表得到预先储存在表中的对应的英语句型:wovmno (人称代词1作主语)+ xrvydu (动词1作谓语)+ laadqawnv (名词2作宾 语)+ mwvtisa (时间名词1作时间状语)我们(人称代词l作主语)+使用(动词l作谓语)+拉丁文(名词2作宾语) +每天(时间名词l作时间状语) 此时查汉英词库进行单词或词组意思的转换并按此句型顺序输出便完成汉语翻译成英语 的转换,为了表明此机器翻译过程的可双向性,我们再作下面进一步的变换:d) 根据上面得到英语句型查表得到预先储存在表中的与对应的英语单词或词组词性相一致 的词性串:(该词性串也可从得到的目标语言句型中提取得到,以下均同)wovmno (人称代词1) + xrvydu (:动词1) + laadqawnv (名词2) + mwvtisa (时间名词1). 我们(人称代词l) +使用(动词1) +拉丁文(名词2) +每天(时间名词l)。e) 查汉英词库进行单词或词组意思的转换并按上面所得到的英语句型的顺序输出:we (人称代词1) use (动词1) latin (名词2) every day (时间名词1). we use latin every day.这样便完成了汉语翻译成英语的转换,同时我们还可以看到除了从a转换到e外, 我们还可以用同样的方法从e回到a,此时英语被转换成了汉语,表明用本发明的方法可 以实现机器翻译过程可双向性,其过程可参见附图中的6至1沿b的过程。比如我们将翻译得到购英语句子"we use latin every day."运用汉语翻译成 英语的类似步骤,再将这句句子从e回到a和1,从汉语翻译成英语的路径反推回去,我 们得到下面的步骤:1. "we use latin every day."(我们翻译得到的英语句子)f) 查标注单词或词组词性的英语词典建立单词或词组的词性串:we (人称代词1)+use (动词1) + latin (名词l)十every day(时间名词2).g) 根据上面得到的句子词性串查表得到预先储存在表中的英语句型:we (人称代词1作主语)+ use (动词1作谓语)+ latin (名词1作宾语)+ every day (时间名词2作时间状语)h) 根据上面得到英语句型查表得到预先储存在表中的对应的汉语句型:we (人称代词1作主语)+ every day (时间名词2作时间状语)+use (动词1作谓 语)+ latin (名词1作宾语)此时查汉英一英汉双向词库进行单词或词组意思的转换并按此句型顺序输出便完成英语 翻译成汉语的转换,为了表明此机器翻译过程的可双向性,我们再作下面进一步的变换:i) 根据上面得到汉语句型查表得到预先储存在表中的与对应的汉语单词或词组词性相一致 的词性串:we (人称代词1)+every day (时间名词2)+use (动词1) + latin (名词1) j)查汉英一英汉双向词典进行单词或词组意思的转换并按上面所得到的汉语句型的顺序输 出:我们(人称代词l) 每夭(时间名词2) 使用(动词l) 拉丁文(名词l). 我们 每天 使用 拉丁文。这样我们重复汉语译英语的过程就又得到了我们刚才交给系统翻译成英语的汉语句子, 说明了该机器翻译方法具有双向可逆性。为了说明复句句子翻译的过程,我们再运用与上面相类似的方法将下列两句汉语复句句 子翻译成英语:1. Taamno jradku wovmno mwvtisa xrvydu laadqawnv. (语音码汉语信息)他们知道 我们 每天 使用拉丁文。 (汉字汉语信息)2. wovmno mwvtisa xrvydu laadqawnv xru jduslvjxajradeo.(语音码汉语信息)我们 每天 使用 拉丁文 是 众所周知的。 (汉字汉语信息) k)査标注单词词性的汉语词典建立单词词性串:1. Taamno他们(人称代词1)+jradku知道(动词1)+ wovmno我们(人称代词2 ) + mwvtisa 每天(时间名词1 )十xrvydu使用(动词2) + laadqawnv拉丁文(名词2).2. wovmno我们-(人称代词1 ) + mwvtisa每天(时间名词1 ) + xrvydu使用(动词1 ) + laadqawnv拉丁文(名词2)+xru是(联系动词2)+ jduslvjxajradeo众所周知的(形容 词1).1)根据上面得到的句子词性串查表得到预先储存在表中的汉语句型:1. Taamno他们(人称代词1作主句主语)+jradku知道(动词1作主句谓语)十宾语从句 宾语从句句型:wovmno我们(人称代词2作从句主语)+mwvtisa每天(时间名词1作从句 时间状语)+ xrvydu使用(动词2作从句谓语)+ laadqawnv拉丁文(名词2作从句宾语).2. 主语从句+ xm是(联系动词2起联系主语从句和表语作用)+ jduslvjxajradeo众所周知 的(形容词1作表语).主语从句句型:wovmno我们(人称代词1作从句主语)+111^^83每夫(时间名词1作从句 时间状语)+ xrvydu使用(动词1作从句谓语)+ laadqawnv拉丁文(名词2作从句宾语). 对上面得到的所有从句再重复上面的步骤再进行进一步分解, 一直分解到只有单句没有复 句为止,由于上面两句从句已经是单句,所以不再需要进行进一步分解,直接重复运用上面翻译 单句的步骤对得到的这两句从句进行翻译,对上面分析复句时,从句重复分析过的步骤,翻译从 句时可以省略,这样我们重复运用上面翻译单句的步骤,便可以得到我们需要的从句:"we use latin every day."m)根据上面得到汉语句型查表得到预先储存在表中的对应的英语句型:1. Taamno他们(人称代词1作主句主语)+jradku知道(动词1作主句谓语)+that (从属连 词引导宾语从句在英语中也可以省略)+宾语从句2. That (从属连词引导主语从句)十主语从句+xru是(联系动词2起联系主语从句和表语作 用)+ jduslvjxajradeo众所周知的(形容词1作表语).或:11(代词l作形式主语)fxru是(联系动词2起联系主语从句和表语作'用)f jduslvjxajradeo 众所周知的(形容词1作表语)+that+ (从属连词1引导主语从句)+主语从句.此时査汉英词库进行单词或词组意思的转换并按此句型顺序输出便完成汉语翻译成英语 的转换,为了表明此机器翻译过程的可双向性,我们再作下面进一步的变换: n)根据上面得到英语句型查表得到预先储存在表中的与对应的英语单词或词组词性相一致的词性串:1. Taamno他们(人称代词1 ) + jradku知道(动词1) +that (从属连词1 ) +宾语从句2. That (从属连词1 ) +主语从句+ xru是(联系动词2 ) + jduslvjxajradeo众所周知的(形

容词1 ) •或:It(代词l)+x^u是(联系动词2)+ jduslvjxajradeo众所周知的(形容词1)+that (从属连词引导主语从句)+主语从句.o)查汉英词库进行单词或词组意思的转换并将上面已经翻译得到的从句放入相应复句句型 的相应位置中,最后按上面所得到的英语句型的顺序输出,我们得到下面我们所要得到 的整个目标语句子:1. They (人称代词1) + know (动词1) + that (从属连词1) +宾语从句宾语从句:we (人称代词2) + use (动词2 ) + latin (名词2 ) + every day (时间名词1 ). we use latin every day. 将上面已经翻译得到的从句放入相应复句句型的相应位置中: They (人称代词1) + know (动词1 ) + that (从属连词1) + we (人称代词2 ) + use (动 词2 ) +latin (名词2 ) +every day (时间名词1 ). They know that we use latin every day.2. That (从属连词1) +主语从句+ is (联系动词2) + well known (形容词1).或:It (代词1 ) +is (联系动词2 ) + well known (形容词1 ) +that (从属连词1 ) +主语从 句.主语从句:we (人称代词1) +use (动词1或2)十latin (名词2) + every day (时间名词1). we use latin every day.将上面已经翻译得到的从句放入相应复句句型的相应位置中:That we use latin every day is well known.或:It is well known that we use latin every day .同理,我们也可以将所得到的英语按上面的步骤翻译还原成原来的汉语复句句子,这样我们 运用上面的方法就可以对所有的汉语和以英语为代表的外语的单复句进行双向可逆翻译,进 而就实现了对以英语为代表的外语的双向翻译。随着社会的发展,单词和句型甚至语法理论都会发展,在这种情〉乂下我们只要将新增加 的单词对照关系增加到词典中,将新增加的句型对照关系增加到表中,机器仍旧按原来的翻 译程序运行它就能满足社会发展的需要,整个需要机器自动运行的程序部分可以做到以不变 应万变,具有与时倶进的特点,当语法理论发展时会引起词法理论和句法理论的发展,这时 会引起单词或词组词性串的表达式和句型表达式发生变化,由于这部分是由人工建立并不影 响到机器原来的翻译程序,因此只要我们将这新的单词或词组词性串的表达式和句型表达式 的对照关系加入表中,机器仍然按原来的翻译程序运行,就能从翻译结果中很好地体现这种 新发展。由于以上三种情况的改变都是通过人工进行的,因而是非常可靠的,又由于人具有知识 性、分析归纳性、智能性的特点,因此可以说本发明的翻译方法是建立在人的知识性、分析 归纳性、智能性基础上的,因此是一个非常优秀的机器翻译方法。如果我们将任意源语言和目标语言的不便于语法分析内容的实例库、任意源语言和目标 语言的标注词性的双向翻译词典、同 一语言的句子词性串的表达式和*型表达式的对照关系 表以及不同语言间的句型转换对照表加入系统中,并用相同的翻译程序运行它,我们就可以 实现任意语言间的双向翻译,-值得指出的是上述各种转换对照表尽量要建立在相同或相近的

词法系统和句法系统基础上,这样源语言和目标语言的不同就仅仅表现为单词或词组及句型 的不同,在机器翻译过程中需要转换的仅仅是单词或词组及句型,词法系统和句法系统由于 相同或相近,因此一般不再需要转换。到底是源语言向目标语言的词法系统和句法系统靠拢,还是目标语言向源语言的词法系 统和句法系统靠拢,主要看源语言和目标语言哪一个语言的词法系统和句法系统更科学、更 先进、更便于准确精细地描写句型,本发明例将汉语的词法系统和句法系统向英语的词法系 统和句法系统靠拢,是因为英语语法研究的历史比汉语长,其包含词法系统和句法系统的语 法理论比汉语更科学、更先进、更成熟、更便于准确精细地描写句型。当源语言是用汉字或汉语拼音或汉语语音表达的汉语时,既可以按传统的方法无需转换 直接进行翻译,也可以通过标准转换模块先将汉字或汉语拼音或汉语语音转换成汉语语音码 再进行翻译,外语翻汉语时,翻译得到的用汉语语音码表示的目标语言可以直接用来表示汉 语信息,需要时也可以通过标准转换模块转换成汉字或汉语拼音或汉语语音或汉语特定人、 汉语方言以及少数民族语言语音输出。比如:1. 将汉字和汉语拼音转换成汉语语音码:(1 )对汉字首先将汉字通过查表的方式转换成对应的汉语拼音: 比如:"我们会使用汉语拉丁文。"转换成拼音后成为: w 5 men hu 1 sh T y 6 ng h d n y 0 13 d T ng w § n。(2 )对由汉字转换过来的或原有的汉语拼音则通过以上汉语拼音和汉语语音码码表 对照表将汉语拼音转换成如下汉语语音码串。wov mno huiu xrv ydu hsu yyv laa dqa wnv.(音节和音节之间用空格隔开)或woymnQhuiipa^ydHhsHyyYlagdqgwnY.(音节和音节之间不用空格隔开) (熟练后mno中的轻音符o在不引起混音时可以省略,以上以下均同。)为了让大家看清楚,这里将表示声调的字母加了下划线,语音码中的声调字母同时具隔 音节作用,实际语音码中声调无下划线,熟练语音码后,声调兼隔音节符能够方便区分出来。 以上以下均同。(3)将语音码串进行分词切割,最终完成语音码转换。通过查找预先分好词的汉语语音码单词词库,将同一个单词的多个音节连写,词与词之 间用空格隔开便得到以下我们最终需要的汉语语音码: wovmno huiu xrvydu hsuyyv laadqawnv.2. 汉语语音码转换成汉字和汉语拼音:通过分别查找汉语语音码与以词为单位的汉字和汉语拼音对照表可以方便地将汉语语 音码转换成汉字和汉语拼音,比如:wovmno通过查声码、介码、韵码、调码和汉语拼音对照表或根据该对照表生成的汉语 语音码音节或单词与拼音音节或单词对照表得到w6men,再通过w3men查找到以词为单位 的汉字,当以单词为单位的语音码通过以单词为单位的汉语拼音与以单词为单位的汉字建立 对应关系后, 一旦需要以单词为单位的语音码可以不再需要通过以单词为单位的汉语拼音, 直接与以单词为单位的汉字建立对应关系并实行相应的转换。比如:wovmno可以转换为w 6men,再通过w5men可以转换成"我们",这样wovmno和"我们"便直接建立了对应 关系,需要时可以不通过汉'语拼音w5men进行转换,而直接在wovmno和"我们"之间实

现双向可逆转换。遇同音词时,可以依据汉语词法句法上下文联系及统计规律等手段进行判别后进行以词 为单位的汉字选定。比如:ysvlune上装满了邮包。ysvlune上装满了原油。结合上下文的联 系可以知道:前面一句中的"ysvlune"代表邮轮,后面一句中的"ysvlune"代表油轮,机 器依据汉语词法句法上下文联系及统计规律等手段进行判别后,这两句话分别会转换成"邮 轮上装满了邮包"和"油轮上装满了原油"。对其它单词情况也依次类推。3. 汉语语音转换成汉语语音码:比如:我们用汉语语音朗读向机器输入"我们会使用汉语拉丁文。"(1 )通过查找预先储存在机器中的汉语音节语音模板和汉语语音音节码对照表,匹配后识别出相应的汉语音节语音码串:wovmnohuiuxrvyduhsuyyvlaadqawnv.(音节与音节之间有空格) 或woYmn2hui]pa^ydjjhsHyyYla§dq§wnY.(音节和音节之间不用空格隔开) (2)将语音码串进行单词切分,最终完成以词为单位的语音码转换。 通过查找预先分好词的汉语语音码单词词库,将同一个单词的多个音节连写,词与词之间用空格隔开便得到以下我们最终需要的汉语语音码: wovmno huiu xrvydu hsuyyv laadqawnv.4. 汉语语音码转换成汉语语音:当语音码转换成语音时,可以分别采用查汉语语音码与音节、单词、最大匹配语段语音 合成文件对照表输出相应的语音。比如:wovmno huiu xrvydu hsuyyv laadqawnv.它是汉语语音码所表达的汉语信息,其意义用汉字表达为: "我们会使用汉语拉丁文。"查汉语语音码和汉语音节或单词或最大匹配语段语音合成文件对照表后得到与语音码对 应的汉语语音的声音文件,用声音播放软件依次顺序播出,词与词之间采用比同一单词音节之 间更长的时间间隔来依次连续播出,这样会听起来更接近按词朗读的效果,更符合人们听语音 的习惯。汉语语音按音节合成时有:wov ( w6.wav ) mno(men.wav) huiu( hui.wav) xrv(shl.wav ) ydu(ydng.wav) hsu(Mn.wav) yyv(yii.wav) laa(liwav)dqa(dlng.wav) wnv(wSn.wav).汉语语音按单词合成时有:wovmno(w6men.wav) huiu(hui.wav) xrvydu(diiy6ng,wav) hsuyyv(Mnyii.wav) laadqawnv(ladlngw&i.wav).汉语语音按最大匹配语段合成时有:(假设通过查预先储存在机器中的最大匹配语段为: "wovmno huiu xrvydu我们会使用"和"hsuyyv laadqawnv汉语拉丁文")wovmno huiu xrvydu ( w6men hui shiydng.wav) hsuyyv laadqawnv (h^nyQlSdIngwSn.wav).为表述方便这里的声音文件分别用"相对应的音节或单词或最大匹配语段汉语拼音.wav"表示,实际情况中是没有汉语拼音符号的,它只是预先储存在机器中,.可以通过一定的声音 播放软件播放的表示相应的汉谘语音的声音文件。. 同理,上述三种情况中如果语音码对应的音节、单词、语段的汉语语音合成文件分别换 成汉语特定人、中国方言、少数民族语言的语音合成文件时,则机器合成出来的就分别是汉 语特定人、中国方言、少数民族语言的语音。在汉语信息表示处于汉字或汉语拼音状态时,其标点符号的用法词传统的中文标点符号 相同,汉语信息表示处于汉语语音码状态时其标点符号的用法同英文。汉语语音码表示汉语 信息时与英文用法相一致的标点符号共有十三种,它们分别是:六种点号:句号"."问号"?"感叹号"!"逗号","冒号":"分号";"七种标号:引号""括号()破折号"-"省略号…着重号.书名号(()) 间隔号.一个移行号:移行号"-"对于对于源语言中的文言文、诗词、成语、典故、俚语、缩略语等不便进行语法分析的 内容,不进行词性查询和句型转换直接通过查找预先储存在机器中的一一对应的实例库匹配 后输出。机器翻译时该程序块优先于词性句型查找和转换程序运行。比如:汉语成语"智者千虑,必有一失"由于该句不是现代汉语,无法按现代汉语进行 语法分析,因此直接通过从实例库查找匹配后输出目标语句子如英语:"The best marksman may miss the mark."同理对遇到的外语的类似上面的句子,也可以直接通过从实例库查找匹配 后输出目标语句子。依此类推,用上述方法,在建立任意语言间相同或相近的词法系统和句法系统的基础上, 我们通过建立任意语言间标注词性的单词和词组的转换词典、任意同一语言句子词性串和句 型对应表及任意不同语言句型对应表、任意语言间一一对应的不便于语紐分析内容的实例库, 运用上面的相同的翻译过程就可以实现包含汉语英语在内的对所有的任意种语言间的双向机 器翻译。

高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈