专利汇可以提供汉语外语句型转换双向机器翻译方法专利检索,专利查询,专利分析的服务。并且本 发明 是一种汉语与外语的双向 机器翻译 的方法,属于机器翻译技术领域。一方面翻译时由于汉语信息的表达采用仅用26个拉丁字母为码元的汉语语音码技术,使得汉语信息的表达与ASCII码100%兼容,另一方面由于采用 源语言 和 目标语言 基本相一致的词法和句法系统 基础 上的句型转换的方法,使得本机器翻译方法比传统的机器翻译方法翻译效果更准确更好。它极大方便对外汉语教学和外国人学习汉语并能广泛应用于计算机及嵌入式机器翻译系统中。,下面是汉语外语句型转换双向机器翻译方法专利的具体信息内容。
1.一种汉语与外语的双向机器翻译的方法,采用汉语语音码,它是在建立源语言与目标语言基本相一致的词法句法基础上,通过汉语与外语双向句型转换,实现包括应用在各种计算机和嵌入式系统在内的汉语与外语的双向机器翻译的方法,其特征主要包括以下步骤:
步骤A:
(一)所采用的语音码的每一音节声、韵、调的编码方法采用类似以下的方法:
注:括号内的符号均为汉语拼音符号,不带括号的字母为所采用的汉语每一音节声、韵、调的编码
1、声码的编码:
b:(b) p:(p) m:(m) f:(f) d:(d) t:(t)
n:(n) l:(l) g:(g) k:(k) h:(h)
j:(zh)(j) q:(ch),(q) x:(sh),(x) r:(r)
z:(z) c:(c) s:(s) y:(y) w:(w)
2、介码的编码:
i:(i) u:(u) y:(ü)
3、韵码的编码:
a:(a) o:(o) e:(e) i:(i) u:(u) y:(ü)
k:(ao) c:(ai) s:(an) x:(ou) w:(ei) n:(en)
z:(ua) l:(uo) b:(ang) d:(ong) p:(eng)
q:(ing) g:(ng) (无声母韵母) er:(er)
r:(i)[只与(zh)、(ch)、(sh)相拼]
4、调码的编码:
a:(-)阴平e:(/)阳平v:(∨)上声u:(\)去声
o:(不标)轻声
(二)利用上述编码的汉语信息全息表示采用如下的方法:
以单词为单位,这里将单个汉字看作单音节词,根据组成该单词的每个音节的《汉语拼音方案》中的拼音,依次按“声码+介码+韵码+调码兼隔音节符号”的顺序编码,同一个单词的多个音节不用空格隔开连写,单词与单词之间的编码用空格隔开;
步骤B:
首先运用人工的方法建立同一种语言句子的词性串与句型的对应关系,然后再在建立汉语与需要翻译的外语基本相一致的词法系统和句法系统基础上,建立所需要翻译的两种语言间的句型对照关系,这里的词法就是关于词类的定义和划分以及研究单词、词形的变化及其用法,句法就是是关于句子成分的定义和划分以及研究句子种类、句子结构及其内部形式,句型就是句子内部各个单词、词组、短语、从句的词性或相当词性及其在句子中所担当成分的排列顺序及其形式;
翻译时机器先扫描源语言的句子,通过查源语言标注词性的词典得到源语言的句子的词性串,通过查源语言词性串与源语言句型的对应关系表,将源语言的句子的词性串转换成对应的源语言句型,再通过查源语言句型与目标语言句型对照表,将源语言句型转换成匹配的目标语言句型,最后通过查源语言与目标语言对照词典的方法,将源语言中的单词或词组翻译成目标语言的单词或词组,并按目标语言句型的顺序以词为单位排列输出,便得到我们所需要的目标语言语句;
对源语言中的复句先进行语法分析将复句中的所有从句提取出来,通过层层提取直到最后将从句提成单句为止,再按上述翻译单句的方式进行机器翻译,复句部分则通过查源语言和目标语言句型对照表完成复句句型转换,并完成除从句的复句其它成分的翻译,最后将翻译好的从句放入转换后相应复句句型中的相应位置,如此循环往复一直到得到我们所需要的整个目标语言句子为止。
2.如权利要求书1所述的翻译方法,其特征在于:汉语的词法部分,主要建立了与英语词类具有基本一致对应关系的汉语的十类词类比如:名词、代词、数量词、副词、形容词、动词、介词、连词、语气词和象声词,还建立了与英语具有基本一致对应关系的汉语谓语动词的时体变化、汉语非谓语动词形态、汉语动词的语态和虚拟语气的形态。
3.如权利要求书1所述的翻译方法,其特征在于:汉语的句法部分,主要建立了与英语具有基本一致对应关系的汉语的八类句子成分比如:主语、谓语、宾语、表语、同位语、定语、状语、补语,以及这八类句子成分的定义和在句中能够充当八类句子成分的词类。
4.如权利要求书1所述的翻译方法,其特征在于:根据汉语句子类型按其结构和表明的语气以及用途,将汉语句子分成与英语具有基本一致对应关系的以下几类:汉语句子的类型按从结构上来分和从语气及用途上来分,从结构上分又将句子类型分为单句和复句两类,其中单句进一步分成主谓句和非主谓句,非主谓句又包括无主句和独词句;复句又细分为并列复句、主语从句、宾语从句、表语从句、同位语从句、定语从句、状语从句;按从语气及用途上来分又将句子细分成四类:陈述句、疑问句、祈使句和感叹句。
5.如权利要求书1所述的翻译方法,其特征在于:词法、句法、句型三者之间有着及其密切的关系,词法和句法就像描述句子句型的两根坐标轴,句子的句型就是相对由这两个坐标轴组成的坐标系的句子的轨迹,对具体的某一个句子来说,一旦用于该句子的词法和句法确定了,那么该句子的句型也就被唯一地确定下来了,也就是说句法和词法具有控制句型的作用,实践中通过设置适当的词法和句法系统使句型变得简单明了。
6.如权利要求书1所述的翻译方法,其特征在于:当源语言是用汉字或汉语拼音或汉语语音表达的汉语时,通过标准转换模块先将汉字或汉语拼音或汉语语音转换成汉语语音码再进行翻译,外语翻汉语时,翻译得到的用汉语语音码表示的目标语言或直接用于表达汉语信息,或必要时通过标准转换模块转换成汉字或汉语拼音或汉语语音或汉语特定人或汉语方言以及少数民族语言语音输出。
7.如权利要求书1所述的翻译方法,其特征在于:在汉语信息表示处于汉语语音码状态时其标点符号的用法同英文。
8.如权利要求书1所述的翻译方法,其特征在于:在上述转换中同种语言句子的词性串与句型之间、源语言句型与目标语言句型之间,源语言单词与目标语言单词之间、语音码和汉字之间,当出现不是一一对应的情况时,依据源语言或目标语言词法句法上下文联系及统计规律等手段先进行判别后再进行翻译或转换。
9.如权利要求书1所述的翻译方法,对于源语言中的文言文、诗词、成语、典故、俚语、缩略语等不便进行语法分析的内容,不进行词性查询和句型转换,在词性查询和句型转换前直接通过查找预先储存在机器中的一一对应的实例库匹配后输出。
10.如权利要求书1所述的翻译方法,其特征在于:当将该翻译方法用到的与汉语对应的各个要素如汉语标注词性的词典、汉语人工建立的词性串与汉语句型对照表以及汉语与目标外语句型转换对照表换成另外一种外语翻译时相应用到的上述各个要素时,上述翻译方法还能够扩展成一种外语翻译成另外一种外语的机器翻译方法。
一种汉语与外语的双向机器翻译的方法,该方法采用两项关键技术,一是采用与ASCII码100%兼容的用且仅用26个拉丁字母以词为单位的汉语语音码,二是建立汉语与所要翻译的外语基本相一致的词法系统句法系统,并在此基础上建立两种语言对应句型关系,翻译时通过将两种语言对应句型实行双向转换的方式来实现双向机器翻译,当将该翻译方法用到的与汉语对应的各个要素如汉语标注词性的词典、汉语人工建立的词性串与汉语句型对照表以及汉语与目标外语句型转换对照表换成另外一种外语翻译时相应用到的上述各个要素时,上述翻译方法还可以扩展成一种外语翻译成另外一种外语的方法。本发明属于机器翻译技术领域。
二.背景技术
在世界范围内电子机器翻译走过的历程大致可分为以下四个阶段:1、设想和初探阶段(1946-1954年),1946年,美国的韦弗(Weaver,Warren)和美国人布思(Booth,A.D.)首次提出将电脑用于机译系统。1947年,布思与布里顿提出用数字计算机查阅储存在电脑记忆里的词典。同年,他们编制出自动查阅字典程序。1950年,美国人E凯弗拉提出在机译中由人工进行译前编辑和译后审校的方案。1954年,美国乔治敦大学与IBM公司联合试验使用电脑的机译系统,这标志着机器翻译进入新的发展阶段。2、迅速发展阶段(1954-1966年),美国先后出现许多研究小组,英、法、德、意等政府积极为研究项目提供资助,苏联和东欧一些国家的研究工作也很活跃。3、低潮阶段(1966-1976年),互相竞争和封锁导致研究内容重复,耗费大量可以节省的时间和金钱,一些研究人员又遭到困难和挫折,在美国,最初人们认为机器可以完全代替人译的幻想普遍破灭,研究经费随之大幅度收缩,西欧也是如此,美国语言处理自动化咨询委员会于1966年发表了一份调查报告,她的出笼标志着机译研究低潮阶段的开始。4、复苏阶段(1976-现在),直到1976年3月,在弗吉尼亚的拉什陵举行了一次机译研讨会,美国的机译研究才开始复苏。
中国是世界上第五个进行机器翻译实验的国家,从一开始就得到了国家的高度重视。早在1956年它便以“机器翻译”/“自然语言的数学理论”列入了当时的《科学发展纲要》,以后则列为“六五”、“七五”,以及“863”等重大科研项目,中国的机器翻译研究也有过10年的停滞,70年代中期,我国机器翻译研究从停滞走向了复苏。80年代中期90年代初期是我国的机器翻译研究自复苏以来第二个重要时期,在这一时期里,产生过两个在中国机译史上具有重要意义的实用系统,它们分别是军事科学院研制的“KY-1”英汉机译系统,它获得了国家科技进步二等奖,后来被开发为“译星”,成为中国第一个商品化系统,另一个是中科院计算所研制的“863-IMT”英汉机译系统,它获得了国家科技进步一等奖,它的技术带来了十分可观的效益。90年代初期至今,中国的机器翻译走入了快速发展的时期,出现了许多商品化系统,到目前为止已经有一些具有相当实用价值的计算机翻译系统被推向市场,比较典型的有:中软公司的翻译软件《译星》和北京交大铭泰出品的《东方快车》以及中科院华建公司推出的汉语外语翻译系统,可以说所有这些翻译系统都为人类实现用机器代替人来进行翻译的构想作出了极其重要和宝贵的贡献。
在目前包括以上这些系统在内的所有汉语与外语单向或双向翻译系统中,主要还存在两个有待于进一步完善的地方:
第一在汉语翻译成外语时,它们只能用汉字或汉语拼音所表示的汉语与外语进行单向或双向翻译。众所周知方块表意汉字的计算机机内码不在128个ASCII码的码符集内,而且用汉字表达的汉语信息在机器处理前和处理后都是不分词的,机器在每次翻译前都先要进行分词处理;而汉语拼音还存在几个不便于机器信息处理的弊病,比如:1.拼式太长,2.五个声调(含一个轻声)没有字母化且不在ASCII码的范围内,3.汉语单词音节的声、韵、调没有便于机器信息处理的从左到右的一维线性排列,而是上下排列,4.如果没有非字母化的汉语拼音隔音节符号的隔音节帮助,汉语拼音在以词为单位连写时,音节和音节之间往往容易发生混淆,产生混音现象。以上所有这些都不便于机器对汉语信息的处理,给机器翻译和汉语信息处理带来较大的困难。
第二随着句子的复杂程度的增加,机器翻译句子的准确性和可懂度会有较大的下降,特别是在汉文翻成以英文为代表的外文时,这一问题尤为突出。
造成以上两种情况的原因是多方面的,但最主要的是两条:一是没有能够发明并采用用且仅用26个拉丁字母,就能够对包含汉语的22个声母(含一个零声母),38个韵母,5个声调(含一个轻声)进行汉语全息编码的与ASCII码100%兼容的分词连写的汉语语音码;二由于汉语语法理论的不成熟不完备,因此没有能建立一套与所要翻译的目标语言比如英语相一致或基本相一致的汉语词法和句法系统,以及在此基础上建立起来的源语言句型比如汉语句型和目标语言句型比如英语句型转换对照关系,并通过实行对应句型的双向转换,实现源语言比如汉语和目标语言比如英语之间可角色互换的双向机器翻译。
三.发明内容
本发明的目的是提供一种采用用且仅用26个拉丁字母以词为单位分词连写的汉语语音码,并通过建立在汉语和所要互为转换的外语基本相一致的词法系统句法系统基础上的句型转换来实现汉语与外语的双向机器翻译的方法来解决以上存在的弊端。
具体来说本发明方法所采用的汉语语音码,它用且仅用26个拉丁字母作为码元,以词为单位采用按词连写的方式对组成词的每一音节的声、韵、调先进行编码转换,再依照“声码+介码+韵码+调码兼隔音节符号”的顺序进行编码排列,由于26个拉丁字母属于128个ASCII码码符集范围内,因此一旦传统用于表示汉语信息的汉字或汉语拼音或汉语语音转换成该种汉语语音码后,世界上一切用于处理西码的所有软硬件资源都可以不加改造地用于处理汉语语音码所表达的汉语信息。而且无论在机器翻译前还是翻译后,汉语语音码在表达汉语信息时总是分词连写的,因此机器翻译时对汉语语音码所表达的汉语信息不需要像汉字所表达的汉语信息那样每次进行分词。
汉语语音码分词的实现主要是通过以下两条途径:一是在输入机器时像英文一样已经是按词输入的,词与词之间有空格,因此输入机器后就不需要再分词,二是从没有分过词的汉字或汉语拼音转换过来的汉语语音码,这种情况下,一般采取用传统的先分词再转换的方法和转换后再分词两种方法,这两种方法都可以通过机器标准分词和转换模块自动进行,对少量机器分得不恰当的词,还可以实行人工干预,正确无误后交给机器进行机器翻译。
一般采用汉语语音码表达汉语信息后,机器对原句只进行一次分词便可,不需要像汉字所表达的汉语信息那样在翻译前往往需要每次进行分词,而且由于语音码是分词连写的,因此当语音码作为目标语言输出翻译结果时,通过翻译得到的已经分过词的翻译的结果,就像目标语言是英文那样可以得到保存,以利于下次作为源语言时使用。
在汉语的词法和句法系统的建立方面我们采取建立汉语与所要翻译的外语基本相一致的词法系统和句法系统。
所谓词法就是关于词类的定义和划分以及研究单词、词形的变化及其用法的。比如:名词的定义、动词的时态和语态的变化、非谓语动词的形态等。
所谓句法就是是关于句子成分的定义和划分以及研究句子种类、句子结构及其内部形式的。比如:主语的定义、句子的分类、句子成分的分类和划分等等。
所谓句型就是句子内部各个单词、词组、短语、从句的词性或相当词性及其在句子中所担当成分的排列顺序及其形式。比如:
(人称代词1作主语)+(时间名词1作时间状语)+(动词1作谓语)+(名词2作宾语)等,它是一句句子的单词或词组或从句的词性或相当词性和它在句子中所作成分组成的排列顺序表达式。
研究表明词法、句法、句型三者之间有着及其密切的关系,词法和句法就像描述句子句型的两根坐标轴,句子的句型就是相对由这两个坐标轴组成的坐标系的句子的轨迹。对具体的某一个句子来说,一旦用于该句子的词法和句法确定了,那么该句子的句型也就被唯一地确定下来了,也就是说句法和词法具有控制句型的作用,实践中我们可以通过设置适当的词法和句法系统使句型变得简单明了。
由于汉语是世界上使用人口最多的一种语言,而英语是世界上使用最广泛的一种语言,英文是互联网上文献资料最多的一种文字,又由于英语是拼音文,因此完成了英文的翻译也就完成了对英语的翻译,为了使本发明所阐述的方法更具普遍性和实用性,因此在本发明专利说明书举例时,我们采用汉语和英语的翻译为例,其实其方法和思路对汉语与其它外语的机器翻译或者一种外语与另外一种外语的机器翻译也是同样适用的。
比如为了要完成汉语和英语之间的双向翻译,我们对汉语的词法系统和句法系统进行重新构造,使得汉语和英语的词法系统和句法系统基本一致,并在此基础上建立两种语言对应句型关系,翻译时通过将两种语言对应句型实行双向转换的方式来实现两种语言的双向机器翻译。
具体来说汉语的词法部分,我们主要建立了与英语词类具有基本一致对应关系的汉语的十类词类比如:名词、代词、数量词、副词、形容词、动词、介词、连词、语气词和象声词。这十类词的定义和在句中能够充当的成分与英语也具有基本一致的对应关系。还建立了与英语具有基本一致对应关系的汉语谓语动词的时体变化、汉语非谓语动词形态、汉语动词的语态和虚拟语气的形态等。
具体来说汉语的句法部分,我们主要建立了与英语具有基本一致对应关系的汉语的八类句子成分比如:主语、谓语、宾语、表语、同位语、定语、状语、补语,以及这八类句子成分的定义和在句中能够充当八类句子成分的词类等。还通过研究大量的汉语的句子,根据汉语句子类型按其结构和表明的语气以及用途,将汉语句子分成与英语具有基本一致对应关系的以下几类:汉语句子的类型可以按从结构上来分和从语气及用途上来分,从结构上分又可以将句子类型分为单句和复句两类,其中单句可以进一步分成主谓句和非主谓句,非主谓句又包括无主句和独词句;复句又可以细分为并列复句、主语从句、宾语从句、表语从句、同位语从句、定语从句、状语从句。按从语气及用途上来分又可以将句子细分成四类:陈述句、疑问句、祈使句和感叹句。
利用以上我们建立的与英语具有基本一致对应关系的汉语的词法和句法系统,我们用人工的方法建立了汉语的句型,再用人工的方法将相应的句子翻译成英语,并按同样的办法将得到的英语句子对照英语的词法和句法系统,我们可以得到该英语的句子的句型,此时这两句汉语和英语的句子就具有对应关系,由于此时的两种语言的句型是在基本相同的词法和句法系统中得到的,因此两种语言此时的不同主要表现在同一意义的单词书面表达形式的不同和句型的不同,前者只要通过汉英和英汉词典便可解决,这方面已经有很成熟的技术,后者可以通过人工建立起来的汉语和英语句型转换对照表进行句型转换便可,这样便完成了汉语与英语的翻译,同理也可以实现英语与汉语的翻译,这样便实现了汉语与英语的互译。
我们把用以上方法分析许多句子得到的同一语言单词或词组词性串和句型对应表及不同语言句型对应表,并把处理非一一对应时计算机判别需要用到的汉语词法句法上下文联系及统计规律等预先储存在对应的备注栏里,这样我们便得到一个包含汉语词法句法上下文联系及统计规律的同一语言的词性串与句型转换对照表和不同语言句型与句型转换对照表,这样机器翻译的过程实际上就转变为机器不断扫描源语言的句子,通过查标注词性的词典得到源语言的句子的词性串,然后通过查源语言词性串与源语言句型的对应关系表,将源语言的句子的词性串转换成对应的源语言句型,再通过查源语言句型与目标语言句型对照表,将源语言句型转换成匹配的目标语言句型,最后通过查源语言和目标语言翻译词典的方法将源语言中的单词或词组翻译成目标语言的单词或词组,并按目标语言句型的顺序以词为单位排列输出,便得到我们所需要的目标语言的语句,其情形见附图。
对于源语言中的文言文、诗词、成语、典故、俚语、缩略语等不便进行语法分析的内容,不进行词性查询和句型转换,在词性查询和句型转换前直接通过查找预先储存在机器中的一一对应的实例库匹配后输出。换句话说在进行机器翻译时,先进行实例库匹配,找不到匹配时,则再进行上述词性查找句型查找和转换的机器翻译程序。
上述这些翻译程序的过程对包括汉英在内的所有的语言相互翻译是不变的,人们不断对上述对照表及词典和实例库增加对应转换关系以及增加备注信息的过程,就是增加机器翻译能力的过程,由于该对照表和词典及实例库是人类知识和智能的结晶,因此这种翻译系统是建立在人类知识和智能基础上的翻译系统,可以说这样的翻译系统实际上是机器和人类优势互补的系统,因为对机器来说它的特长是海量记忆、变化越少越好的程序化运行、高速查找匹配、高效转换输出,而人的特长是知识性、分析归纳性、智能性,以上机器翻译方法的设计恰好充分发挥了人和机器的这两个方面的不同特点。
当我们将上述标注词性的源语言和目标语言翻译词典和上述同一种语言的词性串与句型及源语言与目标语言句型转换对照表及实例库换成其它语种的时,在机器翻译运行程序基本不变的情况下,就可以实现汉语与其它语种或其它语种与其它语种之间的翻译。
四.附图说明
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种听写报读进度的控制方法及电子设备 | 2020-05-11 | 454 |
基于XML的领域要素提取配置语言系统 | 2020-05-08 | 55 |
用于增强已标注样本的方法和设备 | 2020-05-11 | 934 |
一种基于边缘信息和语义信息的句子相似度计算方法 | 2020-05-12 | 742 |
一种电商产品竞争分析方法及系统 | 2020-05-14 | 221 |
关键词提取方法、装置及存储介质 | 2020-05-08 | 775 |
一种视频文本摘要生成方法及装置 | 2020-05-08 | 687 |
一种基于Bi-LSTM网络的无监督属性的抽取方法 | 2020-05-11 | 47 |
关键词提取方法、关键词提取装置及电子设备 | 2020-05-08 | 185 |
一种使用重叠拆分规则的文本序列标注算法 | 2020-05-14 | 365 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。