首页 / 专利库 / 专利权 / 第I章 / 汉语语音码全拼和简拼汉语全息信息处理方法

汉语语音码全拼和简拼汉语全息信息处理方法

阅读:123发布:2021-01-29

专利汇可以提供汉语语音码全拼和简拼汉语全息信息处理方法专利检索,专利查询,专利分析的服务。并且本 发明 是一种计算机或 嵌入式计算 机系统汉语语音码全拼和简拼汉语全息信息处理方法,属于计算机汉字汉语信息处理技术领域。它用且仅用26个拉丁字母以词为单位对汉语信息进行全息处理,能够与ASCCII码100%兼容。本发明能广泛应用于汉语信息处理、图书出版、汉语教学、农村地区扫盲、对外汉语教学、汉语语音合成和识别、各种格式的计算机文件和网页汉语信息显示、信息搜索、汉语编程,具有汉语合义的各种用于登陆互联 网站 点的网络域名的标识、商标的标识等领域。本发明采用的汉语语音码可以直接用于表达汉语信息,特别是为不识或不习惯汉字的人学习、了解、掌握、表达汉语信息和汉语普通话提供了极大的便利。,下面是汉语语音码全拼和简拼汉语全息信息处理方法专利的具体信息内容。

1.一种计算机或嵌入式计算机系统汉语语音码全拼和简拼汉语全息信息处理方法,以下将计算机或嵌入式计算机系统简称为计算机或计算机系统,该信息处理的方法包括但不限于汉语全息信息用能够识别西文的书写笔书写输入、OCR西文光学扫描输入、标准西文键盘键入、西文字母语音识别输入、多样信息输入、印刷、打印、储存、显示、通讯、信息传输、语音识别、语音合成、汉语智能分词、机器翻译、信息搜索、各种计算机文件格式和网页信息表示及显示、与各种网络合法域名前后缀组成网络域名用于登陆相应网站、汉字汉语编程、商标的标识的方法,它是建立在使用世界通用的计算机或嵌入式计算机系统基础上的方法,该汉语全息信息处理方法所采用的汉语语音码有全拼和简拼两种拼写法,其特征主要包括以下步骤:
步骤A:
(一)汉语语音码简拼时所采用的汉语语音码的每一音节声、韵、调的编码方法采用以下的方法:
注:括号内的符号均为汉语拼音符号,不带括号的字母为所采用的汉语每一音节声、韵、调的编码,以上以下将下列声、韵、调的对照编码表简称为码表
(1).用于表示汉语信息的语音码的声母全部采用一个拉丁字母表示,例如采用如下的辅音拉丁字母表示声码的编码:
b:(b) p:(p) m:(m) f:(f) d:(d) t:(t)
n:(n) l:(l) g:(g) k:(k) h:(h)
j:(zh),(j) q:(ch),(q) x:(sh),(x) r:(r)
z:(z) c:(c) s:(s) y:(y) w:(w)
(2).用于表示汉语信息的语音码用26个字母中的一个拉丁字母来表示介母,例如用y来表示原来汉语拼音单韵母和介母中的(ü),其余单韵母和介母的编码采用与汉语拼音单韵母和介母相同的符号,比如采用如下介母的编码:
i:(i) u:(u) y:(ü)
(3).用于表示汉语信息的语音码除了部分带有介母的复合韵母外,其余的复合韵母的韵码在简拼时用一个拉丁字母来表示,比如用一个辅音字母表示,例如在汉语语音码简拼时采用如下的韵码的编码:
a:(a) o:(o) e:(e) i:(i) u:(u) y:(ü)
z:(ao) t:(ai) c:(an) s:(ou) w:(ei) n:(en)
k:(ua) l:(uo) g:(ang) d:(ong) b:(eng) q:(ing)
p:(ng)
er:(er)(无声母韵母)(er用西文键盘键入时分别键入E和R两个键)
r:(i)[只与(zh)、(ch)、(sh)相拼]
(4).用于表示汉语信息的语音码其调码可以用五个拉丁字母表示,也可以用5个阿拉伯数字表示,例如采用如下四个拉丁字母和一个汉语不用的字母v表示调码的编码:
a:(-)阴平 e:(/)阳平 v:(∨)上声 u:(\)去声 o:(不标)轻声
又例如采用如下5个阿拉伯数字表示调码的编码:
1:(-)阴平 2:(/)阳平 3:(∨)上声 4:(\)去声 5:(不标)轻声
(二)利用上述编码的汉语信息全息表示采用如下的方法:
以单词为单位,这里将单个汉字看作单音节词,根据组成该单词的每个音节的《汉语拼音方案》中的拼音,在汉语语音码全拼时除了ü的表示可以采用一个拉丁字母比如y表示外,声母表示和介母表示以及韵母表示均与汉语拼音方案相同,与汉语拼音方案所不同的是调码采用一个拉丁字母或阿拉伯数字表示,且该调码兼隔音节符号,即汉语语音码每一个音节依次按″汉语拼音相同的声母+汉语拼音相同的介母+汉语拼音相同的韵母+调码兼隔音节符号″的顺序编码,在汉语语音码简拼时依次按″声码+介码+韵码+调码兼隔音节符号″的顺序编码,无论是全拼和简拼,同一个单词的多个音节不用空格隔开连写,单词与单词之间的编码用空格隔开,组成单词时,单词的每一个音节既可以全部用全拼或简拼音节组成,也可以将组成词的任意一个音节根据需要采用全拼或简拼混合搭配组成,也即在组成单词的多个音节中有的音节可以是简拼,有的音节可以是全拼,以下以上将汉语语音码全拼和简拼统称为汉语语音码或语音码;
当汉语信息处于全拼或简拼语音码状态时,其标点符号的用法同英文的标点符号的用法相同;
步骤B:
(一)根据需要汉字、汉语拼音、汉语语音码全拼、汉语语音码简拼相互之间可以通过汉字汉语拼音与汉语语音码双向转换模实现双向转换;
(二)汉语语音码全拼、汉语语音码简拼均可以通过相应的模块或方法来进行语音识别、语音合成、汉语智能分词、机器翻译、信息搜索、各种计算机文件格式和网页信息表示及显示、与各种网络合法域名前后缀组成网络域名用于登陆相应网站、汉字汉语编程、商标与域名统一标识的信息处理;
(三)汉语语音码全拼、汉语语音码简拼组成的汉语全息信息可以用一切处理西文的软硬件资源来进行信息处理,比如能够用能够识别西文的书写笔书写输入、OCR西文光学扫描输入、标准西文键盘键入、西文字母语音识别输入;
(四)汉语语音码全拼或简拼可以单独也可以与汉字、汉语拼音、外文、少数民族文字以及全拼或简拼进行对照印刷、打印、储存、显示、通讯、信息传输。
2.如权利要求1所述的计算机或嵌入式计算机系统汉语语音码汉语全息信息处理方法,其进一步特征在于:汉语智能分词采用一种主要基于与英语语法的词法句法及其构词法基本相一致的新型汉语语法分析基础上的计算机或嵌入式可移动设备的汉字文本和与《汉语拼音方案》具有一一对应关系的汉语拼音文本的分词方法,其所用的新型汉语语法主要特点是词法方面将汉语的词类分成:名词、代词、数量词、副词、形容词、动词、介词、连词、语气词和象声词;句法方面将汉语的句子成份划为:主语、谓语、宾语、表语、同位语、定语、状语、补语;将句子的复句分为并列复句和主从复句;主从复句又可以分为:主语从句、宾语从句、表语从句、同位语从句、定语从句、状语从句;将汉语动词时态分为:过去时、现在时、现在将来时、过去将来时;汉语动词体式分为:一般式、进行式、完成式、完成进行式;建立汉语动词被动语态和谓语动词的虚拟语气;汉语的构词法方面主要通过在词根基础上加前缀、中缀、后缀、前后缀的方法以及词根与词根复合的方法来构词;
将汉语的非单个汉字或音节的专用名词、代词、数量词、部分副词、介词、连词、语气词和象声词、表征并列复句和各个从句的特征词、动词各种时体系统、被动语态、虚拟语气的特征词、构词法的前后缀分类列入一级词库,将主要表征汉语成语的四字词、单音词、形容词、动词、未列入一级词库的其它名词和副词分类列入二级词库,将汉语的构词法的前缀、中缀、后缀、词根分类列入三级词库;
在分词时总是要利用句子或字符串的断点,从断点左右两侧开始对需要切分的汉字或音节进行匹配切分,对所有已经匹配成功的词要加空格隔开并在后台作匹配完成标识,等全部完成切词后再撤消该标识回到原来的字体格式;
所利用断点形成的位置主要包括但不限于:句子的起首、句子的结尾、各种标点符号、各种表示数量和序号的阿拉伯数字、各种特种符号、原来汉字或音节中合有的空格、上一级词库分词以后所形成的断点;
分词时第一步先用一级词库里的词和前后缀,对需要分词的整个文本中的汉字或音节进行扫描,把经扫描匹配成功的汉字或音节看作一个需要切分的词进行切分,前后缀匹配成功后,以前后缀为界将包括前后缀在内的所有字符当作一个词切分,有不止一种匹配结果时以产生最少孤立汉字或音节的匹配结果为准;
一级词库分完后,从断点的左右两侧依次分别取四个、两个、三个以及一个没有匹配成功的汉字或音节,然后与二级词库里的词进行匹配,如果所取的汉字或音节匹配成功,并且对同一处理对象从断点的左右两侧进行正向和逆向匹配的结果相同,就认为这是一个成功的匹配结果,如果匹配的结果不相同,产生最少孤立汉字或音节的匹配结果被认为是成功的匹配;
二级词库分完词后,在进一步分词时,首先对照三级词库对未匹配成功的汉字或音节进行前缀、后缀、中缀和词根的匹配判断,如果是前缀的话,向后吸收一个孤立汉字或音节构成一个词并作切分,如果后面是两个匹配好的汉字或音节,则与匹配好的这两个汉字或音节结合,按三字词切分;如果是后缀的话,向前吸收一个孤立汉字或音节构成一个词并作切分,如果前面是两个匹配好的汉字或音节,则与匹配好的这两个汉字或音节结合,按三字词切分;如果是中缀的话则吸收前面和后面各一个字或音节组成一个词,如果吸收后导致前面或后面出现一个孤立的没有匹配的汉字或音节时,则要将这个汉字或音节吸收进这个中缀组成的词,一般组成的词的汉字或音节数不超过四个,如果是词根的话,根据它前面能加字或音节,还是后面能加字或音节,还是前后都能加字或音节的情况,分别采用前缀、后缀、中缀的切词方法进行切词,以上方法所切分到的词,当在同一篇文档中的不同句子中累计出现次数不少于两次时,系统自动将该词存入二级词库;
当用以上三个词库切分完后,句子中仍然出现未匹配成功的汉字或音节串,或者虽然匹配成功但属于三个以上连续孤立的汉字或音节串时,把它们合并在一起组成一个词来切分,以上方法所切分到的词,当在同一篇文档中的不同句子中累计出现次数不少于两次时,系统会根据设定自动或经人工确认后将其存入一级词库;
对最后的分词结果和检查规则还可以进行人工干预修改,对人工干预形成的新词根据词的特点经人工确认后分类存入一级词库或二级词库,各级词库里的词还可以进行人工增删,且词库里的词按高频优先分类排列在前的原则排列,当达到一定值时,经人工确认系统可以将二级词库里的词分类提升到一级词库,一级词库里的词分类下降到二级词库,以上以下将该智能分词步骤称为分词模块。
3.如权利要求1所述的计算机或嵌入式计算机系统汉语语音码汉语全息信息处理方法,其进一步特征在于:在汉字或汉语拼音转换成汉语语音码时,汉字先转换成汉语拼音,遇异音同形字时将可能的汉语拼音全部列出,汉语拼音则无须先转换,然后再根据码表先转换成相应的汉语音节语音码串,然后在调用预先储存在计算机系统中的分词模块再进行按词切分;
对已经分过词的汉字和汉语拼音转换成汉语语音码后则不必再进行单词切分,仍以原来的单词为单位进行转换;
当汉语语音码需要转换成汉语拼音时,既可以采用查预先储存在计算机系统中的码表,也可以查通过该码表生成的以音节或词为单位的汉语语音码与以音节或词为单位的汉语拼音对照表,匹配后输出相应的汉语拼音;
当汉语语音码需要转换成汉字时,既可以先转换成以词为单位的汉语拼音再转换成以词为单位的汉字,也可以直接采用查预先储存在计算机系统中的语音码与以词为单位的汉字对照表、匹配后输出相应的汉字;
遇同音词时,先依据汉语词法句法上下文联系及统计规律等手段进行判别,判别后再进行以词为单位的汉字选定
当需要将全拼的汉语语音码转换成简拼的汉语语音码时,通过查预先存储在计算机中的码表,将全拼的汉语语音码的声母、介母、韵母换成简拼的汉语语音码的声码、介码和韵码,调码保持不变,或调码用阿拉伯数字或一个拉丁字母表示;
反之当需要将简拼的汉语语音码转换成全拼的汉语语音码时,通过查预先存储在计算机中的码表,将简拼的汉语语音码的声码、介码和韵码换成全拼的汉语语音码的声母、介母、韵母,调码保持不变,或用阿拉伯数字或一个拉丁字母表示;
当需要仅将汉语语音码的调码进行阿拉伯数字表示的调码和拉丁字母表示的调码之间进行双向转换时,根据码表将阿拉伯数字表示的调码转换成拉丁字母表示的调码或根据码表将拉丁字母表示的调码转换成阿拉伯数字表示的调码便可,其它全拼汉语语音码的声母、介母、韵母和简拼汉语语音码的声码、介码和韵码则保持不变;
在汉语语音码转换成汉字和汉语拼音时,其标点符号也从与英文相同的状态转变为相应的中文标点符号状态,以上以下将该步骤的方法称为汉字汉语拼音与汉语语音码双向转换模块。
4.如权利要求1所述的计算机或嵌入式计算机系统汉语语音码汉语全息信息处理方法,其进一步特征在于:当汉语语音码转换成汉语语音时,可以分别采用查汉语语音码中的汉语音节与汉语音节语音合成文件对照表、以词为单位的汉语语音码与汉语单词语音合成文件对照表,还可以通过最大匹配法,采用查以最大语段为单位的汉语语音码串和汉语语段语音合成文件对照表输出相应的汉语语音,当将上述汉语语音码或汉语语音码串所分别对应的音节、单词或语段的语音合成文件分别换成汉语特定人、中国方言、少数民族语言的语音合成文件时,通过查汉语语音码或汉语语音码串与相应音节、单词或语段的语音合成文件对照表,可以分别输出相应的汉语特定人、中国方言、少数民族语言的语音,当合成外语语音时,要进行查以词、词组或短语为单位的汉语语音码和相应外语单词、外语词组或外语短语语音合成文件对照表输出相应的外语单词、外语词组或外语短语的语音,对需要输入汉语每一个音节的声母、介母、韵母和声调信息才能进行汉语语音合成的系统,可以根据码表将汉语语音码转换成汉语拼音声母、介母、韵母和声调的信息后,再输入到汉语语音合成系统中进行汉语语音合成,当对汉语语音码文章中的标点符号和移行号进行语音合成时,我们只要将相应的预先储存在计算机中的汉语的六种点号七种标号和一个移行号的声音文件提取出来,用声音播放软件进行播放便可;
当该语音合成文件是汉语的语音合成文件时,则该标点符号或移行号朗读出来的声音便是汉语相应的标点符号或移行号的声音,当该语音合成文件分别是汉语特定人、中国方言、少数民族语言的语音合成文件时,则该标点符号或移行号朗读出来的声音便分别是汉语特定人、中国方言、少数民族语言的相应的标点符号或移行号的声音,当输入的是用汉字或汉语拼音表达的汉语信息时,汉字或汉语拼音可以通过预先储存在计算机系统中的汉字汉语拼音与汉语语音码双向转换模块,先转换成全拼或简拼汉语语音码再进行上述汉语、汉语特定人、中国方言、少数民族语言、外语单词、外语词组或外语短语的语音转换;
在汉语语音转换成汉语语音码时,汉语语音识别系统可以依次分别将汉语语段、汉语单词、汉语音节作为识别的基元,通过查找预先储存在计算机中的汉语语段语音模板和汉语语段语音码对照表、汉语单词语音模板和汉语单词语音码对照表、汉语音节语音模板和汉语语音音节码对照表,匹配后识别出相应的汉语语段语音码、汉语单词语音码、汉语音节语音码,语音连续输入时便依次分别得到连续的汉语语段语音码串、汉语单词语音码串、汉语音节语音码串,对上述得到汉语音节语音码串通过预先储存在计算机系统中的分词模块进行按词切分,对已经分过词的汉语单词语音码串和汉语语段语音码串则不必再进行单词切分,对切分出的单词采取同一单词的音节与音节之间连写,单词与单词之间空格的方式表示,当汉语语音码需要进一步转换成汉字或汉语拼音时,通过预先储存在计算机系统中的汉字汉语拼音与汉语语音码双向转换模块转换输出相应的汉字或汉语拼音,对于汉语语音是带某种方言口音的汉语或某一种中国的方言,只要这种中国的方言的音节或单词或语段分别与汉语音节或单词或语段具有某种对应关系,我们通过以上相类似的方法即:通过查找预先储存在计算机中的带某种方言口音的汉语的汉语音节或单词或语段的语音模板与汉语音节或单词或语段语音码对照表,以及具有某种对应关系的方言音节或单词或语段的语音模板和汉语语音音节码或单词或语段对照表,匹配后识别出相应的汉语音节或单词或语段语音码串,就可以实现对该带某种方言口音的汉语或方言的汉语语音码识别,实现该带某种方言口音的汉语或方言与汉语语音码的转换,以上以下将该步骤方法称为汉语语音码语音合成与识别模块。
5.如权利要求1所述的计算机或嵌入式计算机系统汉语语音码汉语全息信息处理方法,其进一步特征在于:所采用的汉语与外语的双向机器翻译的方法,是在建立源语言目标语言基本相一致的词法句法基础上,通过汉语与外语双向句型转换,来实现汉语与外语的双向机器翻译,这里的机器翻译所用的机器是指世界通用的计算机或嵌入式计算机系统,以下简称为计算机或计算机系统,这里的词法就是关于词类的定义和划分以及研究单词、词形的变化及其用法,句法就是是关于句子成分的定义和划分以及研究句子种类、句子结构及其内部形式,句型就是句子内部各个单词、词组、短语、从句的词性或相当词性及其在句子中所担当成分的排列顺序及其形式,翻译前首先运用人工的方法建立同一种语言句子的词性串与句型的对应关系,然后再在建立汉语与需要翻译的外语基本相一致的词法系统和句法系统基础上,建立所需要翻译的两种语言间的句型对照关系并储存在计算机中,翻译时机器先扫描源语言的句子,通过查预先储存在计算机中的源语言标注词性的词典得到源语言的句子的词性串,通过查预先储存在计算机中的源语言词性串与源语言句型的对应关系表,将源语言的句子的词性串转换成对应的源语言句型,再通过查预先储存在计算机中的源语言句型与目标语言句型对照表,将源语言句型转换成匹配的目标语言句型,最后通过查预先储存在计算机中的源语言与目标语言对照词典的方法,将源语言中的单词或词组翻译成目标语言的单词或词组,并按目标语言句型的顺序以词为单位排列输出,便得到我们所需要的目标语言语句;
对源语言中的复句先进行语法分析将复句中的所有从句提取出来,通过层层提取直到最后将从句提成单句为止,再按上述翻译单句的方式进行机器翻译,复句部分则通过查预先储存在计算机中的源语言和目标语言句型对照表完成复句句型转换,并完成除从句的复句其它成分的翻译,最后将翻译好的从句放入转换后相应复句句型中的相应位置,如此循环往复一直到得到我们所需要的整个目标语言句子为止;
当源语言是用汉字或汉语拼音或汉语语音表达的汉语时,通过预先储存在计算机中的汉字汉语拼音与汉语语音码双向转换模块、汉语语音码语音合成和识别模块先将汉字或汉语拼音或汉语语音转换成汉语语音码再进行翻译,外语翻汉语时,翻译得到的用汉语语音码表示的目标语言或直接用于表达汉语信息,或必要时通过预先储存在计算机中的汉字汉语拼音与汉语语音码双向转换模块和汉语语音码语音合成和识别模块转换成汉字或汉语拼音或汉语语音或汉语特定人或汉语方言以及少数民族语言语音输出;
对于源语言中的文言文、诗词、成语、典故、俚语、缩略语等不便进行语法分析的内容,不进行词性查询和句型转换,在词性查询和句型转换前直接通过查找预先储存在机器中的一一对应的实例库匹配后输出;
当将该翻译方法用到的与汉语对应的各个要素如汉语标注词性的词典、汉语人工建立的词性串与汉语句型对照表以及汉语与目标外语句型转换对照表换成另外一种外语翻译时相应用到的上述各个要素并预先储存在计算机中的时,上述翻译方法还能够扩展成一种外语翻译成另外一种外语的机器翻译方法,以上以下将该步骤的方法称为汉语语音码汉语外文双向翻译模块。
6.如权利要求1所述的计算机或嵌入式计算机系统汉语语音码汉语全息信息处理方法,其进一步特征在于:所采用的登陆各种网站或电子邮箱的网址是各种含有全拼和简拼的汉语语音码的合法网址,网站既可以采用以全拼和简拼的汉语语音码为词干加各种合法网址的前后缀组成,电子邮箱采用全拼和简拼的汉语语音码为词干+@+各种电子邮箱的合法后缀组成,也可以将全拼和简拼的汉语语音码与各种合法网址的前后缀以及各种电子邮箱的合法后缀建立对应关系,全部用全拼或简拼的汉语语音码来向计算机或嵌入式计算机系统输入各种网址和电子邮箱地址,在汉语语音码以词组、句子形式组成网址或电子邮箱地址时,对应网络域名或电子邮箱地址的汉语语音码的词组或句子里的所有单词相互之间不空格,输入时既可以通过标准西文键盘输入,也可以通过西文手写识别、西文光学识别、西文字母语音识别和汉语语音码语音识别的方式输入,当向计算机或嵌入式计算机系统发出预先存入其中的与某网站的网址或电子邮箱地址相对应的语音时,计算机或嵌入式计算机系统会查找预先储存在计算机中与该语音相对应的网址或电子邮箱地址,并在浏览器地址栏中显示与该语音相对应的网址或电子邮箱地址,并打开相应的网页或网站或电子邮箱,浏览器可以预先人工打开,也可以在计算机或嵌入式计算机系统听到语音信号后根据预先对计算机系统的设定自动打开,网站打开后,计算机或嵌入式计算机系统可以继续识别后续的语音,经识别搜索后,打开该网站的相应网页或光标指向相应的网页内容,并根据预先的设定计算机或嵌入式计算机系统做进一步的后续处理,以上以上将该步骤的方法称作为汉语语音码域名转换和网页登陆模块。
7.如权利要求1所述的计算机或嵌入式计算机系统汉语语音码汉语全息信息处理方法,其进一步特征在于:用于多样信息输入的汉语语音码既可以通过标准西文键盘输入,也可以通过西文手写识别、西文光学识别、西文字母语音识别和汉语语音码语音识别的方式输入,当向编码输入框中输入汉语语音码时,与该汉语语音码所表示的意义相一致的多样信息所包括的各对应项可以根据设定全部或部分先出现在候选输入框中,经选择确认后最终输入到所需输入的计算机或各种手持嵌入式可移动设备中,所输入的多样信息主要包括但不限于与所输入的汉语语音码意义相一致的以词、词组、句子为单位的汉字、传统《汉语拼音方案》中所使用的汉语拼音、汉语语音码全拼和简拼、与传统《汉语拼音方案》具有一一对应关系的其它各种汉语拼音、外文、中国少数民族文字以及与所输入的汉语语音码全拼和简拼相对应的各种有线和无线网络域名或网址,根据系统设定所输入的汉语语音码全拼和简拼相对应的各种有线和无线网络域名或网址可以根据对应的码表相互自动转换,当向编码输入框中输入汉语语音码时,如遇到声母、韵母、声调全部相同的汉语同音字词,则在候选输入框中分别用特定字符比如阿拉伯数字顺序全部列出这些同音字词及其与其意义相一致的外文、少数民族文字,经选择确认后最终输入到所需输入的计算机或各种手持嵌入式可移动设备中;
与所输入的汉语语音码相对应的各种有线和无线网络域名或网址,可以直接通过各种合法的有线和无线网络域名或网址的前缀+所输入的汉语语音码+各种合法有线和无线网络域名或网址的后缀组成来得到,也可以通过调用汉语语音码域名转换和网页登陆模块转换来得到,在汉语语音码以词组、句子形式输入时,对应网络域名或网址中的汉语语音码的词组或句子里的所有单词相互之间不空格,当出现汉字的同音字词时,与所输入的汉语语音码相对应的各种有线和无线网络域名或网址不变;
当向编码输入框中输入汉语语音码后,在候选输入框中显示的多样信息所包括的各对应项既可以在每一对应项前加特定字符如阿拉伯数字,通过键入该特定字符来进行单项对应项的输入显示,也可以将包括输入的汉语语音码在内的所有多样信息所包括的对应项仅用一个特定字符如阿拉伯数字来标识,通过键入该特定字符来进行所有多样信息所包括的各对应项的同时一次性对照输入显示;
通过建立多样信息各对应项之间的对应关系,当向输入框中输入多样信息对应项中的任意一项时,多样信息所包括的其它各对应项就会以预先设定的格式在候选输入框中显示,经选择确认后最终以所设定的显示格式输入到所需输入的计算机或各种手持嵌入式可移动设备中。
8.如权利要求1所述的计算机或嵌入式计算机系统汉语语音码汉语全息信息处理方法,其进一步特征在于:在进行汉语编程时,首先将编程用的计算机语言关键词和语句及其组成语句的关键词,根据它们在汉语中的意义或功用翻译成用汉字和汉语拼音以及汉语语音码全拼及简拼关键词表达的汉语信息,并建立一一对应的关键词对照表预先储存在计算机中;
任何计算机和可移动嵌入式计算机系统软件程序都是一个文本文件,在用汉语进行计算机和可移动嵌入式计算机系统软件编程时,可以用与编程用的关键词和语句及其组成语句的关键词一一对应的汉字关键词或汉语拼音关键词或汉语语音码全拼及简拼关键词进行编程,除计算机编程语言的关键词和语句及其组成语句的关键词要改用汉字关键词或汉语拼音关键词或汉语语音码全拼及简拼关键词进行编程外,其它原计算机程序语言的符号和各种编程规定及规则保持不变;
在计算机系统是纯西码也即ASCII码系统时,除了关键词和语句及其组成语句的关键词的汉字或汉语拼音需要转换成汉语语音码关键词外,其它用汉字或汉语拼音表示的汉语信息也需要转换成汉语语音码;
该作为源程序的文本文件在进行编译前,计算机先根据预先储存在计算机中的关键词对照表,将与英文关键词和语句及其组成语句的关键词一一对应的汉字或汉语拼音或汉语语音码全拼及简拼关键词批量转换成原来转换前相对应的编译系统能够编译的英文关键词和语句及其组成语句的关键词,转换完成后再按照对原来用英文编程的计算机软件程序的编译方式进行编译或解释,高级计算机语言先编译或解释成汇编程序,再由汇编程序汇编成机器码后交计算机执行,而汉语汇编语言程序转换成英文关键词汇编语言程序后,则直接汇编成机器码后交计算机执行;
当需要阅读源程序代码时,计算机可以根据所用的计算机编程语言的关键词和语句及其组成语句的关键词与汉字或汉语拼音或汉语语音码关键词一一对应关系,根据预先的设定,计算机编程语言的关键词和语句及其组成语句的关键词能够分别以英文、汉字或汉语拼音或汉语语音码全拼及简拼的方式显示;
其它非关键词和语句的编程内容和字符表达方式可以不变,也可以经过汉字汉语拼音与汉语语音码双向转换模块和汉语语音码汉语与外文双向翻译模块转换再输出成系统预先设定的信息种类的文本文件程序源代码,该信息种类可以是但不限于汉字、汉语拼音、汉语语音码全拼及简拼、外文;
当英文汇编语言的助记符关键词与相对应的汉语语音码全拼及简拼关键词建立一一对应关系后,汉语语音码全拼及简拼关键词还可以与英文汇编语言的助记符关键词相对应的机器码建立一一对应关系,这样便形成汉语高级程序可以直接编译成汉语汇编语言程序,再由汉语汇编语言程序汇编成机器码后交计算机执行;
进一步通过对计算机硬件电路进行改造,使计算机的硬件电路相对应的指令系统更适合汉语编程指令,这样便可以设计出更符合汉语特点和习惯的计算机指令系统,从而实现从汉语高级计算机语言到汉语低级计算机语言再到与汉语相适应的计算机机器语言即机器码的一脉相承的计算机汉语编程语言。
9.如权利要求1所述的计算机或嵌入式计算机系统汉语语音码汉语全息信息处理方法,其进一步特征在于:在进行信息搜索时可以以现有的传统的信息搜索引擎为基础,既能够将汉字、汉语拼音、汉语语音码全拼及简拼、外文作为信息搜索的关键词直接输入搜索引擎的关键词输入框进行信息搜索,也能够通过将输入搜索引擎关键词输入框的汉字、汉语拼音、汉语语音码全拼及简拼、外文或汉语语音,通过上述汉字汉语拼音与汉语语音码双向转换模块、汉语语音码语音合成和识别模块、汉语语音码汉语外文双向翻译模块转换成预先设定的信息种类后,再进行信息搜索,输出查询到的信息,能够按照系统默认或预先设定的信息种类方式输出,上述这种信息种类可以是但不限于汉字、汉语拼音、汉语语音码全拼及简拼、外文、汉语特定人语音、中国方言语音、少数民族语言语音、汉语语音或外语语音;
当需要将搜索引擎搜索到的用汉字或汉语拼音表示的汉语信息的网页转换成汉语语音码全拼及简拼表示的汉语信息的网页时,计算机系统首先找到该网页的源文件,该网页的源文件比如以一个扩展名为″.html″或″.hml″的文本文件为例,通过调用预先储存在计算机系统中的汉字汉语拼音与汉语语音码双向转换模块,将该文本文件中所有会显示出来的汉字或全部汉语拼音,在它们原来的网页的位置上转换成汉语语音码全拼或简拼,一般需要转换的汉字是除作为文件名的汉字和作为汉字字体名称的汉字外的所有汉字;
在将汉字网页转换成汉语语音码全拼及简拼表示的网页时,原来网页中的英文、英文字母、阿拉伯数字、西文标点符号、移行号不需要转换,保留原样;
网页中作为文件名的汉字,为了能在纯西码也可以称为纯ASCII码的计算机系统中显示和运行,需要将网页中作为文件名的汉字转换成汉语语音码,被转换后的原用汉字作为文件名的文件要复制并储存在合适的位置,比如指定服务器或本地机中的指定文件夹中,以确保计算机系统能够找到这个被转换成汉语语音码名称的文件;
对于汉字字体名称的汉字,当西码也即ASCII码系统里不存在该汉字字体名称时,计算机可以将该汉字字体名称自动换成预先设定并储存在计算机中的较为相近的西文字体名称,或计算机预先设定的默认的西文字体名称;
当网页中的汉语语音码需要转换成汉字或汉语拼音时,通过调用预先储存在计算机系统汉字汉语拼音与汉语语音码双向转换模块的转换,得到相应的汉字或汉语拼音,并用这些汉字或汉语拼音在原来网页中的汉语语音码的位置替换掉被转换了的汉语语音码;
当网页中的汉语语音码或标点符号移行号需要转换成语音时,可以分别采用查预先储存在计算机系统中的汉语语音码语音合成和识别模块输出相应的汉语、汉语特定人、中国方言、少数民族语言和标点符号的语音;
当网页中以英文为主的外文需要转换成语音时,可以采用现有以英文为主的外文语音合成模块,将会在网页中显示出来的以英文为主的外文朗读出来;
当需要将网页中的汉语语音码表示的汉语信息转换成以英文为主的外文,或者网页中的英文为主的外文需要转换成汉语语音码全拼及简拼表示的汉语信息时,可以调用预先储存在计算机中的汉语语音码汉语与外文双向转换模块,在被转换的语音码的网页中的位置,将汉语语音码表示的汉语信息转换成以英文为主的外文,或者在被转换的以英文为主的外文的网页中的位置,将网页中英文为主的外文转换成汉语语音码全拼或简拼表示的汉语信息;
对采用以上方法搜索到的所有网页,可以根据需要将原网页中的全部或部分内容以及超联接的路径或文件,改成指定的内容以及指定的超联接的路径或文件;
当我们获得的网页不是通过搜索引擎,而是通过其它方式比如各种网页浏览器来获得的时,所得到的用汉字、汉语拼音、汉语语音码或外文表示信息的网页,可以通过上述各种模块的转换再输出成系统预先设定的信息种类的网页,该信息种类可以是但不限于汉字、汉语拼音、汉语语音码全拼及简拼、外文、汉语特定人语音、中国方言语音、少数民族语言语音、汉语语音或外语语音。
10.如权利要求1所述的计算机或嵌入式计算机系统汉语语音码汉语全息信息处理方法,其进一步特征在于:汉语语音码的全拼或简拼可以作为单位组织或个人的标识,该标识包括但不限于作为产品或服务的商标的标识及组织机构代码,该商标的标识及组织机构代码可以进行合法注册,可以印在各种实物上,也可以但不限于作为手机短信网址和手机移动商街及计算机或嵌入式计算机系统的关键字符或关键词输入到手机或计算机或嵌入式计算机系统的各种搜索引擎和浏览器地址栏中,以便找到与该标识或代码相关联的网页或网站,与作为单位组织或个人的标识或产品或服务的商标的标识及组织机构代码的汉语语音码相对应的各种有线和无线网络域名或网址,可以通过调用汉语语音码域名转换和网页登陆模块得到,这样就可以将手机汉语语音码的短信网址和手机移动商街汉语语音码关键词及计算机或嵌入式计算机系统的汉语语音码关键词及由汉语语音码的关键词的词干组成的网络域名与单位组织或个人的标识或产品或服务的商标的标识及组织机构代码相统一起来。

说明书全文

汉语语音码全拼和简拼汉语全息信息处理方法

一、所属技术领域

[0001] 本发明申请的技术是一种计算机或嵌入式计算机系统汉语语音码全拼和简拼汉语全息信息处理方法,该信息处理的方法属于计算机汉字汉语信息处理技术领域。它用且仅用26个拉丁字母以词为单位对汉语信息进行全息处理,能够与ASCCII码100%兼容。该信息处理的方法包括但不限于汉语全息信息用能够识别西文的书写笔书写输入、标准西文键盘键入、多样信息输入、印刷、打印、储存、显示、通讯、信息传输、语音识别、语音合成、汉语智能分词、机器翻译、信息搜索、各种计算机文件格式和网页信息表示及显示、与各种网络合法域名前后缀组成网络域名用于登陆相应网站、汉字汉语编程、商标的标识等方法,它是建立在使用世界通用的计算机或嵌入式计算机系统基础上的方法,以下将计算机或嵌入式计算机系统简称为计算机或计算机系统,该汉语全息信息处理方法所采用的汉语语音码有全拼和简拼两种拼写法。二、背景技术
[0002] 二十世纪四十年代起,计算机的飞速发展在全球范围内引起了一场以电子计算机为中心的第三次技术革命,它把人类从繁重的脑劳动中解放出来,开创了人类智力解放的新纪元。
[0003] 众所周知,计算机主要是通过处理128个ASCII码符号的方法来进行字符信息处理的,由于26个拉丁字母在ASCII码符集内,因此,使用以英文为代表的,以26个拉丁字母为码元的拼音文字的国家能够顺利地进行这次新技术革命,从飞跃发展的经济中得到好处。在第一次世界大战之前世界上只有60个国家用26个拉丁字母来拼写表达本国的语言信息,而第二次世界大战后使用26个字母来拼写表达本国语言信息的国家已经达到了120个,其实这也反映了我们这个星球上的大多数国家在这个问题上的价值取向。
[0004] 由于我国长期来一直未能发明出用且仅用26个字母全息拼写表达汉语信息的技术,因此与世界极大多数国家不同,我国记录汉语语言信息仍然使用的是方表意汉字,它不是一种拼音文字,这就给计算机的汉语和汉字信息处理带来很大的麻烦。尽管1958年中国中央人民政府颁布了《汉语拼音方案》作为表达汉语信息另一种辅助手段,但是由于受到当时历史条件的局限,从现代计算机对信息处理技术的要求来看,《汉语拼音方案》本身还存在以下几个方面的不足:第一拼式太长,第二五个声调没有字母化且不在ASCII码的范围内,第三汉语单词音节的声、韵、调没有便于计算机信息处理的从左到右的一维线性排列,而是上下排列,第四如果没有非字母化的汉语拼音隔音节符号的隔音节帮助,汉语拼音在以词为单位连写时,音节和音节之间往往容易发生混淆,产生混音现象。所有这些都不便于计算机对汉语信息的处理。一个便于计算机对汉语信息进行处理的汉语音节的语音码的理想状况是:第一每一个汉语音节必须含有声韵调全部信息,第二任意多的音节被连写在一起后,音节与音节之间不能发生混淆,产生混音现象。第三整个语音码必须采用26个拉丁字母从左到右一维线性排列,这样一方面能与ASCII码100%兼容,另一方面便于计算机信息处理;第四整个语音码必须方便地与汉语拼音、汉语语音和以词为单位的汉字的转换;第五该语音码本身不需要被转换成汉字或汉语拼音或汉语语音就能够方便地直接表达汉语信息,能够非常容易地被人们拼读成汉语标准语音,从而根据这汉语标准语音理解出它所要表达的汉语信息的意义。
[0005] 为此,众多专家,学者在这方面进行了研究和探索,但是由于汉语是一种有声调的非常特别的语言,要想用且仅用26个拉丁字母,就能够对包含汉语的22个声母(含一个零声母),38个韵母,5个声调(包含一个轻声)进行编码,而且为了让任意多的音节被连写在一起后,音节与音节之间不能发生混淆,产生混音现象,每一个音节里还必须隐含一个字母化的隔音节符号,这样就使得该技术方案的难度非常大,这也可能是长期以来这个问题一直没有人有效解决的根本原因,据了解,目前只有历史上的中国的文字改革方案中和目前的微软拼音里用阿拉伯数字表示汉语音节的声调,表示汉语语音音节时采用“声母全拼+韵母全拼+数字表示的声调”的方式,这样做是比目前的汉语拼音声调写在韵母上面有进步,解决了上面提到的《汉语拼音方案》本身还存在以下几个方面的不足中的其中一个不足,即汉语单词音节的声、韵、调没有便于计算机信息处理的从左到右的一维线性排列,但上面提到的《汉语拼音方案》本身还存在以下其它几个方面的主要不足还是未能解决,从汉语信息的编码技术度看,其实质是未能发明出用且仅用26个码元,特别是用且仅用26个拉丁字母作为码元对包含汉语的22个声母(含一个零声母),38个韵母,5个声调(含一个轻声)进行编码的技术,更不要说发明出由于仅用26个拉丁字母作为码元,汉语按词连写后的音节和音节之间的隔音节技术,并用该技术组成的语音码来进行各种汉语信息的计算机汉语信息处理。三、发明内容
[0006] 本发明的目的是为了通过提供一种全新的根据汉语语音特点,用且仅用26个拉丁字母对组成每一个汉语单词音节的声母、介母、韵母、声调进行科学合理的编码,在汉语语音码全拼时以词为单位的汉语语音码每一个音节依次按“汉语拼音相同的声母+汉语拼音相同的介母+汉语拼音相同的韵母+调码兼隔音节符号”的顺序编码,在汉语语音码简拼时汉语单词的每一个音节按照“声码+介码+韵码+调码兼隔音节符号”的顺序,以按词连写的方式进行书写笔书写输入、标准西文键盘键入、多样信息输入、印刷、打印、储存、显示、通讯、信息传输、语音识别、语音合成、汉语智能分词、机器翻译、信息搜索、各种计算机文件格式和网页信息表示及显示、与各种网络合法域名前后缀组成网络域名用于登陆相应网站、汉字汉语编程、商标的标识等,从而达到用它来直接处理汉语信息,以克服以上不足的目的。
[0007] 众所周知:汉语是通过语言中最小的有意义的能够自由运用的单位——汉语单词来进行信息表达和传递的,汉语单词由若干个音节组成(一般一个音节对应一个汉字,因此我们可以将单独运用的一个汉字看作为一个单音节词,以上以下均同),不管每一个音节有多复杂,它都是由声、韵、调三个部份组成。本发明采用世界上通用的26个拉丁字母,按同音同形法则对《汉语拼音方案》中的全部声母、介母、韵母、声调进行上述编码,并以一定的顺序书写、标准西文键盘键入、印刷、打印、储存、显示、通讯、传输,再按照汉语的组词规律将任意多个音节以词为单位,音节与音节之间不用空格连续书写、标准西文键盘键入、印刷、打印、储存、显示、通讯、传输就完成了汉语单词的书写、标准西文键盘键入、印刷、打印、储存、显示、通讯、传输,以这些书写、标准西文键盘键入、印刷、打印、储存、显示、通讯、传输的汉语单词(包括单音节词汉字)为基础就可以进行上述各种方法的计算机汉语信息处理了。
[0008] 例如:我们利用本发明的方法分别表示以下汉语单词:
[0009]
[0010] 将以上单词按照所要表达汉语意思的语序以单词为单位,词与词之间用空格隔开依次书写、标准西文键盘键入、印刷、打印、储存、显示、通讯、传输就可以表达一句汉语句子,该汉语句子可以有以下四种表达方式:
[0011] 1、直接用本发明方法的全拼汉语语音码所表达的汉语信息:
[0012] Wovmeno huiu shivyongu hanuyyv laadingawenv.
[0013] 2、直接用本发明方法的简拼汉语语音码所表达的汉语信息:
[0014] Wovmno huiu xrvydu hcuyyv laadqawnv.
[0015] 3、用《汉拼》表达的汉语信息:
[0016] Wǒmen huì shǐyòng hàn yǔ lādīngwěn。
[0017] 4、用汉字表达的汉语信息:
[0018] 我们 会 使用 汉语 拉丁文。
[0019] 同理我们可以用同样的方法书写、标准西文键盘键入、印刷、打印、储存、显示、通讯、传输所有的汉语单词,以这些单词为基础,我们就可以书写、标准西文键盘键入、印刷、打印、储存、显示、通讯、传输任何我们想要处理的汉语信息。通过以上四种用不同方式表达的汉语同一句子,我们还可以看到:
[0020] 由于本发明的编码与《汉语拼音方案》具有一一对应关系(详见下面编码与汉拼对照表),又由于《汉语拼音方案》可以脱离汉字直接用来表达汉语信息,同理根据本发明的方法书写、标准西文键盘键入、印刷、打印、储存、显示、通讯、传输的汉语单词也可以脱离汉字直接用来表达汉语信息,又由于《汉语拼音方案》所表达的以词为单位的汉语信息结合前后语义与以词为单位的相对应汉字基本上具有一一对应关系,根据递推规律用本发明书写、标准西文键盘键入、印刷、打印、储存、显示、通讯、传输的以词为单位的汉语单词与相对应的以词为单位的汉字也具有这种一一对应关系,同时在用本发明方法书写、标准西文键盘键入、印刷、打印、储存、显示、通讯、传输的汉语单词码直接表达汉语信息时,其标点符号的用法和意义采用同英文相一致的方法,这样用本发明方法书写、标准西文键盘键入、印刷、打印、储存、显示、通讯、传输显示、通讯、传输的汉语单词码就可以脱离汉字直接以与ASCII码100%兼容的西码状态(26个拉丁字母状态)表达汉字汉语信息,同时也就决定了它可以仅在需要时转换成相对应的汉字或汉语拼音或汉语语音。这也就表明了,用本发明方法书写、标准西文键盘键入、印刷、打印、储存、显示、通讯、传输的汉语单词码具有全息可逆的特点。由于与汉字或汉语拼音不同,本发明方法所采用的语音码与ASCII码100%兼容,因此,所有西文软硬件资源不加改造就能用来处理用本发明方法的语音码所表达的汉语信息,这些也就是与当今所有其它各类汉语信息表达方式相比本发明取得显著技术进步的地方。
[0021] 本发明具有简单易学的特点,能广泛应用于计算机汉语、汉字信息处理,为汉语阅读机、口授机、外文翻译机的诞生奠定了基础,同时由于采用26个字母进行编码,因此世界上一切能处理26个字母的信息处理机都能处理利用本发明的汉语语音码所表达的汉语信息。通过在实践中的不断完善和普及,用本发明方法书写、标准西文键盘键入、印刷、打印、储存、显示、通讯、传输等信息方法处理的汉语单词码,还可以发展成为一种汉语的拼音文字,可以象用英文处理英语信息一样方便地处理汉语信息。四、具体实施方式
[0022] 下面结合实施例对本发明的具体实施方式作进一步的说明。
[0023] (一)汉语每一音节声、韵、调的编码方法:
[0024] 汉语语音码简拼时所采用的汉语语音码的每一音节声、韵、调的编码方法采用以下的方法:
[0025] 注:括号内的符号均为汉语拼音符号,不带括号的字母为所采用的汉语每一音节声、韵、调的编码,以上以下将下列声、韵、调的对照编码表简称为码表
[0026] (1).用于表示汉语信息的语音码的声母全部采用一个拉丁字母表示,例如采用如下的辅音拉丁字母表示声码的编码:
[0027] b:(b) p:(p) m:(m) f:(f) d:(d) t:(t)
[0028] n:(n) l:(l) g:(g) k:(k) h:(h)
[0029] j:(zh),(j) q:(ch),(q) x:(sh),(x) r:(r)
[0030] z:(z) c:(c) s:(s) y:(y) w:(w)
[0031] (2).用于表示汉语信息的语音码用26个字母中的一个拉丁字母来表示介母,例如用y来表示原来汉语拼音单韵母和介母中的(ü),其余单韵母和介母的编码采用与汉语拼音单韵母和介母相同的符号,比如采用如下介母的编码:
[0032] i:(i) u:(u) y:(ü)
[0033] (3).用于表示汉语信息的语音码除了部分带有介母的复合韵母外,其余的复合韵母的韵码在简拼时用一个拉丁字母来表示,比如用一个辅音字母表示,例如在汉语语音码简拼时采用如下的韵码的编码:
[0034] a:(a) o:(o) e:(e) i:(i) u:(u) y:(ü)
[0035] z:(ao) t:(ai) c:(an) s:(ou) w:(ei) n:(en)
[0036] k:(ua) l:(uo) g:(ang) d:(ong) b:(eng) q:(ing)
[0037] p:(ng)
[0038] er:(er)(无声母韵母)(er用西文键盘键入时分别键入E和R两个键)
[0039] r:(i)[只与(zh)、(ch)、(sh)相拼]
[0040] (4).用于表示汉语信息的语音码其调码可以用五个拉丁字母表示,也可以用5个阿拉伯数字表示,例如采用如下四个拉丁字母和一个汉语不用的字母v表示调码的编码:
[0041] a:(-)阴平 e:(/)阳平 v:(∨)上声 u:(\)去声 o:(不标)轻声
[0042] 又例如采用如下5个阿拉伯数字表示调码的编码:
[0043] 1:(-)阴平 2:(/)阳平 3:(∨)上声 4:(\)去声 5:(不标)轻声
[0044] (二)利用上述编码的汉语信息全息表示采用如下的方法:
[0045] 以单词为单位,这里将单个汉字看作单音节词,根据组成该单词的每个音节的《汉语拼音方案》中的拼音,在汉语语音码全拼时除了ü的表示可以采用一个拉丁字母比如y表示外,声母表示和介母表示以及韵母表示均与汉语拼音方案相同,与汉语拼音方案所不同的是调码采用一个拉丁字母或阿拉伯数字表示,且该调码兼隔音节符号,即汉语语音码每一个音节依次按“汉语拼音相同的声母+汉语拼音相同的介母+汉语拼音相同的韵母+调码兼隔音节符号”的顺序编码,在汉语语音码简拼时依次按“声码+介码+韵码+调码兼隔音节符号”的顺序编码,无论是全拼和简拼,同一个单词的多个音节不用空格隔开连写,单词与单词之间的编码用空格隔开,组成单词时,单词的每一个音节既可以全部用全拼或简拼音节组成,也可以将组成词的任意一个音节根据需要采用全拼或简拼混合搭配组成,也即在组成单词的多个音节中有的音节可以是简拼,有的音节可以是全拼,以下以上将汉语语音码全拼和简拼统称为汉语语音码或语音码;
[0046] 汉语语音码全拼或简拼可以单独也可以与汉字、汉语拼音、外文、少数民族文字以及全拼或简拼进行对照印刷、打印、储存、显示、通讯、信息传输等;
[0047] 当汉语信息处于全拼或简拼语音码状态时,其标点符号的用法同英文的标点符号的用法相同;
[0048] 这里由于将独立运用的汉字看作单音节词,因此,本发明方法的汉字语音码的书写、标准西文键盘键入、印刷、打印、储存、显示、通讯、传输方法和汉语单词的方法相同,我们将由若干个单词组成的一组词称为词组,本发明的词组的表示方法同汉语句子表示方法相同。一般整句整篇以词为单位表示汉语信息时,理解时一般不需要进行同音字词的选择,原则上听起来不会产生歧义的句子,书写、标准西文键盘键入、印刷、打印、储存、显示、通讯、传输后也不会产生歧义。
[0049] 下面例举一些用本发明方法表示的汉语单词码和相对应的以词为单位的汉字及用《汉语拼音方案》表达的相对应的汉语拼音。(带括号的是《汉拼》不带括号的是用本发明方法表示的汉语单词码和相应的汉字)。
[0050]
[0051] 将这些单词词与词之间用空格隔开,单词与单词之间依汉语语序连续书写、标准西文键盘键入、印刷、打印、储存、显示、通讯、传输就可以表示一个汉语词组或汉语句子信息,由于词组的表示方式和汉语句子的表示的方式相同,这里就不再累述,仅以书写、标准西文键盘键入、印刷、打印、储存、显示、通讯、传输的一句汉语句子信息为例:
[0052] wovmno huiu xrvydu laadqawnv.(汉语语音码简拼表示的汉语信息)
[0053] 我们 会 使用 拉丁文。(用汉字表示的汉语信息)
[0054] wǒmen huì shǐyòng lādīngwěn。(用汉语拼音表示的汉语信息)
[0055] wovmeno huiu shivyongu laadingawenv.(用汉语语音码全拼表示的汉语信息)[0056] 依次类推用上述方法可以对所有的任意多音节的汉语单词信息进行书写、标准西文键盘键入、印刷、打印、储存、显示、通讯、传输等信息处理,以这些汉语单词为基础就可以表示任何汉语信息,从而方便进行各种汉字、汉语信息处理。由于汉语语音码的全拼和简拼之间可以方便地进行双向转换,为叙述简单明了起见,在下面的举例中一般用简拼汉语语音码为例,其实只要对简拼汉语语音码能成立的步骤和方法对全拼汉语语音码也同样成立,这里特别声明一下。
[0057] (三)汉语智能分词采用以下步骤和方法:
[0058] (1)汉语智能分词采用一种主要基于与英语语法的词法句法及其构词法基本相一致的新型汉语语法分析基础上的计算机或嵌入式可移动设备的汉字文本和与《汉语拼音方案》具有一一对应关系的汉语拼音文本的分词方法,其所用的新型汉语语法主要特点是词法方面将汉语的词类分成:名词、代词、数量词、副词、形容词、动词、介词、连词、语气词和象声词;句法方面将汉语的句子成份划为:主语、谓语、宾语、表语、同位语、定语、状语、补语;将句子的复句分为并列复句和主从复句;主从复句又可以分为:主语从句、宾语从句、表语从句、同位语从句、定语从句、状语从句;将汉语动词时态分为:过去时、现在时、现在将来时、过去将来时;汉语动词体式分为:一般式、进行式、完成式、完成进行式;建立汉语动词被动语态和谓语动词的虚拟语气;汉语的构词法方面主要通过在词根基础上加前缀、中缀、后缀、前后缀的方法以及词根与词根复合的方法来构词;
[0059] 将汉语的非单个汉字或音节的专用名词、代词、数量词、部分副词、介词、连词、语气词和象声词、表征并列复句和各个从句的特征词、动词各种时体系统、被动语态、虚拟语气的特征词、构词法的前后缀分类列入一级词库,将主要表征汉语成语的四字词、单音词、形容词、动词、未列入一级词库的其它名词和副词分类列入二级词库,将汉语的构词法的前缀、中缀、后缀、词根分类列入三级词库;
[0060] 在分词时总是要利用句子或字符串的断点,从断点左右两侧开始对需要切分的汉字或音节进行匹配切分,对所有已经匹配成功的词要加空格隔开并在后台作匹配完成标识,等全部完成切词后再撤消该标识回到原来的字体格式;
[0061] 所利用断点形成的位置主要包括但不限于:句子的起首、句子的结尾、各种标点符号、各种表示数量和序号的阿拉伯数字、各种特种符号、原来汉字或音节中含有的空格、上一级词库分词以后所形成的断点;
[0062] 分词时第一步先用一级词库里的词和前后缀,对需要分词的整个文本中的汉字或音节进行扫描,把经扫描匹配成功的汉字或音节看作一个需要切分的词进行切分,前后缀匹配成功后,以前后缀为界将包括前后缀在内的所有字符当作一个词切分,有不止一种匹配结果时以产生最少孤立汉字或音节的匹配结果为准;
[0063] 一级词库分完后,从断点的左右两侧依次分别取四个、两个、三个以及一个没有匹配成功的汉字或音节,然后与二级词库里的词进行匹配,如果所取的汉字或音节匹配成功,并且对同一处理对象从断点的左右两侧进行正向和逆向匹配的结果相同,就认为这是一个成功的匹配结果,如果匹配的结果不相同,产生最少孤立汉字或音节的匹配结果被认为是成功的匹配;
[0064] 二级词库分完词后,在进一步分词时,首先对照三级词库对未匹配成功的汉字或音节进行前缀、后缀、中缀和词根的匹配判断,如果是前缀的话,向后吸收一个孤立汉字或音节构成一个词并作切分,如果后面是两个匹配好的汉字或音节,则与匹配好的这两个汉字或音节结合,按三字词切分;如果是后缀的话,向前吸收一个孤立汉字或音节构成一个词并作切分,如果前面是两个匹配好的汉字或音节,则与匹配好的这两个汉字或音节结合,按三字词切分;如果是中缀的话则吸收前面和后面各一个字或音节组成一个词,如果吸收后导致前面或后面出现一个孤立的没有匹配的汉字或音节时,则要将这个汉字或音节吸收进这个中缀组成的词,一般组成的词的汉字或音节数不超过四个,如果是词根的话,根据它前面能加字或音节,还是后面能加字或音节,还是前后都能加字或音节的情况,分别采用前缀、后缀、中缀的切词方法进行切词,以上方法所切分到的词,当在同一篇文档中的不同句子中累计出现次数不少于两次时,系统自动将该词存入二级词库;
[0065] 当用以上三个词库切分完后,句子中仍然出现未匹配成功的汉字或音节串,或者虽然匹配成功但属于三个以上连续孤立的汉字或音节串时,把它们合并在一起组成一个词来切分,以上方法所切分到的词,当在同一篇文档中的不同句子中累计出现次数不少于两次时,系统会根据设定自动或经人工确认后将其存入一级词库;
[0066] 对最后的分词结果和检查规则还可以进行人工干预修改,对人工干预形成的新词根据词的特点经人工确认后分类存入一级词库或二级词库,各级词库里的词还可以进行人工增删,且词库里的词按高频优先分类排列在前的原则排列,当达到一定值时,经人工确认系统可以将二级词库里的词分类提升到一级词库,一级词库里的词分类下降到二级词库,以上以下将该智能分词步骤称为分词模块;
[0067] 由于本发明例所用的汉语语音码的声调具有隔音节作用,这样即使将组成句子的语音码的任意多的音节连写在一起也不会发生音节与音节之间的相互混淆,借助于声调的隔音节作用,我们仍旧可以将一个一个汉语语音的音节准确区分出来,比如对上面的汉语语音码的句子按一个一个音节进行区分,我们可以得到:
[0068] “wov mno huiu xrv ydu hsu yyv laa dqa wnv.”
[0069] 用上面同样的分词方法,我们可以将“wovmnohuiuxrvyduhcuyyvlaadqawnv.”语音码串分词切分成简拼汉语语音码为:
[0070] “wovmno huiu xrvydu hcuyyv laadqawnv.”
[0071] 相应的完成分词切分的《汉语拼音方案》中的汉语拼音文本为:
[0072] “Wǒmen huì shǐyòng hànyǔlādīngwěn。”
[0073] 相应的完成分词切分的汉语汉字文本为:
[0074] “我们 会 使用 汉语 拉丁文。”
[0075] 相应的完成分词切分的全拼汉语语音码为:
[0076] “wovmeno huiu shivyongu hanuyyv laadingawenv.”
[0077] 依次类推,这样我们就可以完成所有汉字文本和与《汉语拼音方案》中的汉语拼音具有一一对应关系的语音码在内的音节清楚没有发生混音的各种汉语拼音文本的分词切分。
[0078] 下面结合实施例对本发明的具体实施方式作进一步的说明。
[0079] 本发明例的一级词库的特征词可以吸收如下的特征词,比如:
[0080] 用来代替人或事物的名称的代词,例如:我们、你们、他们、她们、它们等等;
[0081] 构成自身代词的词,例如:自己、本人、等等;
[0082] 指代事物的词,例如:这个、那个,这种、那种、这些、那些等等;
[0083] 指代性状的词,例如:这么、那么(指代副词)、这样、那样、等等;
[0084] 指代时间的词,例如:这时、那时、等等;
[0085] 指代地点的词,例如:这儿、那儿、这里、那里等等;
[0086] 汉语里的疑问代词,例如:什么、什么样、哪个、哪些等等;
[0087] 汉语中的不定代词,例如:一些、某些、有的、有些、有人、一切、所有、任何、其它、许多、各种、各个、每个、每种、等等;
[0088] 汉语时体系统的词,例如:已经……了、正在……着、曾经……过、一直……着等等;
[0089] 这里需要说明的是对于类似“已经……了”这样的形式表示的词串,在匹配时是成对匹配的,也就是说,找到了前面的“已经”不管中间隔了多少字符,要找到“了”才算这个词串匹配成功,并按两个词“已经”和“了”单独标识和切分,这点在本文中均同,不再累述。
[0090] 构成被动语态常用句型的词,例如:是……由等等;
[0091] 构成汉语谓语动词的虚拟语气的词,例如:如果……了……早就……了、如果……过……早就……了、如果……了……就……、万一……了……就……等等;
[0092] 汉语的联系动词,例如:算作、等于、显得、变得等等;
[0093] 由“感官动词+起来”构成的联系动词,例如:看起来、看上去、听起来、听上去等等;
[0094] 表示具有某种能力的汉语情态动词,例如:能够、可以等等;
[0095] 表示可能性、猜测性、怀疑、不肯定等语气的词,例如:可能、或许、也许、会等等;
[0096] 表示允许语气的的词,例如:可以等等;
[0097] 表示客观的需要的的词,例如:必须、不得不、应该、应当、需要等等;
[0098] 表示愿意、决心、保证、敢不敢等心理状态的常用情态动词,例如:愿意、决心、一定等等;
[0099] 表示时态的汉语助动词,例如:正在、已经、曾经等等;
[0100] 表示否定的词,例如:没有等等;
[0101] 表示肯定语气的词,例如:的确、确实等等;
[0102] 汉语的表示时间的副词,例如:立刻、上、顿时、然后、然后、终于、从来等等;
[0103] 汉语的表示的地点副词,例如:到处、随处、随地、遍地等等;
[0104] 汉语的表示的程度副词,例如:稍微、尤其、更加、非常、等等;
[0105] 汉语的表示的性状副词,例如:也许、简直、偏偏、特地、蓦地、乐于、便于等等;
[0106] 表示副词比较级的词,例如:比……更(或比较)等等;
[0107] 表示副词最高级的词,例如:在……中……最……,最最等等;
[0108] 表示时间、处所、方向的介词。比如:自从、朝着、当……时候等等;
[0109] 表示对象的介词,例如:对于等等;
[0110] 表示目的、手段、方式的介词,例如:为了、为着、以便、按照、根据、本着、等等;
[0111] 表示排除的介词,例如:除了、除掉、除开等等
[0112] 表示原因的介词,例如:由于、因为等等;
[0113] (下面所列的连词在复句中可以作为连接各个从句的关联词,所表示的从句之间的关系与该连词所表示的关系相同,由于是相同的一组词,相应的从句关联词下面不在累述)
[0114] 表示汉语并列关系的连词,例如:一方面……一方面、既……又、不是……而是等等;
[0115] 表示汉语顺接关系的连词,例如:然后、接着、于是等等;
[0116] 表示汉语递进关系的连词,例如:不但(不仅、不光、不只)……而且、甚至、尤其、不但……反而等等;
[0117] 表示汉语选择关系的连词,例如:或者……或者、不是……就是、要么……要么、与其……不如等等;
[0118] 表示汉语因果关系的连词,例如:因而、因此、所以、那么等等;
[0119] 表示汉语转折关系的连词,例如:但是、可是、不过、然而等等;
[0120] 表示汉语时间从属关系的连词,例如:正当……时、等到……(时)、直到……(时)、等到……以后、(直到)……以前、每当……(时)等等;
[0121] 表示汉语原因从属关系的连词,例如:因为……所以、由于……因此、既然……就等等;
[0122] 表示汉语目的从属关系的连词,例如:为了、以便、借以、以免、好让等等;
[0123] 表示汉语结果从属关系的连词,例如:以致、结果、导致等等;
[0124] 表示汉语假设从属关系的连词,例如:如果……就、假如……那么、即使……也、哪怕……也等等;
[0125] 表示汉语条件从属关系的连词,例如:只有……才、只要……就、除非……不、无论……都、不管……也(总)、无论……总等等;
[0126] 表示汉语让步从属关系的连词,例如:虽然……但是(可是、却、不过、然而)、尽管……可是等等;
[0127] 表示汉语方式从属关系的连词,例如:好似……一般、好象……一样、象……似的等等;
[0128] 表示汉语比较从属关系的连词,例如:胜过、不如、真如、和……一样,越……越等等;
[0129] 表示汉语地点从属关系的连词,例如:哪里……哪里等等;
[0130] 指特定的人、事物、地点或机构所专有的名称的专有名词,例如:毛泽东、上海、国务院等等;
[0131] 汉语用于表示分数的词,例如:……分之……等等;
[0132] 汉语用于表示小数的词,例如:零点零……等等;
[0133] 汉语表示概数的词,例如:“左右”等等;
[0134] 汉语中用于表示次序的序数词,例如:“第……号”等等;
[0135] 汉语中的复合量词,例如:架次、人次、千米、小时、千瓦小时等等;
[0136] 汉语感叹词,例如:哎呀、哎哟嘿嘿、哈哈、等等。一般后面跟有标点符号。
[0137] 汉语单纯拟声词,例如:嗷嗷、吧嗒、刺溜、咯吧、咯吱、咯咯、咕咚、咕嘟、咕隆、呱呱、呱嗒、哗啦、哗啦啦、扑通、扑腾、扑哧、叮当、叮铃、当啷、轰隆、霍霍、琅琅、潺潺淙淙、飒飒、瑟瑟、沙沙、呜呜、当当、翁嗡、哇哇、哇啦、咯嚓、哐啷、梆梆梆、咚咚咚、哼儿哈儿、咿咿唔唔、咿咿呀呀、噼噼啪啪、唧唧喳喳,等等。一般后面跟“的″地”“一声”等词。
[0138] 表示陈述语气的语气词,例如:着呢、嘛、罢了、而已、也罢等等。后面一般有逗号“,”或句号“。”
[0139] 表示汉语形容词比较级词,例如:更……的、比较……的、……一点、……一些、比……更……一些等等;
[0140] 最高级:最……的……之一、……极了等等;
[0141] 表示相同:和……一样……等等;
[0142] 表示倍数:比……高……倍、比……多……倍、比……好……倍等等;
[0143] 表示一方程度比另一方高时:比……更……一些(一点)、比……更……一点等等;
[0144] 当不需要或不必说出比较对象时,采用的比较级形容词,例如:比较……等等;
[0145] 前后缀:例如:可……性、易……性、等等;
[0146] 汉语中引起倒装的常用介词,例如:连……都、连……也、对于……、把……等等;
[0147] 强调宾语把词型的句子的介词,例如:把……给等等;
[0148] 将主要表征汉语成语的四字词、所有的单音词、形容词、动词、未列入一级词库的其它名词和副词分类列入二级词库,这些词具有常用、固定但量大的特点。比如:伟大、光荣、工作、打猎、看见、学生、老师、非常、的、地、得、在、年、月、日、一、二、1、2等等,除去已经列入一级词库的词,整个最新《汉语大词典》中的词都可以存入该词库,同时对汉语形容词、数量词、动词等的活用形式的组词规律在二级词库中要予以标识并将能列出的活用词形尽可能列出,以提高二级词库分词的准确性。比如:
[0149] 形容活用:“A+于”转化为“A+于”形式的副词,A代表形容词意义的单音节词比如:“勇、乐+于”分别形成:“勇于”和“乐于”两个副词等等;也就是说遇到这类词的匹配,“于”相当于一个后缀,当前面有一个形容词意义的单音节未匹配词,就可以将其吸纳和“于”构成为一个词。
[0150] 形容词意义的单音节A重叠可以转化为AA形式的副词。比如:“快的”(形容词)、“白的”(形容词)分别转换成“快快地”(副词)、“白白地”(副词)。
[0151] 此外汉语形容词与切词有关的还有重叠式活用形式。重叠式主要有AA、ABB、AABB、等几种形式。
[0152] 其中AA式用于单音形容词的重叠,他们重叠后表示程度加深,比如:长的、高的、白的、胖的,重叠后分别变成:长长的、高高的、白白的、胖胖的。其中第二个音节念阴平。经过AA式重叠后汉语形容词的形容程度都较原来程度深一些。
[0153] ABB式重叠比如:亮堂、明晃;重叠后分别变成:亮堂堂、明晃晃。
[0154] AABB式重叠比如:干净、甜蜜、恩爱;重叠后分别变成:干干净净、甜甜蜜蜜、恩恩爱爱。经过以上各式重叠后汉语形容词的形容程度都较原来程度加深一些。
[0155] 数量词活用:汉语数量词和量词可以重叠使用,重叠后的数量词具有“每一″许多”之意。比如量词AA式重叠:样样、条条、遍遍、趟趟等等;再比如数量词ABB式重叠:一群群、一个个、一排排等等。
[0156] 动词的活用:单音节动词转化成副词的词,例如:“A着A着”、“A啊A啊”A表示单音节动词如:“哭”哭着哭着、哭啊哭啊。
[0157] 起加重语气作用重叠式动词ABB式,比如:“帮忙”变成“帮帮忙”。
[0158] 也就是说上面相当一部分活用形是AA式、ABB式、AABB式,利用这些规律如果遇到“AA”式、“ABB”式、“AABB”式的词可以切分成“AA”、“ABB”、“AABB”形式的词。如果遇到“A着A着”、“A啊A啊”形式的也可以将“A着A着”、“A啊A啊”分别切成一个词,其实上面的活用形还有ABAB式,对于这种形式还是按AB形式切分成两个词,所以从分词角度来说对活用形ABAB式在这里不作进一步的讨论。
[0159] 将汉语的构词法的前缀、中缀、后缀、词根列入三级词库。这类前缀、中缀、后缀组词能力强,一般前面词库分词无效后,采用该词库里的“词缀”和“词根”进行分词判别。比如前缀:小……、老……、阿……,比如后缀:……者、……子、……儿,比如中缀:……不……、……里……、……七八……、……三……四,一般中缀构成成语。比如词根“机”和“街”,可以分别组成:机床、趁机、飞机场、街道、当街、丁字街等等,一般词根既可以放在前面构成词,也可以放在后面构成词,除了构成四字词的成语外,词根最多构成的是两字词少数是三字词,五字词基本没有这里我们可以不考虑。三级词库中共收录了中国人民大学语言文字研究所1984年3月出版的《常用构词字典》中所列的近4000个可以作为词根的汉字。随着语言的发展,根据需要也可以增加没有被列入三级词库的词根。
[0160] 运用上面的词库和方法分词如下:
[0161] 原句:
[0162] 我已经告诉你们了,古兰丹牡是公主坟王爷的宝贝女儿,如果你们不赶紧把古兰丹牡寻找回来,我就找你们算账!找到以后赶紧向王爷他本人报告。
[0163] 运用一级词库分词结果:
[0164]
[0165] 运用二级词库分词结果:
[0166]
[0167] (假设“赶紧”没有列入二级词库)
[0168] 运用三级词库分词结果:
[0169](从三级词库中找到“赶”是一个词根,它后面有一个未匹配成功的孤立字“紧”,于是“赶”与后面的“紧”组成一个“赶紧”两字词。又由于“赶紧”在同一文本不同的句子中至少出现了两次,因此、分词系统自动将“赶紧”保存到二级词库,下次在二级词库分词时就直接将其匹配成功并切分)
[0170] 运用分词检查规则检查后的分词结果:
[0171]
[0172] (“古兰丹牡”是一个连续孤立未匹配成功的汉字,根据检查规则将其作为一个汉字串合并成一个词进行切分,由于这串连续孤立未匹配成功的字符,在同一文本不同的句子中至少出现了两次,因此、分词系统自动将“古兰丹牡”保存到一级词库,下次在一级词库分词时就可以直接将其匹配成功并切分)
[0173] 最后进行人工干预后的分词结果:
[0174]
[0175] (由于“公主坟”是一个地名,因此不能切分成“公主 坟”,经过人工干预成为一个专有名词,系统会检测到这个人工干预的结果,根据这个词的性质属于专用名词经人工确认后系统会自动将其存入一级词库,下次在一级词库分词时就直接将其匹配成功并切分。)[0176] 全部切分完后系统消除句子中的匹配成功的标识,字体还原到正常格式:
[0177] 我 已经 告诉 你们 了,古兰丹牡 是 公主坟 王爷 的 宝贝 女儿,如果 你们 不 赶紧 把 古兰丹牡 寻找 回来,我 就 找 你们 算账!找到 以后 赶紧 向 王爷 他 本人 报告。
[0178] 这样就得到了我们所需要的分词结果。
[0179] 经过上面的句子切分过程的实践,我们再来对下面的句子进行切分:
[0180] 原句:
[0181] 经过他们的艰苦努力寻找,终于在1936年4月8日下午5点左右,他们在新疆乌鲁木齐找到了古兰丹牡,于是赶紧派人到公主坟向王爷报告。
[0182] 运用一级词库分词结果:
[0183]
[0184] (“古兰丹牡”和“公主坟”由于在上次切分后被存入一级词库,这次在一级词库就切分成功)
[0185] 运用二级词库分词结果:
[0186]
[0187] (由于“赶紧”在上次切分后被存入二级词库,这次在二级词库就切分成功,有阿拉伯数字的地方系统不会将其与汉字字符合并)
[0188] 所有的切分出来的词都已经作了标识在这里比如是字体倾斜,表明在二级词库分词阶段系统就完成了匹配分词过程,比上一次减少了分词步骤,证明本方法具有自动完善分词方法的功能。
[0189] 全部切分完后系统消除句子中的匹配成功的标识,字体还原到正常格式,我们得到最后的分词结果为:
[0190] 经过 他们 的 艰苦 努力 寻找,终于 在 1936年4月8日 下午5点 左右,他们 在 新疆 乌鲁木齐 找到 了 古兰丹牡,于是 赶紧 派人 到 公主坟 向 王爷 报告。
[0191] 依次类推,通过不断丰富和根据频度调整各级词库的单词以及完善分词结果检查规则,再经过实践中的不断磨合,分词系统会越来越人性化智能化地进行分词。
[0192] 由于《汉语拼音方案》中的汉语拼音与以词为单位的汉字具有对应关系,因此在该汉语拼音文本中的汉语拼音音节本身标注清楚没有产生混音的情况下,上面对汉字文本分词切分的方法同样适用于对《汉语拼音方案》中的汉语拼音文本的分词切分,所要增加的工作主要是对应各级词库的汉字组成的词或词缀加上相应的《汉语拼音方案》中的汉语拼音便可。比如:
[0193] 用汉字表达的原句为:“我们会使用汉语拉丁文。”
[0194] 相应的《汉语拼音方案》中的汉语拼音文本为:
[0195] “Wǒmenhuìshǐyònghànyǔlādīngwěn。”
[0196] 用上述分词方法我们可以将汉字原句分词切分成:“我们 会 使用 汉语 拉丁文。”
[0197] 用同样的方法我们可以将上述汉语拼音文本原句分词切分成:
[0198] “Wǒmen huì shǐyòng hànyǔ lādīngwěn。”
[0199] 同理对与《汉语拼音方案》中的汉语拼音具有一一对应关系的任何文本比如全拼和简拼的汉语语音码,只要满足在分词切分前,该汉语拼音文本中的汉语拼音音节本身标注清楚没有产生混音,我们就能用上面的方法对该具有对应关系的汉语拼音文本进行分词切分,所要增加的工作是对应各级词库的汉字组成的词或词缀加上相应的与《汉语拼音方案》中的汉语拼音具有一一对应关系的编码便可。比如对上述句子对应的全拼汉语语音码和简拼的汉语语音码的按词切分,这里不再累述。
[0200] (四)汉字或汉语拼音转换成汉语语音码及汉语语音码全拼与简拼之间的双向转化采用以下步骤和方法:
[0201] 在汉字或汉语拼音转换成汉语语音码时,汉字先转换成汉语拼音,遇异音同形字时将可能的汉语拼音全部列出,汉语拼音则无须先转换,然后再根据码表先转换成相应的汉语音节语音码串,然后在调用预先储存在计算机系统中的分词模块再进行按词切分;
[0202] 对已经分过词的汉字和汉语拼音转换成汉语语音码后则不必再进行单词切分,仍以原来的单词为单位进行转换;
[0203] 当汉语语音码需要转换成汉语拼音时,既可以采用查预先储存在计算机系统中的码表,也可以查通过该码表生成的以音节或词为单位的汉语语音码与以音节或词为单位的汉语拼音对照表,匹配后输出相应的汉语拼音;
[0204] 当汉语语音码需要转换成汉字时,既可以先转换成以词为单位的汉语拼音再转换成以词为单位的汉字,也可以直接采用查预先储存在计算机系统中的语音码与以词为单位的汉字对照表、匹配后输出相应的汉字;
[0205] 遇同音词时,先依据汉语词法句法上下文联系及统计规律等手段进行判别,判别后再进行以词为单位的汉字选定
[0206] 当需要将全拼的汉语语音码转换成简拼的汉语语音码时,通过查预先存储在计算机中的码表,将全拼的汉语语音码的声母、介母、韵母换成简拼的汉语语音码的声码、介码和韵码,调码保持不变,或调码用阿拉伯数字或一个拉丁字母表示;
[0207] 反之当需要将简拼的汉语语音码转换成全拼的汉语语音码时,通过查预先存储在计算机中的码表,将简拼的汉语语音码的声码、介码和韵码换成全拼的与汉语拼音相同的汉语语音码的声母、介母、韵母,调码则保持不变,或用阿拉伯数字或一个拉丁字母表示;
[0208] 当需要仅将汉语语音码的调码进行阿拉伯数字表示的调码和拉丁字母表示的调码之间进行双向转换时,根据码表将阿拉伯数字表示的调码转换成拉丁字母表示的调码或根据码表将拉丁字母表示的调码转换成阿拉伯数字表示的调码便可,其它全拼汉语语音码的声母、介母、韵母和简拼汉语语音码的声码、介码和韵码则保持不变;
[0209] 在汉语语音码转换成汉字和汉语拼音时,其标点符号也从与英文相同的状态转变为相应的中文标点符号状态,以上以下将该步骤的方法称为汉字汉语拼音与汉语语音码双向转换模块。
[0210] 下面例举一些用本发明方法对以词为单位的汉字汉语拼音进行双向转换时的例子:
[0211] 1、汉字和汉语拼音转换成汉语语音码:
[0212] (1)对汉字首先将汉字通过查表的方式转换成对应的汉语拼音:
[0213] 比如:我们会使用汉语拉丁文。转换成拼音后成为:
[0214] wǒmen huì shǐyòng hàn yǔ lā dīng wěn。
[0215] (2)对由汉字转换过来的或原有的汉语拼音则通过以上汉语拼音和语音码码表对照表将汉语拼音转换成如下汉语语音码串。
[0216] wov mno huiu xrv ydu hsu yyv laa dqa wnv.(音节和音节之间用空格隔开)[0217] 或wovmnohuiuxrvyduhcuyyvlaadqawnv.(音节和音节之间不用空格隔开)
[0218] (熟练后mno中的轻音符o在不引起混音时可以省略,以上以下均同。)
[0219] 为了让大家看清楚,这里将表示声调的字母加了下划线,语音码中的声调字母同时具隔音节作用,实际语音码中声调无下划线,熟练语音码后,声调兼隔音节符能够方便区分出来。
[0220] (3)将语音码串进行分词切割,最终完成语音码转换。
[0221] 通过查找预先分好词的汉语语音码单词词库,将同一个单词的多个音节连写,词与词之间用空格隔开便得到以下我们最终需要的汉语语音码:
[0222] wovmno huiu xrvydu hcuyyv laadqawnv.
[0223] 2、汉语语音码转换成汉字和汉语拼音:
[0224] 通过分别查找汉语语音码与以词为单位的汉字和汉语拼音对照表可以方便地将汉语语音码转换成汉字和汉语拼音,比如:
[0225] wovmno通过查声码、介码、韵码、调码和汉语拼音对照表或根据该对照表生成的汉语语音码音节或单词和拼音音节或单词对照表得到wǒmen,再通过wǒmen查找到以词为单位的汉字,当以单词为单位的语音码通过以单词为单位的汉语拼音与以单词为单位的汉字建立对应关系后,一且需要以单词为单位的语音码可以不再需要通过以单词为单位的汉语拼音,直接与以单词为单位的汉字建立对应关系并实行相应的转换。比如:wovmno可以转换为wǒmen,再通过wǒmen可以转换成“我们”,这样wovmno和“我们”便直接建立了对应关系,需要时可以不通过汉语拼音wǒmen进行转换,而直接在wovmno和“我们”之间实现双向可逆转换。
[0226] 遇同音词时,可以依据汉语词法句法上下文联系及统计规律等手段进行判别后进行以词为单位的汉字选定。比如:ysvlune上装满了邮包。ysvlune上装满了原油。结合上下文的联系可以知道:前面一句中的“ysvlune”代表邮轮,后面一句中的“ysvlune”代表油轮,这两句话分别会转换成“邮轮上装满了邮包”和“油轮上装满了原油”。对其它单词情况也依次类推。
[0227] 上述双向可逆转换的结果既可以单独显示也可以对照显示,比如:
[0228] 原句:“我们会使用汉语拉丁文。”用本发明方法计算机可以可逆地转换为以下几种形式:
[0229]
[0230] 等等。
[0231] 为了让外国人或中国少数民族更方面地了解汉语的含义和学习汉语,也可以在每个对照的单词中插入相应的外语单词或少数民族文字,比如在下面的单词中加入相应的英语单词作中文意思的注解:
[0232] “wovmno Wǒmen huiu huìxrvydu shǐyòng hcuyyv hànyǔlaadqawnv lādīngwěn。”[0233] 我们 We 会 can 使用 use 汉语 Chinese 拉丁文Latine。
[0234] 依次类推,用上述方法,可以对所有的任意多音节的以词为单位的汉字汉语拼音与汉语语音码之间进行双向可逆转换,并根据需要单独或对照显示,以这些汉语单词为基础,就可以实现任何以词为单位的汉字和汉语拼音与全拼和简拼汉语语音码之间的双向可逆转换,从而方便进行各种汉字、汉语信息处理。
[0235] 对简拼汉语语音码“wovmno huiu xrvydu hcuyyv laadqawnv.”通过查码表可以转换成下列几种全拼形式:
[0236] 1.wovmeno huiu shivyongu hanuyyv laadingawenv.声调字母化全拼
[0237] 2.wo3men5 hui4 shi3yong4 han4yy3 la1ding1wen3.声调数字化全拼
[0238] 3.wovmeno huiu shivydu hanuyyv laadqawenv.声调字母化混拼
[0239] 等等。
[0240] (五)汉语语音码与汉语语音双向转换的步骤和方法:
[0241] 1.汉语语音码转换成汉语语音的步骤和方法:
[0242] 当汉语语音码转换成汉语语音时,可以分别采用查汉语语音码中的汉语音节与汉语音节语音合成文件对照表、以词为单位的汉语语音码与汉语单词语音合成文件对照表,还可以通过最大匹配法,采用查以最大语段为单位的汉语语音码串和汉语语段语音合成文件对照表输出相应的汉语语音,当将上述汉语语音码或汉语语音码串所分别对应的音节、单词或语段的语音合成文件分别换成汉语特定人、中国方言、少数民族语言的语音合成文件时,通过查汉语语音码或汉语语音码串与相应音节、单词或语段的语音合成文件对照表,可以分别输出相应的汉语特定人、中国方言、少数民族语言的语音,当合成外语语音时,要进行查以词、词组或短语为单位的汉语语音码和相应外语单词、外语词组或外语短语语音合成文件对照表输出相应的外语单词、外语词组或外语短语的语音,对需要输入汉语每一个音节的声母、介母、韵母和声调信息才能进行汉语语音合成的系统,可以根据码表将汉语语音码转换成汉语拼音声母、介母、韵母和声调的信息后,再输入到汉语语音合成系统中进行汉语语音合成,当对汉语语音码文章中的标点符号和移行号进行语音合成时,我们只要将相应的预先储存在计算机中的汉语的六种点号七种标号和一个移行号的声音文件提取出来,用声音播放软件进行播放便可。
[0243] 当输入的是用汉字或汉语拼音表达的汉语信息时,汉字或汉语拼音可以通过预先储存在计算机系统中的汉字汉语拼音与汉语语音码双向转换模块,先转换成全拼或简拼汉语语音码再进行上述汉语、汉语特定人、中国方言、少数民族语言、外语单词、外语词组或外语短语的语音转换,以上以下将该步骤方法称为语音码语音合成模块,
[0244] 下面例举一些用本发明方法将汉语语音码转换成语音的例子:
[0245] 比如:wovmno huiu xrvydu hcuyyv laadqawnv.
[0246] 它是汉语语音码所表达的汉语信息,其意义用汉字表达为:
[0247] “我们会使用汉语拉丁文。”
[0248] (1)通过查汉语语音码和音节汉语语音合成文件对照表进行语音合成的方法:
[0249] 查汉语语音码和音节汉语语音合成文件对照表后得到与语音码对应的汉语语音的声音文件(为表述方便该声音文件用“相对应的音节汉语拼音.wav”表示,实际情况中是没有汉语拼音符号的,它只是预先储存在计算机中,可以通过一定的声音播放软件播放的表示相应音节汉语语音的声音文件)
[0250] wov(wǒ.wav) mno(men.wav) huiu(huì.wav) xrv(shǐ.wav) ydu(yòng.wav) hsu(hàn.wav)yyv(yǔ.wav) laa(lā.wav)dqa(dīng.wav)wnv(wěn.wav).
[0251] 对查找到的代表该音节汉语语音的相应的声音文件用声音播放软件依次顺序播出,词与词之间采用比同一单词音节之间更长的时间间隔来依次连续播出,这样会听起来更接近按词朗读的效果,更符合人们听语音的习惯。
[0252] (2)通过查汉语单词语音码和单词汉语语音合成文件对照表进行语音合成的方法:
[0253] 查汉语单词语音码和单词语音合成文件对照表后得到预先储存在计算机中的与单词语音码对应的以单词为单位的汉语语音的声音文件(为表述方便该以单词为单位的汉语声音文件用“相对应的以单词为单位的汉语拼音.wav”表示,实际情况是没有汉语拼音符号的,它只是预先储存在计算机中,可以通过一定的声音播放软件播放的表示相应以单词为单位的汉语语音的声音文件)
[0254] wovmno(wǒmen.wav)huiu(huì.wav)xrvydu(shǐyòng.wav)hcuyyv(hànyǔ.wav)laadqawnv(lādīngwěn.wav).
[0255] 对查找到的以单词为单位代表该汉语语音的相应的声音文件用声音播放软件依次顺序播出,词与词之间采用比同一单词音节之间更长的时间间隔来依次连续播出,这样会听起来更接近按词朗读的效果,更符合人们听语音的习惯。
[0256] (3)通过查汉语语音码串和最大匹配语段汉语语音合成文件对照表进行语音合成的方法:
[0257] 该方法采用最大匹配法,通过查以最大语段为单位的汉语语音码串和语段汉语语音合成文件对照表输出相应的汉语语音。比如通过查预先储存在计算机中的最大语段为:“wovmno huiu xrvydu我们会使用”和“hcuyyv laadqawnv汉语拉丁文”那么汉语语音合成按下面的方式进行:
[0258] wovmno huiu xrvydu(wǒmen huì shǐyòng.wav)hcuyyv laadqawnv(hànyǔ lādīngwěn.wav).
[0259] (为表述方便上述该以语段为单位的汉语声音文件用“相对应的以该语段为单位的汉语拼音.wav”表示,实际情况是没有汉语拼音符号的,它只是预先储存在计算机中,可以通过一定的声音播放软件播放的表示相应以该语段为单位的汉语语音的声音文件)[0260] 依次类推,上述三种情况中如果语音码对应的音节、单词、语段的汉语语音合成文件分别换成汉语特定人、中国方言、少数民族语言的语音合成文件时,则计算机合成出来的就分别是汉语特定人、中国方言、少数民族语言的语音。
[0261] 一般来说,由于外语的音节的声音与汉语音节的声音不能建立某种对应关系,外语的句子的语序与汉语句子的语序也不同,只有汉语单词、词组或短语和外语单词、词组或短语之间可以建立某种对应关系,因此汉语语音码与外语语音的合成只能在单词、词组或短语之间进行,而不能在音节和音节或句子和句子之间进行。比如:单词“wovmno我们”可以合成英语单词(we.wav)的声音,词组或短语hcuyyv laadqawnv合成英语词组或短语(Chinese Latin.wav)的声音,(这里we.wav和Chinese Latin.wav分别代表预先储存在计算机中的英语we和Chinese Latin的声音文件,可以通过声音播放软件播放),如果某种中国方言或少数民族语言出现上述与外语同样的情况,我们也采取与外语同样的方法只进行单词、词组或短语与短语之间的语音合成。
[0262] 对有些需要模仿人类发音时口型变化的机器人等语音合成系统,它在汉语语音合成时往往需要知道汉语每一个音节的声母、介母、韵母、声调信息才能进行汉语语音合成,由于本发明所采用的汉语语音码含有汉语每一个音节的声母、介母、韵母、声调信息,因此可以根据上面的汉语语音码与汉语拼音声母、介母、韵母、声调编码对照表,将汉语语音码转换成汉语拼音声母、介母、韵母、声调的信息后,再输入到机器人汉语语音合成系统中进行汉语语音合成便可。比如对汉语语音码“wovmno”,查上面汉语语音码与汉语拼音声母、介母、韵母、声调编码对照表可以知道:w代表汉语拼音的声母(w),o代表汉语拼音的韵母(o),v代表汉语拼音的第三声声调(v),m代表汉语拼音的声母(m),n代表汉语拼音的韵母(en),o代表汉语拼音的轻声(不标)。
[0263] 同理,用上述方法,我们可以将所有的任意多音节的汉语语音码转换成汉语拼音的声母、介母、韵母、声调信息,输入到所需要的类似上面机器人的汉语语音合成系统中便可满足系统的要求,达到我们所需要的目的。
[0264] 有时为了校对文章的方便,我们需要将汉语语音码文章中的标点符号和移行号朗读出来,这就要对汉语语音码文章中的标点符号和移行号进行语音合成,为了使得汉语语音码所表达的汉语信息与ASCII码100%兼容,这里我们特别规定汉语语音码文章中的标点符号和移行号分别与英文的标点符号和移行号相同,在具体语音合成时我们只要将相应的预先储存在计算机中的标点符号和移行号的声音文件提取出来,用声音播放软件进行播放便可,比如:
[0265] 六 种 点 号:句 号“.”(jùhào.wav)、问 号“?”(wènhào.wav)、感 叹 号“!”(gǎntànhào.wav)、逗号“,”(dòuhào.wav)、冒号“:”(màohào.wav)、分号“;”(fēnhào.wav)。
[0266] 七种标号:引号“”(yǐnhào.wav)、括号()(kuòhào.wav)、破折号“-”(pòzhéhào.wav)、省 略 号 …(shěngluèhào.wav)、着 重 号 .(zhuózhònghào.wav)、书 名 号 (())(shūmínghào.wav)、间隔号.(jiàngéhào.wav)。
[0267] 一个移行号:移行号“-”(yíhánghào.wav)。
[0268] 上面列出了本发明所采用的与英语相同的六种点号、七种标号和一个移行号,括号中的“.wav”文件就是与标点符号或移行号发音相应的语音合成文件,当该语音合成文件是汉语的语音合成文件时,则该标点符号或移行号朗读出来的声音便是汉语相应的标点符号或移行号的声音,当该语音合成文件分别是汉语特定人、中国方言、少数民族语言的语音合成文件时,则该标点符号或移行号朗读出来的声音便分别是汉语特定人、中国方言、少数民族语言的相应的标点符号或移行号的声音。
[0269] 当输入的是用汉字或汉语拼音表达的汉语信息时,汉字或汉语拼音可以通过汉字汉语拼音与汉语语音码双向转换模块先转换成汉语语音码后再进行上述外语单词、词组或短语、汉语、汉语特定人、中国方言、少数民族语言等的语音转换。
[0270] 2.汉语语音转换成汉语语音码的步骤和方法:
[0271] 在汉语语音转换成汉语语音码时,汉语语音识别系统可以依次分别将汉语语段、汉语单词、汉语音节作为识别的基元,通过查找预先储存在计算机中的汉语语段语音模板和汉语语段语音码对照表、汉语单词语音模板和汉语单词语音码对照表、汉语音节语音模板和汉语语音音节码对照表,匹配后识别出相应的汉语语段语音码、汉语单词语音码、汉语音节语音码,语音连续输入时便依次分别得到连续的汉语语段语音码串、汉语单词语音码串、汉语音节语音码串,对上述得到汉语音节语音码串通过预先储存在计算机系统中的分词模块进行按词切分,对已经分过词的汉语单词语音码串和汉语语段语音码串则不必再进行单词切分,对切分出的单词采取同一单词的音节与音节之间连写,词与词之间空格的方式表示,当汉语语音码需要进一步转换成汉字或汉语拼音时,通过预先储存在计算机系统中的汉字汉语拼音与汉语语音码双向转换模块转换输出相应的汉字或汉语拼音,对于汉语语音是带某种方言口音的汉语或某一种中国的方言,只要这种中国的方言的音节或单词或语段分别与汉语音节或单词或语段具有某种对应关系,我们通过以上相类似的方法即:通过查找预先储存在计算机中的带某种方言口音的汉语的汉语音节或单词或语段的语音模板与汉语音节或单词或语段语音码对照表,以及具有某种对应关系的方言音节或单词或语段的语音模板和汉语语音音节码或单词或语段对照表,匹配后识别出相应的汉语音节或单词或语段语音码串,就可以实现对该带某种方言口音的汉语或方言的汉语语音码识别,实现该带某种方言口音的汉语或方言与汉语语音码的转换,以上以下将该步骤方法称为汉语语音码语音识别模块;
[0272] 下面例举一些用本发明方法对汉语语音进行语音码转换的例子:
[0273] 比如:我们用汉语语音朗读“我们会使用汉语拉丁文。”
[0274] (1)通过查找预先储存在计算机中的汉语音节语音模板和汉语语音音节码对照表,匹配后识别出相应的汉语音节语音码串:
[0275] wov mno huiu xrv ydu hsu yyv laa dqa wnv.(音节与音节之间有空格)
[0276] 或wovmnohuiuxrvyduhcuyyvlaadqawnv.(音节与音节之间无空格)
[0277] (熟练后mno中的轻音符o在不引起混音时可以省略,以上以下均同。)
[0278] 为了让大家看清楚这里将表示声调的字母加了下划线,语音码中的声调字母同时具隔音节作用,实际语音码中声调无下划线,熟练语音码后声调兼隔音节符能够方便区分出来。
[0279] 这样便完成了一个系统的复杂性与系统的词库规模性无关的纯语音识别过程。
[0280] 如果汉语语音是带某种方言口音的汉语或是某一种中国的方言,只要这种中国的方言的音节与汉语音节具有某种对应关系,我们通过以上相类似的方法即:通过查找预先储存在计算机中的带某种方言口音的汉语或与汉语音节具有某种对应关系的方言音节的语音模板和汉语语音音节码对照表,匹配后识别出相应的汉语音节语音码串,就可以实现对该带某种方言口音的汉语或方言的汉语语音码识别,实现该带某种方言口音的汉语或方言与汉语语音码的转换。
[0281] (2)将语音码串进行单词切分,最终完成以词为单位的语音码转换。
[0282] 通过查找预先分好词的汉语语音码单词词库,将同一个单词的多个音节连写,词与词之间用空格隔开便得到以下我们最终需要的汉语语音码:
[0283] wovmno huiu xrvydu hcuyyv laadqawnv.
[0284] 为了得到传统的语音识别结果,我们还可以进行如下的转换,这里需要强调的是该过程与语音识别系统没有必然的联系,该标准转换模块可以脱离语音识别系统独立运行。
[0285] 汉语语音码转换成汉字和汉语拼音时只要通过汉字汉语拼音与汉语语音码双向转换模块的转换就可以实现汉语语音码转换成汉字和汉语拼音:
[0286] 比如,我们可以得到“wovmno huiu xrvydu hcuyyv laadqawnv.”
[0287] 经该模块转换的拼音和汉字组成的下列句子:
[0288] “Wǒmen huì shǐyòng hànyǔ lādīngwěn。”
[0289] “我们会使用汉语拉丁文。”
[0290] 上述识别的结果既可以单独显示也可以对照显示,比如:
[0291] 原句:“我们会使用汉语拉丁文。”可以转换为以下几种形式:
[0292]
[0293]
[0294] 为了让外国人或中国少数民族更方面地了解汉语的含义和学习汉语,也可以在每个对照的单词中插入相应的外语单词或少数民族文字,比如在下面的单词中加入相应的英语单词作中文意思的注解:
[0295] “wovmno Wǒmen huiu huìxrvydu shīyòng hcuyyv hànyǔ laadqawnv lādīngwěn。”[0296] 我们 We 会 can 使用 use 汉语 Chinese 拉丁文Latine。
[0297] 依次类推,用上述方法同样可以进行语段和单词为单位的语音识别,并可以将任意多音节的汉语语音识别成汉语语音码,并根据需要进一步转换成汉字或汉语拼音,汉语语音码、汉字或汉语拼音可以单独显示也可以对照显示,以这些汉语单词为基础,就可以实现任何汉语语音信息的识别,从而方便进行各种汉语语音信息处理。
[0298] (六)汉语与外语的双向机器翻译的步骤和方法
[0299] 所采用的汉语与外语的双向机器翻译的方法,是在建立源语言目标语言基本相一致的词法句法基础上,通过汉语与外语双向句型转换,来实现汉语与外语的双向机器翻译,这里的机器翻译所用的机器是指世界通用的计算机或嵌入式计算机系统,以下简称为计算机或计算机系统,这里的词法就是关于词类的定义和划分以及研究单词、词形的变化及其用法,句法就是是关于句子成分的定义和划分以及研究句子种类、句子结构及其内部形式,句型就是句子内部各个单词、词组、短语、从句的词性或相当词性及其在句子中所担当成分的排列顺序及其形式,翻译前首先运用人工的方法建立同一种语言句子的词性串与句型的对应关系,然后再在建立汉语与需要翻译的外语基本相一致的词法系统和句法系统基础上,建立所需要翻译的两种语言间的句型对照关系并储存在计算机中,翻译时机器先扫描源语言的句子,通过查预先储存在计算机中的源语言标注词性的词典得到源语言的句子的词性串,通过查预先储存在计算机中的源语言词性串与源语言句型的对应关系表,将源语言的句子的词性串转换成对应的源语言句型,再通过查预先储存在计算机中的源语言句型与目标语言句型对照表,将源语言句型转换成匹配的目标语言句型,最后通过查预先储存在计算机中的源语言与目标语言对照词典的方法,将源语言中的单词或词组翻译成目标语言的单词或词组,并按目标语言句型的顺序以词为单位排列输出,便得到我们所需要的目标语言语句;
[0300] 对源语言中的复句先进行语法分析将复句中的所有从句提取出来,通过层层提取直到最后将从句提成单句为止,再按上述翻译单句的方式进行机器翻译,复句部分则通过查预先储存在计算机中的源语言和目标语言句型对照表完成复句句型转换,并完成除从句的复句其它成分的翻译,最后将翻译好的从句放入转换后相应复句句型中的相应位置,如此循环往复一直到得到我们所需要的整个目标语言句子为止;
[0301] 当源语言是用汉字或汉语拼音或汉语语音表达的汉语时,通过预先储存在计算机中的汉字汉语拼音与汉语语音码双向转换模块、汉语语音码语音识别模块先将汉字或汉语拼音或汉语语音转换成汉语语音码再进行翻译,外语翻汉语时,翻译得到的用汉语语音码表示的目标语言或直接用于表达汉语信息,或必要时通过预先储存在计算机中的汉字汉语拼音与汉语语音码双向转换模块和汉语语音码语音合成模块转换成汉字或汉语拼音或汉语语音或汉语特定人或汉语方言以及少数民族语言语音输出;
[0302] 对于源语言中的文言文、诗词、成语、典故、俚语、缩略语等不便进行语法分析的内容,不进行词性查询和句型转换,在词性查询和句型转换前直接通过查找预先储存在机器中的一一对应的实例库匹配后输出;
[0303] 下面例举一些用本发明方法对汉语和英语进行双向翻译的例子:
[0304] 1.wovmno mwvtisa xrvydu laadqawnv.(汉语语音码表示的汉语信息)
[0305] 我们 每天 使用 拉丁文。(用汉字表示的汉语信息)
[0306] a)查标注单词词性的汉语词典建立单词词性串(句中括号内的部分是词性,以下均同)wovmno(人称代词1)+mwvtisa(时间名词1)+xrvydu(动词1)+laadqawnv(名词2).我们(人称代词1)+每天(时间名词1)+使用(动词1)+拉丁文(名词2)。
[0307] b)根据上面得到的句子词性串查表得到预先储存在表中的汉语句型:
[0308] (词性和该词所作的句子成分串组成句型,以下均同)wovmno(人称代词1作主语)+mwvtisa(时间名词1作时间状语)+xrvydu(动词1作谓语)+laadqawnv(名词2作宾语)
[0309] 我们(人称代词1作主语)+每天(时间名词1作时间状语)+使用(动词1作谓语)+拉丁文(名词2作宾语)
[0310] c)根据上面得到汉语句型的查表得到预先储存在表中的对应的英语句型:wovmno(人称代词1作主语)+xrvydu(动词1作谓语)+laadqawnv(名词2作宾
语)+mwvtisa(时间名词1作时间状语)
[0311] 我们(人称代词1作主语)+使用(动词1作谓语)+拉丁文(名词2作宾语)+每天(时间名词1作时间状语)
[0312] 此时查汉英词库进行单词或词组意思的转换并按此句型顺序输出便完成汉语翻译成英语的转换,为了表明此机器翻译过程的可双向性,我们再作下面进一步的变换:
[0313] d)根据上面得到英语句型查表得到预先储存在表中的与对应的英语单词或词组词性相一致的词性串:(该词性串也可从得到的目标语言句型中提取得到,以下均同)wovmno(人称代词1)+xrvydu(动词1)+laadqawnv(名词2)+mwvtisa(时间名词1).
[0314] 我们(人称代词1)+使用(动词1)+拉丁文(名词2)+每天(时间名词1)。
[0315] e)查汉英词库进行单词或词组意思的转换并按上面所得到的英语句型的顺序输出:
[0316] we(人称代词1) use(动词1) latin(名词2) every day(时间名词1).
[0317] we use latin every day.
[0318] 这样便完成了汉语翻译成英语的转换,同时我们还可以看到除了从a转换到e外,我们还可以用同样的方法从e回到a,此时英语被转换成了汉语,表明用本发明的方法可以实现机器翻译过程可双向性。
[0319] 同理我们可以采用上述对复句的翻译方法实现汉语对复句的双向翻译。
[0320] 当源语言是用汉字或汉语拼音或汉语语音表达的汉语时,通过预先储存在计算机中的汉字汉语拼音与汉语语音码双向转换模块、汉语语音码语音识别模块先将汉字或汉语拼音或汉语语音转换成汉语语音码再进行翻译,外语翻汉语时,翻译得到的用汉语语音码表示的目标语言或直接用于表达汉语信息,或必要时通过预先储存在计算机中的汉字汉语拼音与汉语语音码双向转换模块和汉语语音码语音合成模块转换成汉字或汉语拼音或汉语语音或汉语特定人或汉语方言以及少数民族语言语音输出;
[0321] 对于源语言中的文言文、诗词、成语、典故、俚语、缩略语等不便进行语法分析的内容,不进行词性查询和句型转换,在词性查询和句型转换前直接通过查找预先储存在机器中的一一对应的实例库匹配后输出;
[0322] 如果我们将任意源语言和目标语言的不便于语法分析内容的实例库、任意源语言和目标语言的标注词性的双向翻译词典、同一语言的句子词性串的表达式和句型表达式的对照关系表以及不同语言间的句型转换对照表加入系统中,并用相同的翻译程序运行它,我们就可以实现任意语言间的双向翻译,值得指出的是上述各种转换对照表尽量要建立在相同或相近的词法系统和句法系统基础上,这样源语言和目标语言的不同就仅仅表现为单词或词组及句型的不同,在机器翻译过程中需要转换的仅仅是单词或词组及句型,词法系统和句法系统由于相同或相近,因此一般不再需要转换。
[0323] 当将该翻译方法用到的与汉语对应的各个要素如汉语标注词性的词典、汉语人工建立的词性串与汉语句型对照表以及汉语与目标外语句型转换对照表换成另外一种外语翻译时相应用到的上述各个要素并预先储存在计算机中的时,上述翻译方法还能够扩展成一种外语翻译成另外一种外语的机器翻译方法,以上以下将该步骤的方法称为汉语语音码汉语外文双向翻译模块。
[0324] (七)汉语语音码域名转换和网页登陆步骤和方法
[0325] 所采用的登陆各种网站或电子邮箱的网址是各种含有全拼和简拼的汉语语音码的合法网址,网站既可以采用以全拼和简拼的汉语语音码为词干加各种合法网址的前后缀组成,电子邮箱采用全拼和简拼的汉语语音码为词干+@+各种电子邮箱的合法后缀组成,也可以将全拼和简拼的汉语语音码与各种合法网址的前后缀以及各种电子邮箱的合法后缀建立对应关系,全部用全拼或简拼的汉语语音码来向计算机或嵌入式计算机系统输入各种网址和电子邮箱地址,在汉语语音码以词组、句子形式组成网址或电子邮箱地址时,对应网络域名或电子邮箱地址的汉语语音码的词组或句子里的所有单词相互之间不空格,输入时既可以通过标准西文键盘输入,也可以通过西文手写识别、西文光学识别、西文字母语音识别和汉语语音码语音识别的方式输入,当向计算机或嵌入式计算机系统发出预先存入其中的与某网站的网址或电子邮箱地址相对应的语音时,计算机或嵌入式计算机系统会查找预先储存在计算机中与该语音相对应的网址或电子邮箱地址,并在浏览器地址栏中显示与该语音相对应的网址或电子邮箱地址,并打开相应的网页或网站或电子邮箱,浏览器可以预先人工打开,也可以在计算机或嵌入式计算机系统听到语音信号后根据预先对计算机系统的设定自动打开,网站打开后,计算机或嵌入式计算机系统可以继续识别后续的语音,经识别搜索后,打开该网站的相应网页或光标指向相应的网页内容,并根据预先的设定计算机或嵌入式计算机系统做进一步的后续处理,以上以上将该步骤的方法称作为汉语语音码域名转换和网页登陆模块;
[0326] (八)汉语语音码多样信息输入的步骤和方法:
[0327] 用于多样信息输入的汉语语音码既可以通过标准西文键盘输入,也可以通过西文手写识别、西文光学识别、西文字母语音识别和汉语语音码语音识别的方式输入,当向编码输入框中输入汉语语音码时,与该汉语语音码所表示的意义相一致的多样信息所包括的各对应项可以根据设定全部或部分先出现在候选输入框中,经选择确认后最终输入到所需输入的计算机或各种手持嵌入式可移动设备中,所输入的多样信息主要包括但不限于与所输入的汉语语音码意义相一致的以词、词组、句子为单位的汉字、传统《汉语拼音方案》中所使用的汉语拼音、汉语语音码全拼和简拼、与传统《汉语拼音方案》具有一一对应关系的其它各种汉语拼音、外文、中国少数民族文字以及与所输入的汉语语音码全拼和简拼相对应的各种有线和无线网络域名或网址,根据系统设定所输入的汉语语音码全拼和简拼相对应的各种有线和无线网络域名或网址可以根据对应的码表相互自动转换,当向编码输入框中输入汉语语音码时,如遇到声母、韵母、声调全部相同的汉语同音字词,则在候选输入框中分别用特定字符比如阿拉伯数字顺序全部列出这些同音字词及其与其意义相一致的外文、少数民族文字,经选择确认后最终输入到所需输入的计算机或各种手持嵌入式可移动设备中;
[0328] 与所输入的汉语语音码相对应的各种有线和无线网络域名或网址,可以直接通过各种合法的有线和无线网络域名或网址的前缀+所输入的汉语语音码+各种合法有线和无线网络域名或网址的后缀组成来得到,也可以通过调用汉语语音码域名转换和网页登陆模块转换来得到,在汉语语音码以词组、句子形式输入时,对应网络域名或网址中的汉语语音码的词组或句子里的所有单词相互之间不空格,当出现汉字的同音字词时,与所输入的汉语语音码相对应的各种有线和无线网络域名或网址不变;
[0329] 当向编码输入框中输入汉语语音码后,在候选输入框中显示的多样信息所包括的各对应项既可以在每一对应项前加特定字符如阿拉伯数字,通过键入该特定字符来进行单项对应项的输入显示,也可以将包括输入的汉语语音码在内的所有多样信息所包括的对应项仅用一个特定字符如阿拉伯数字来标识,通过键入该特定字符来进行所有多样信息所包括的各对应项的同时一次性对照输入显示;
[0330] 通过建立多样信息各对应项之间的对应关系,当向输入框中输入多样信息对应项中的任意一项时,多样信息所包括的其它各对应项就会以预先设定的格式在候选输入框中显示,经选择确认后最终以所设定的显示格式输入到所需输入的计算机或各种手持嵌入式可移动设备中。
[0331] 下面例举一些用本发明方法进行多样信息输入的例子:
[0332] 比如在编码输入框中输入汉语语音码“wovmno”根据选择符号的不同设置,候选框显示的方式可以采取以下两种不同的方式:(为了方便简洁地叙述清楚本发明例、,本发明例的外文以英文为例,对其它对应外文项和少数民族文字项分别用其它外文一、其它外文二和少数民族文字一、少数民族文字二等表示,实际应用时相应的位置要分别显示实际的其它外文和少数民族文字,比如其它外文一可以显示:日文、其它外文二可以显示:俄文,少数民族文字一可以显示:藏文、少数民族文字二可以显示:维吾尔文等,且外文和少数民族文字的种类和数量不限,此外与传统《汉语拼音方案》具有一一对应关系的各种汉语拼音本发明例中只列出汉语语音码,其它如台湾使用的汉语拼音注音符号以及用数字做调号的汉语拼音等未在本发明例中列出,各种有线和无线网络域名或网址也只列出了常用的PC互联网网址,对于其它未列出的部分可以根据实际需要用同样的方法进行候选显示和输入显示,以上以下均同)
[0333] (1)如果在每一个候选项前面加一个特定的选择符号比如阿拉伯数字,则此时候选框中显示与所输入的汉语语音码“wovmno”意义相一致的多样信息的对应项:1.我们 2.wǒmen 3.we 4.其它外文一 5.其它外文二 6.少数民族文字一 7.少数民族文字二8.http://www.wovmno.com,分别键入1、2、3、4、5、6、7、8就可以分别选中并输入汉字、拼音、英文、其它外文一、其它外文二、少数民族文字一、少数民族文字二和相应的网址。这样就可以方便选中输入任意一个候选对应项。
[0334] (2)如果采用包括所输入的汉语语音码在内的所有意义一致的多样信息的对应项仅用一个选择符号,比如用阿拉伯数字标识,则候选框中可以采用如下显示:1.我们 wǒmen wovmno we 其它外文一 其它外文二 少数民族文字一 少数民族文字二 http://www.wovmno.com,键入数字键“1”则“我们wǒmen wovmno we 其它外文一 其它外文二 少数民族文字一 少数民族文字二 http://www.wovmno.com”同时被对照输入显示在所需要输入的计算机或各种手持嵌入式可移动设备中,输入后的对照显示可以全部项或根据需要选择部分项左右横向对照显示,也可以全部项或根据需要选择部分项上下竖式对照显示。采用这种格式可以方便地将所有意义一致的对应项一次选中同时全部项或根据需要有选择地部分项对照输入显示。这里还需要强调的是,对应的各种有线和无线网络域名或网址本发明采用的是“各种有线和无线网络域名或网址前缀+所输入的汉语语音码+各种有线和无线网络域名或网址后缀”的编码方法,本发明例中的网址前缀是http://www.,本发明例中组成网址的所输入的汉语语音码就是“wovmno”,本发明例中的网址后缀是“.com”,实际应用时网络域名或网址前缀和后缀不限于这些,只要是各种有线和无线的互联网合法的域名或网址前缀和后缀便可,比如网址前缀还可以分别用:FTP://、GOPHER://、TELNET://、NWES://、http://wap.等等类型,比如网络域名或网址后缀还可以分别用:“.net″.org”“.cn”“.cc”“.tv″.mobi″.biz″.info″.com.cn”等等类型。
[0335] 在以汉语语音码作为输入码输入多样信息时,如遇到声母韵母声调同时都相同的用汉字表达的汉语同音词时,根据需要可以将汉语的同音词按以上两种格式中的任意一种在候选框中逐条依次顺号显示,显示时总是以汉字字符表示的汉语单词开始,表明后面的各个文种的对照项是与该汉字单词意义相一致的对照项,通过按每项前面的特定符号比如数字键或逐项输入或对照输入。比如:汉语语音码“yxvlune”声母韵母声调同时都相同的用汉字表达的汉语同音词有两个“油轮”和“邮轮”,输入汉语语音码“yxvlune”后,对于需要逐项输入的情况,在选择候选框中按如下方法显示:1油轮 2对应油轮的外文 3对应油轮的少数民族文字 4对应yxvlune的网络域名或网址 5邮轮 6对应邮轮的外文 7对应邮轮的少数民族文字,键入前面的数字就可以实现逐项输入。如果我们为了同时一次对照输入,在候选显示框中也可以采用如下方法显示:1油轮 对应油轮的外文 对应油轮的少数民族文字 对应yxvlune的网络域名或网址 2邮轮 对应邮轮的外文 对应邮轮的少数民族文字。键入前面的数字就可以实现各意义一致的对应项同时一次输入。以此类推,当对应的外文和对应的少数民族文字有更多种时,采用上述相同的方法顺号在相应的位置上全部列出,遇更多个同音词时仍然可以按照上面的方法,直至在候选显示框中顺号显示完所有的同音词及其与外文和少数民族文字的对应项。由于对应的yxvlune的网络域名或网址在不同的汉字同音字词中是相同的,因此在候选显示框中可以只出现一次。
[0336] 由于在本发明中将独立运用的汉字看作单音节词,因此,本发明所采用的对汉字的汉语语音码的编码方法和对汉语单词音节的汉语语音码的编码方法相同,在本发明中采用单词音节的汉语语音码的编码按词连写后得到单词的汉语语音码的编码,我们将由若干个单词组成的一组词称为词组,由于单词可以表示词组和汉语句子,因此在本发明中所采用的词组的汉语语音码的编码和汉语句子的汉语语音码的编码都可以通过单词的汉语语音码的编码实现,而不需要对词组和汉语句子另外制定一套专的的汉语语音码的编码。这样我们也就可以用与输入汉语语音码相同的方法实现词组与词组、句子与句子之间的多样信息的对照候选并逐项或对照输入。
[0337] (1)对照候选并逐项输入比如:在输入框中输入“wovmno huiu xrvydu hcuyyv laadqawnv.”则在候选显示框中显示:1我们会使用汉语拉丁文。2 Wǒmen huìshǐyòng hànyǔ lādīngwěn。3 We can use Chinese Latine。4相应的其它外文一组成的句子 5相应的其它外文二组成的句子 6相应的少数民族文字一组成的句子 7相应的少数民族文字二组成的句子 8.http://www.wovmnohuiuxrvyduhcuyyvlaadqawnv.com。分别键入1、2、3、4、5、6、7、8就可以分别选中并输入汉字、拼音、英文、相应的外文一组成的句子、相应的外文二组成的句子、相应的少数民族文字一组成的句子、相应的少数民族文字二组成的句子以及与所输入的语音码相对应的网址。,这里需要强调的是:在汉语语音码以词组、句子形式输入时,对应网络域名或网址中的汉语语音码的词组或句子里的单词之间不空格,连在一起组成一个字符串,并以这个字符串为关键词加各种网络域名或网址前后缀就构成了一个与所输入的汉语语音码相对应的网络域名或网址,之所以要这样做,是因为根据互联网域名或网址的规定,组成互联网域名或网址的关键词的字符串之间不能有空格,如果以后规定可以有空格,我们也可以按有空格的形式来组成与所输入的汉语语音码相对应的网络域名或网址,之所以可以这样做,这与本发明所用的汉语语音码的声调具有隔音节作用的特点有关,由于本发明所用的汉语语音码的声调具有隔音节作用,这样即使将任意多的音节连写在一起也不会发生音节与音节之间的相互混淆,仍旧可以将一个一个音节准确读出来,从而根据这些汉语音节的读音人们可以理解这串单词与单词连写在一起的汉语语音码所代表的意义,同理对汉语语音码词组也一样。这样的格式排列可以方便选中输入任意一个词组、句子或网址候选项。
[0338] (2)对照候选并对照输入比如:在输入框中输入“wovmno huiu xrvydu hcuyyv laadqawnv.”后,我们也可以让候选显示框按以下格式显示:1我们会使用汉语拉丁文。Wǒmen huì shǐyòng hànyǔ lādīngwěn。wovmno huiu xrvydu hcuyyv laadqawnv.We can use Chinese Latine.相应的其它外文一组成的句子相应的其它外文二组成的句子相应的少数民族文字一组成的句子相应的少数民族文字二组成的句子、http://www.wovmnohuiuxrvyduhcuyyvlaadqawnv.com。键入1后就可以选中并同时对照输入
汉字、拼音、英文、相应的其它外文一组成的句子、相应的其它外文二组成的句子、相应的少数民族文字一组成的句子、相应的少数民族文字二组成的句子、http://www.wovmnohuiuxrvyduhcuyyvlaadqawnv.com。对照输入显示除了按横向对照输入比如:我们会使用汉语拉丁文。Wǒmen huì shǐyòng hànyǔ lādīngwěn。wovmno huiu xrvydu hcuyyv laadqawnv.We can use Chinese Latine.相应的其它外文一组成的句子相应的其它外文二组成的句子相应的少数民族文字一组成的句子相应的少数民族文字二组成的句子、http://www.wovmnohuiuxrvyduhcuyyvlaadqawnv.com。也可以根据设定按全部或部分按上下竖式对照输入显示.比如根据选择部分按上下竖式对照输入显示:
[0339]
[0340] 这里我们用汉字、汉语语音码、传统《汉语拼音方案》所使用的汉语拼音及英文对照为例,用同样的方法,我们可以将上述英文句子换成相应的其它外文或少数民族文字的句子,就可以实现用其它语种的文字与汉字、传统《汉语拼音方案》所使用的汉语拼音以及汉语语音码组成的句子进行上下对照输入显示,这样就可以更方便地让外国人或中国少数民族了解汉语的含义和学习汉语。同时可以让全球不管会不会汉字和汉字输入法的人快速方便地输入汉字信息和让会汉语的人快速方便地输入外文和少数民族文字信息以及各种具有汉语意义的网址。
[0341] 上例中英文的句子语序与汉语的句子语序相同,因此英文的单词的对照次序与汉语单词的对照次序相同,当英文的句子语序与汉语的句子语序不相同时,英文的单词的对照次序与汉语单词的对照次序就会不相同,这时我们既可以不考虑各语种或文种的语法特点采用纯碎的单词与单词相对照输入显示,也可以采用考虑各语种或文种的语法特点采用整个词组与词组或整个句子与句子相对照输入显示。同理对其它外文和少数民族文字也一样。
[0342] 由于汉语语音码与传统《汉语拼音方案》中所使用的汉语拼音、与传统《汉语拼音方案》具有一一对应关系的各种汉语拼音、各种语种的外文单词、少数民族文字、以输入的汉语语音码为关键词组成的各种有线和无线网络域名或网址建立了对应关系,因此我们可以向输入框中输入上述多样信息中的任意一项对应项都可以反查到其它对应项,一方面起到同一个意义的多样信息互相查找作用,另一方面起到以我们熟悉的文字或字符作为输入码,通过选择与输入码或字符意义相一致的对应项,达到选择输入意义相一致的其它文字和对应域名或网址的目的。比如我们在输入框中输入多样信息中的任意一项对应项“we”,候选框中就会显示对应多样信息中的所有项:1.我们 2.wǒmen 3.wovmno.4.we 5.其它外文一 6.其它外文二 7.少数民族文字一 8.少数民族文字二 9.http://www.wovmno.com,分别键入1、2、3、4、5、6、7、8、9就可以分别选中并输入汉字、拼音、汉语语音码、英文、其它外文一、其它外文二、少数民族文字一、少数民族文字二和相应的网址。或者根据设定候选框显示:1.我们 wǒmen wovmno we 其它外文一 其它外文二 少数民族文字一 少数民族文字二 http://www.wovmno.com,键入数字键“1”则“我们 wǒmen wovmno we 其它外文一 其它外文二 少数民族文字一 少数民族文字二 http://www.wovmno.com”同时被横向或上下对照输入显示在所需要输入的计算机或各种手持嵌入式可移动设备中,同理对多样信息所包括的其它所有对应项,比如:其它外文和少数民族文字以及域名或网址等也同样可以用与以上相同的方式进行反向输入和查询。
[0343] 依次类推,用上述方法,可以对所有的任意多音节的以词、词组、句子为单位的汉字、传统《汉语拼音方案》所使用的汉语拼音、汉语语音码、与传统《汉语拼音方案》具有一一对应关系的其它各种汉语拼音、外文、少数民族文字、与汉语语音码相应的网络域名或网址之间进行可逆输入并对照输入显示,从而方便进行各种意义相一致的多样信息的可逆输入和处理。
[0344] (九)汉语语音码汉语编程步骤和方法
[0345] 在进行汉语编程时,首先将编程用的计算机语言关键词和语句及其组成语句的关键词,根据它们在汉语中的意义或功用翻译成用汉字和汉语拼音以及汉语语音码全拼及简拼关键词表达的汉语信息,并建立一一对应的关键词对照表预先储存在计算机中;
[0346] 任何计算机和可移动嵌入式计算机系统软件程序都是一个文本文件,在用汉语进行计算机和可移动嵌入式计算机系统软件编程时,可以用与编程用的关键词和语句及其组成语句的关键词一一对应的汉字关键词或汉语拼音关键词或汉语语音码全拼及简拼关键词进行编程,除计算机编程语言的关键词和语句及其组成语句的关键词要改用汉字关键词或汉语拼音关键词或汉语语音码全拼及简拼关键词进行编程外,其它原计算机程序语言的符号和各种编程规定及规则保持不变;
[0347] 在计算机系统是纯西码也即ASCII码系统时,除了关键词和语句及其组成语句的关键词的汉字或汉语拼音需要转换成汉语语音码关键词外,其它用汉字或汉语拼音表示的汉语信息也需要转换成汉语语音码;
[0348] 该作为源程序的文本文件在进行编译前,计算机先根据预先储存在计算机中的关键词对照表,将与英文关键词和语句及其组成语句的关键词一一对应的汉字或汉语拼音或汉语语音码全拼及简拼关键词批量转换成原来转换前相对应的编译系统能够编译的英文关键词和语句及其组成语句的关键词,转换完成后再按照对原来用英文编程的计算机软件程序的编译方式进行编译或解释,高级计算机语言先编译或解释成汇编程序,再由汇编程序汇编成机器码后交计算机执行,而汉语汇编语言程序转换成英文关键词汇编语言程序后,则直接汇编成机器码后交计算机执行;
[0349] 当需要阅读源程序代码时,计算机可以根据所用的计算机编程语言的关键词和语句及其组成语句的关键词与汉字或汉语拼音或汉语语音码关键词一一对应关系,根据预先的设定,计算机编程语言的关键词和语句及其组成语句的关键词能够分别以英文、汉字或汉语拼音或汉语语音码全拼及简拼的方式显示;
[0350] 其它非关键词和语句的编程内容和字符表达方式可以不变,也可以经过汉字汉语拼音与汉语语音码双向转换模块和汉语语音码汉语与外文双向翻译模块转换再输出成系统预先设定的信息种类的文本文件程序源代码,该信息种类可以是但不限于汉字、汉语拼音、汉语语音码全拼及简拼、外文;
[0351] 当英文汇编语言的助记符关键词与相对应的汉语语音码全拼及简拼关键词建立一一对应关系后,汉语语音码全拼及简拼关键词还可以与英文汇编语言的助记符关键词相对应的机器码建立一一对应关系,这样便形成汉语高级程序可以直接编译成汉语汇编语言程序,再由汉语汇编语言程序汇编成机器码后交计算机执行;
[0352] 进一步通过对计算机硬件电路进行改造,使计算机的硬件电路相对应的指令系统更适合汉语编程指令,这样便可以设计出更符合汉语特点和习惯的计算机指令系统,从而实现从汉语高级计算机语言到汉语低级计算机语言再到与汉语相适应的计算机机器语言即机器码的一脉相承的计算机汉语编程语言。
[0353] 比如,以计算机C语言为例:
[0354] 对下列计算机C语言的源代码:
[0355]
[0356] 源代码中带//的是注释行符号,以//开始的内容为程序的注释,它的作用是对程序进行注释,提高程序的可读性。在源代码被编译时,编译程序不对注释进行编译,注释被忽略。
[0357] 如果我们根据这些关键词的意义或功能分别将以上C语言的源代码中的关键词用汉字、汉语拼音、汉语语音码来表示,比如:include(包含、bāo hán、bkahse)(注括号外是英文程序语言关键词,括号内分别是该英文程序语言关键词对应的用汉字、汉语拼音、汉语语音码表示的关键词,以上以下均同),同理:stdio.h(输入输出头文件、shūrùshūchūtóuwénjiàn、xuaruuxuaquatxvwnejisu)、void( 空 值、kōngzhí、kdajre)、main(主函数、zhùhǎnshù、juvhsvxuu)、Printf(屏显、píngxiǎn、pqexisv),则以上C语言的源代码可以用汉字关键词来表示从而实现汉字或中文汉语编程:
[0358]
[0359] 以上C语言的源代码可以用汉语拼音关键词来表示从而实现汉语拼音汉语编程:
[0360]
[0361] 以上C语言的源代码还可以用汉语语音码关键词来表示,从而实现汉语语音码汉语编程:
[0362]
[0363] 用以上关键词对照表进行关键词替换,以上用汉字、汉语拼音和汉语语音码编写的计算机程序可以转换成用英文关键词编写的计算机源程序,比如:
[0364]
[0365] 而这个计算机源程序就是标准的计算机C语言的源代码,可以交由现有的计算机C语言编译程序编译成汇编语言程序,汇编语言程序再汇编成机器码后交由计算机运行。
[0366] 这里需要指出的是,由于汉语语音码和英文都是用26个拉丁字母组成,仅从字符角度来看汉语语音码和英文往往容易混淆,因此、计算机在将汉语语音码关键词翻译成对应的英文编程关键词时,先要进行必要的判断,如果26个字母组成的编程关键词和语句是英文则直接按现有传统方式进行计算机程序编译,如果判断出是汉语语音码则先进行转换成英文关键词后,再按传统方式进行计算机程序编译,汉语语音码具有一定的编写规则,比如,对汉语语音码简码来说,一般从一个单词最后一个字母从右往左数起不包含最后一个字母在内(该字母往往是“a”“e”“v”“u”“o”字母之一,是语音码音节的声调编码符号),每隔1至3字母便会出现“a”“e”“v”“u”“o”字母之一,比如:bkahse、xuaruuxuaquatxvwnejisu、kdajre、juvhsvxuu、pqexisv中有下划线的部分就是汉语语音码的调号,都呈现了上述特征,呈现这种特征的关键词一定是汉语语音码关键词,因此、在这种情况下一定要先转换成英文关键词后,再进行编译或解释。
[0367] 在系统是纯西码也即纯ASCII码系统时,由于汉字或汉语拼音在纯ASCII码系统不能正常显示,因此、在除了关键词和语句及其组成语句的关键词的汉字或汉语拼音需要转换成汉语语音码关键词外,其它非关键词的汉字或汉语拼音也需要转换成汉语语音码,转换完成后再交由计算机进行英文关键词的转换,并最后编译成机器码,并交计算机运行。
[0368] 具体可采用以下方法,比如,将上面的汉字关键词汉语拼音关键词编写的程序全部转换成汉语语音码关键词程序源代码,源代码中显示的汉字:“我们会使用汉语拉丁文。”也通过上述汉字汉语拼音与汉语语音码双向转换模块转换成汉语语音码,转换成后的上述程序源代码如下:
[0369]
[0370] 在计算机运行前,上述汉语语音码关键词写成的计算机C语言源程序通过汉语语音码关键词替换成英文关键词,得到下列用英文关键词编写的计算机C语言源程序:
[0371]
[0372] 此时,计算机屏幕从原来显示:我们会使用汉语拉丁文。变成显示:wovmno huiu xrvydu hcuyyv laadqawnv.
[0373] 当需要阅读源程序代码时,计算机可以根据所用的计算机编程语言的关键词和语句及其组成语句的关键词与汉字关键词或汉语拼音关键词或汉语语音码关键词一一对应关系,根据预先的设定,关键词和语句及其组成语句的关键词分别可以以英文、汉字或汉语拼音或汉语语音码的方式显示,其它非关键词的编程内容和字符表达方式可以不变,也可以经过汉字汉语拼音与汉语语音码双向转换模块和汉语语音码与外文双向翻译转换模块的转换再输出成系统预先设定的信息种类的文本文件程序源代码,该信息种类可以是但不限于汉字、汉语拼音、汉语语音码、外文。具体可采用以下方法,比如:
[0374] 下列英文书写的C语言的源代码:
[0375]
[0376] 中的汉字信息为:“我们会使用汉语拉丁文。”可以调用上述汉字汉语拼音与汉语语音码双向转换模块,并采用上述方法转成汉语语音码信息,汉语语音码信息为:wovmno mwvtisa xrvydu laadqawnv.最后再调用汉语语音码与英文为主的外语双向翻译模块,将汉语语音码表示的汉语信息转换成英文信息:we use latin every day.
[0377] 此时上述含有汉字的英文书写的C语言的源代码就变成全英文的源代码:
[0378]
[0379]
[0380] 此时,计算机屏幕从原来显示:我们会使用汉语拉丁文。变成显示:we use latin every day.
[0381] 同理,我们可以将英文表示的源代码信息通过上述汉语语音码与外文双向翻译模块转换成汉语语音码表示的汉语源代码信息,汉语语音码表示的汉语源代码信息又可以通过上述汉字汉语拼音与汉语语音码双向转换模块转换成汉字、汉语拼音表示的汉语源代码信息,比如:
[0382] 以上C语言的全汉语语音码表示的汉语源代码:
[0383]
[0384] 此时,计算机屏幕从原来显示:我们会使用汉语拉丁文。变成显示:wovmno huiu xrvydu hcuyyv laadqawnv.
[0385] 以上C语言的全汉字表示的汉语源代码:
[0386]
[0387] 此时,计算机屏幕从原来显示:我们会使用汉语拉丁文。变成同样显示:我们会使用汉语拉丁文。
[0388] 以上C语言的全汉语拼音表示的汉语源代码:
[0389]
[0390] 此时,计算机屏幕从原来显示:我们会使用汉语拉丁文。变成显示:wǒmen huì shǐyòng hànyǔ lādīng wěn。
[0391] 同理对注释部分也可以进行汉字、汉语拼音、汉语语音码和以英文为主的外文表示,这里不再累述。
[0392] 虽然目前计算机编程已经发展到可视化编程,可视化编程与前几代编程相比最大的区别在于前几代编程都是过程驱动,而可视化编程是由事件驱动,只要软件使用人加载或点击某一事件时,该事件的相关程序就会被驱动,可视化编程与前几代编程相同或相似的地方是其驱动程序也是由各种计算机程序语言编写而成。因此,就编写事件驱动程序的各种计算机程序语言而言,可以采用对上述高级语言和汇编语言相同的关键词和语句关键词替换的方法改造成用汉字关键词、汉语拼音关键词、汉语语音码关键词进行汉语编程的计算机语言。
[0393] 上面我们是以C语言为例来说明用汉语来进行计算机编程的方法,实际上采用上面同样的方法,我们还可以将包括汇编语言、C++、Java等所有用到以英文为主的外文关键词字符的编程语言改造成汉字、汉语拼音、汉语语音码为关键词字符的汉语编程语言,并同样可以用按以上叙述过的方法,将英文表示的源代码信息转换成汉语语音码表示的汉语源代码信息,汉语语音码表示的汉语源代码信息还可以进一步转换成汉字、汉语拼音表示的汉语源代码信息,反之亦然。
[0394] 通过以上方法对各种计算机编程语言关键字的汉语信息转换,我们可以利用原来计算机的编译程序或汇编程序或解释程序来为汉语编程服务,同时,使得汉语编程语言的编译程序或汇编程序或解释程序与转换前的计算机语言编译程序或汇编程序或解释程序100%兼容,这样可以不重新开发计算机编译程序或汇编程序或解释程序,只是在计算机编译程序或汇编程序或解释程序内或外加一个关键词预替换处理系统,就可以得到同时具有兼容汉语和英文为关键词的计算机程序语言编译系统或汇编系统或程序语言解释系统,可以说这样的方法是一种站在巨人肩膀上的方法,多快好省地实现了汉语编程。
[0395] (十).汉语语音码信息搜索的步骤和方法:
[0396] 在进行信息搜索时采用以现有的传统的信息搜索引擎为基础,既能够将汉字、汉语拼音、汉语语音码全拼及简拼、外文作为信息搜索的关键词直接输入搜索引擎的关键词输入框进行信息搜索,也能够通过将输入搜索引擎关键词输入框的汉字、汉语拼音、汉语语音码全拼及简拼、外文或汉语语音,通过上述汉字汉语拼音与汉语语音码双向转换模块、汉语语音码语音识别模块、汉语语音码汉语外文双向翻译模块转换成预先设定的信息种类后,再进行信息搜索,输出查询到的信息,能够按照系统默认或预先设定的信息种类方式输出,上述这种信息种类可以是但不限于汉字、汉语拼音、汉语语音码全拼及简拼、外文、汉语特定人语音、中国方言语音、少数民族语言语音、汉语语音或外语语音;
[0397] 当需要将搜索引擎搜索到的用汉字或汉语拼音表示的汉语信息的网页转换成汉语语音码全拼及简拼表示的汉语信息的网页时,计算机系统首先找到该网页的源文件,该网页的源文件比如以一个扩展名为“.html”或“.hml”的文本文件为例,通过调用预先储存在计算机系统中的汉字汉语拼音与汉语语音码双向转换模块,将该文本文件中所有会显示出来的汉字或全部汉语拼音,在它们原来的网页的位置上转换成汉语语音码全拼或简拼,一般需要转换的汉字是除作为文件名的汉字和作为汉字字体名称的汉字外的所有汉字;
[0398] 在将汉字网页转换成汉语语音码全拼及简拼表示的网页时,原来网页中的英文、英文字母、阿拉伯数字、西文标点符号、移行号不需要转换,保留原样;
[0399] 网页中作为文件名的汉字,为了能在纯西码也可以称为纯ASCII码的计算机系统中显示和运行,需要将网页中作为文件名的汉字转换成汉语语音码,被转换后的原用汉字作为文件名的文件要复制并储存在合适的位置,比如指定服务器或本地机中的指定文件夹中,以确保计算机系统能够找到这个被转换成汉语语音码名称的文件;
[0400] 对于汉字字体名称的汉字,当西码也即ASCII码系统里不存在该汉字字体名称时,计算机可以将该汉字字体名称自动换成预先设定并储存在计算机中的较为相近的西文字体名称,或计算机预先设定的默认的西文字体名称;
[0401] 当网页中的汉语语音码需要转换成汉字或汉语拼音时,通过调用预先储存在计算机系统汉字汉语拼音与汉语语音码双向转换模块的转换,得到相应的汉字或汉语拼音,并用这些汉字或汉语拼音在原来网页中的汉语语音码的位置替换掉被转换了的汉语语音码;
[0402] 当网页中的汉语语音码或标点符号移行号需要转换成语音时,可以分别采用查预先储存在计算机系统中的汉语语音码语音合成模块输出相应的汉语、汉语特定人、中国方言、少数民族语言和标点符号的语音;
[0403] 当网页中以英文为主的外文需要转换成语音时,可以采用现有以英文为主的外文语音合成模块,将会在网页中显示出来的以英文为主的外文朗读出来;
[0404] 当需要将网页中的汉语语音码表示的汉语信息转换成以英文为主的外文,或者网页中的英文为主的外文需要转换成汉语语音码全拼及简拼表示的汉语信息时,可以调用预先储存在计算机中的汉语语音码汉语与外文双向转换模块,在被转换的语音码的网页中的位置,将汉语语音码表示的汉语信息转换成以英文为主的外文,或者在被转换的以英文为主的外文的网页中的位置,将网页中英文为主的外文转换成汉语语音码全拼或简拼表示的汉语信息;
[0405] 对采用以上方法搜索到的所有网页,可以根据需要将原网页中的全部或部分内容以及超联接的路径或文件,改成指定的内容以及指定的超联接的路径或文件;
[0406] 当我们获得的网页不是通过搜索引擎,而是通过其它方式比如各种网页浏览器来获得的时,所得到的用汉字、汉语拼音、汉语语音码或外文表示信息的网页,可以通过上述各种模块的转换再输出成系统预先设定的信息种类的网页,该信息种类可以是但不限于汉字、汉语拼音、汉语语音码全拼及简拼、外文、汉语特定人语音、中国方言语音、少数民族语言语音、汉语语音或外语语音。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈