首页 / 专利库 / 人工智能 / 语音语料库 / 拼音汉词编码

拼音汉词编码

阅读:604发布:2021-03-02

专利汇可以提供拼音汉词编码专利检索,专利查询,专利分析的服务。并且拼音汉词编码属于中文信息处理的汉字编码技术领域。本 发明 提供了一种汉字编码单位“汉字汉词”,又叫作“汉词”。汉词可以对中文语料进行穷尽切分。本发明提供了一种汉字编码形式“拼音汉词”,又叫作“赵词”。赵词在可以读,不使用人工选字的条件下,使用三条编码规则,使全部汉字及今后产生的新汉字,没有一个重码。对于大多数常用汉字,拼音汉词编码在输入电脑时,可以跟英文词输入电脑相媲美。学习拼音汉词编码,需记忆的量很大,但是简单易学,适用性强。,下面是拼音汉词编码专利的具体信息内容。

1.一种汉字编码方法,其特征在于以汉词为汉字编码单位, 以赵词为汉字编码形式,以汉词和赵词一对一编码的汉字编码方 法,内容包括:
1)以汉词为汉字编码单位,由一个汉字和二个汉字组成的汉 字编码单位,叫作“汉字汉词”,一个汉字的汉字汉词,叫作“单 汉字”,二个汉字的汉字汉词,叫作“双汉字”,不加区别时,统 称为“汉词”,汉词具有规定的书写形式和音义,汉词之间有空 隔,本发明只使用以汉语为母词的具有初中以上文化的人确定的 汉词,汉词是本发明的汉字编码单位;
2)以赵词为汉字编码形式,“汉语拼音方案”和台湾的“国 语注音符号第二式”,分别使用四个声调符号,构造了大约1300个 不同的书写音节,本发明使用26个不同的拉丁字母,叫作“节调字 母”,又叫作“节调”,替代上述的四个声调符号,不使用轻声,把 上述的大约1300个不同的书写音节,编码为大约8580个不同的编 码,这8580个编码,叫作“声节”,又叫作“书写声节”,由一个声 节和二个声节组成的汉字编码形式,叫作“拼音汉词”,一个声节 的拼音汉词,叫作“单声节”,二个声节的拼音汉词,叫作“双声 节”,不加区别时,统称为“拼音汉词”或者“赵词”,所以,本发 明又叫作“赵词编码”,赵词具有规定的书写形式,赵词之间有空 隔,单声节由声母、韵母、节调三部分组成,其中,声母由一个拉 丁字母构成,韵母由二个拉丁字母构成,节调由一个拉丁字母构成, 单声节由四个拉丁字母构成,双声节由八个拉丁字母构成,没有例 外,赵词是本发明的汉字编码形式;
3)汉词和赵词一对一编码,有三条编码规则,一个双汉字固定 使用一个双声节编码,一个单汉字固定使用一个单声节编码,一 个单汉字固定使用一个双声节编码,哪一个汉词编码单位对应哪 一个赵词编码形式,决定权在发明人,以汉字计算,哪一个汉字对 应哪一个赵词编码形式,决定权在发明人。
2.根据权要求1所述的方法,其特征在于,汉词和赵词作为 方法,还可以用在计算机中文信息处理的所有方面,例如,自然语 言理介,机器翻译电子词典,大文本语料库,数据库与系统设计, 语音识别与合成,文体处理,信息检索,自然语言和人机接口,邮电 通讯,办公自动化,计算机自动分词等等。
3.根据权力要求1所述的方法,其特征在于,汉词作为汉字编 码单位,还可以用于日本汉字和韩国汉字的汉字编码,汉词作为方 法,还可以用于日本文语料和韩国文语料的计算机信息处理等自 动化处理领域。

说明书全文

发明属于中文信息处理领域,主要用于汉字的编码、输入、 输出、以及汉语词汇的计算机处理等。

汉字编码方案,目前已有数百种之多,从使用的汉字编码单位 看,主要有二种,一种是以汉字为单位编码,另一种是以语法词为 单位编码。还有综合使用汉字、语法词、词句,篇章等多种单位 的汉字编码方案。上述汉字编码单位各有利弊,解决问题也多少 不同,各种有关的介绍很多,这里就不谈了。它们有二个共同的缺 点,一是对重码汉字,普遍使用人工选字,给众多使用者造成不便; 二是汉字编码不能象英文词那样方便地输入电脑,给电脑普及带 来困惑。例如,由北京大学,语言文字应用研究所和昆仑公司联合 设计的“CW系统”,就很有名,但也无法作到跟英文词输入电脑相 媲美,主要缺点是,重码多,使用人工选字,语法词的切分问题没 有解决,在中文信息处理中,无法对中文语料进行穷尽切分,中文 语料不分词连写。

本发明的目的是,提供一种新的汉字编码单位汉词,在中文信 息处理和汉字编码中,汉词可以对中文语料进行穷尽切分;提供 一种新的汉字编码形式赵词,即拼音汉词,赵词在分词连写,可以 读,不使用人工选字,输入跟英文词差不多的条件下,使汉字编码 没有一个重码。

本发明的技术解决方案是:以普通使用者能够穷尽切分的一 个汉字和二个汉字的汉词,作为汉字编码单位;以可以读的,由四 个和八个拉丁字母组成的拼音汉词,即赵词,作为汉字编码形式的 编码方法。编码规则有三条,第一条编码规则,一个双汉字固定使 用一个双声节编码;第二条编码规则,一个单汉字固定使用一个 单声节编码;第三条编码规则,一个单汉字固定使用一个双声节 编码。下面对本发明的技术解决方案作详细说明:

1)以汉词作为汉字编码单位。由一个汉字和二个汉字组成的 汉字编码单位,叫作“汉字汉词”,一个汉字的汉字汉词,叫作 “单汉字”,二个汉字的汉字汉词,叫作“双汉字”,不加区别时, 统称为“汉词”,汉词具有规定的书写形式和音义,汉词之间有空 隔,本发明只使用以汉语为母语的具有初中以上文化的人确定的 汉词,汉词是本发明的汉字编码单位。

汉词的定义说明,切分出汉词的唯一依据就是一个汉字和二 个汉字,任何中文语料,总可以被切分成一个汉字和二个汉字。就 是说,汉词只有形式,没有音义,汉词能够穷尽切分中文语料,就是 从这一度说的。但是,汉词的切分过程就是使用汉词的过程,只 要使用汉词,汉词就有音义。就是说,汉词的音义是由使用者给予 的,使用的过程,就是产生音义的过程。所以,对切分汉词的人有 一定要求,必须是以汉词为母语的具有初中以上文化的人,以确保 汉词的切分过程及切分出的汉词符合汉族文化的习惯。汉词的切 分过程,又被发明人看作是修辞的过程。普通使用者,可以对汉 词进行简单理介,就是,汉词是发明人为了解决汉字编码的重码 问题而规定的一种方法,汉词的形式是规定的,音义是规定的,切 分汉词就是修辞,也是规定的,只要根据一个汉字和二个汉字去 切分汉词,就永远不会出错。本发明只使用从中文语料中切分出 的汉词。

汉词有好的切分,一般的切分,不好的切分,三种情况。这 三种情况都属于汉词的正常切分。对于同一个中文语料,汉词允 许多种切分,至于切分的好坏,属于你个人的修辞平问题。在 一般情况下,切分出的汉词,好坏差别不大。在绝大多数情况下, 只能有一种切分选择。例如:“调用机器语言程序。”你只能这 样切分,“调用机器语言程序。”其它切分都不如这样切 分好。再例如:“通讯功能的开启和停止。”你也只能这样切分, “通讯功能的开启和停止。”这是因为,切分受到文 化习惯和汉词定义中的一个汉字和二个汉字的制约。发明人建议 使用者,尽量少使用单汉字,多使用双汉字,但不能走极端,要恰到 好处。使用和切分汉词有一个熟练过程,使用得多了,你就会悟出 些道理,修辞水平也就随之提高。

汉词的数量,可以根据汉语语法词的数量作对比估算。从形 式上看,语法词中的全部双音节词,都可以看作是双汉字,全部单 音节词,都可以看作是单汉字,三音节词、四音节词、五音节以上 的词,都可以切分成双汉字和单汉字,两个汉字的语法词组,都是 双汉字,还有一些汉词无法跟语法词对比,参看实施例中的例句。 汉词的数量,明显地多于语法词的数量。根据现代通用语法词的 数量,发明人估算,现代汉语通用汉词的数量,大约六万个,中文语 料覆盖率为99%,其中,中文语料覆盖率为95%,最常用的通用汉词, 大约一万二千个。

汉词之间空一个汉字的距离就可以了。在汉字编码时,首先 把中文语料切分成汉词,然后经赵词编码输入电脑,输出电脑的是 分词连写的汉词,也可以是不分词连写的汉字,但最好是汉词。分 词连写将对中文信息处理的各种应用问题,带来无穷无尽的方便 和好处。分词连写的重要性,怎么强调都不过分。

2)以赵词为汉字编码形式,“汉语拼音方案”和台湾的“国 语注音符号第二式”,分别使用四个声调符号,构造了大约1300个 书写音节,本发明使用26个不同的拉丁字母,叫作“节调字母”, 又叫作“节调”,替代上述的四个声调符号,不使用轻声,把上述 的大约1300个不同的书写音节,编码为大约8580个不同的编码,叫 作“声节”,又叫作“书写声节”,由一个声节和二个声节组成 的汉字编码形式,叫作“拼音汉词”,一个声节的拼章汉词,叫作 “单声节”,二个声节的拼音汉词,叫作“双声节”,不加区别时, 统称为“拼音汉词”或者“赵词”,所以,本发明又叫作“赵词 编码”,赵词具有确定的书写形式,赵词之间有空隔,单声节由声 母、韵母、节调三部分组成,其中,声母由一个拉丁字母构成,韵 母由二个拉丁字母构成,节调由一个拉丁字母构成,单声节由四个 拉丁字母构成,双声节由八个拉丁字母构成,没有例外,赵词是本 发明的汉字编码形式。

现代汉语的普通话语音,有的认为是1200个音节,有的认为是 1280个音节,等等。为了称呼和汉字编码的方便,本发明统一一种 说法,普通话有1300个口语音节。“口语音节”是指普通话可以 读出多少个不同的音节来。“书写音节”是指“汉语拼音方案” 和台湾的“注音符号第二式”的音节在用拉丁字母书写时的表现 形式。本发明不特别说明时,“音节”是指书写音节。“书写声 节”和“声节”是指把“汉语拼音方案”和台湾的“注音符号第 二式”中的书写音节编码以后,用拉丁字母书写时的表现形式。 使用声节,不会改变普通话的语音。本发明不使用轻声书写音节, 凡遇轻声汉字,一律标注本调,如在小型字典上查不到汉字本调 的,一律用“去声”声调替代。

声节的构造说明。参看图1节调字母表,其中,序号1由节调字 母“s、m、g、a”构成,分别表示阴平、阳平、上声、去声四个 声调,序号1的四个节调字母跟本发明的声母,韵母组合,可构造 1300个不同的声节,相当于使用汉语拼音的四个声调符号跟声母、 韵母组合,构造1300个不同的单音节。反复使用序号1的方法,就 有了序号2至序号7。其中,序号1至序号6,共可构造不同的声节 6×1300=7800个。序号7的情况比较特殊,用一个节调字母“z” 表示阴平和阳平声调,用“y”表示上声和去声声调。GB2312-80 的“一级字”的声调比例,大约是,阴平0.25、阳平0.23、上声 0.17、去声0.35,分别以最高的阴平0.25和去声0.35计算,则有, 0.25+0.35=0.6,即1300×0.6=780,用“z”和“y”两个节 调字母可构造不同的声节780个,所以有,7800+780=8580,这就 是8580个不同声节的由来。根据赵词的定义,可以计算出,单声节 的不同编码形式是8580个,双声节的不同编码形式是8580×8580 =7.36164×107个。赵词编码形式的总数是:8580+85802= 7.362498×107个;7.362498×107个赵词,是使汉字编码无重码 的关键技术。从数学的角度看,赵词的编码形式是一种重复排列 的方法,参看图4,图5。根据重复排列种数的公式:mn,可以建 立赵词的数学定义,如果用a表示声节,a1表示单声节,a2表示双 声节,那么:a1+a2,式中a=0,1,2,3,4……正整数,就是赵词的 数学定义。顺便说一句,由于中文信息处理各种应用问题的需要, 也可以对汉词作出同样的数学定义,如果用c表示汉字,c1表示一 个汉字的汉词,c2表示二个汉字的汉词,那么:c1+c2,式中c =0,1,2,3,4……正整数,就是汉词的数学定义。c和c的一次方在 数学表达上是一样的,这里是为了区别汉字和一个汉字的汉词才 这样写的,a和a1的区别也是同样的道理。由于赵词的总数是七千 余万个,解决汉字编码的重码问题,根本使用不完,所以,本发明规 定只使用图1的序号1至序号6的节调字母,序号7的节调字母备用。

声节共使用26个声母,参看图2声母表,其中五个元音声母只 出现在声母位置上,没有读音,因为本发明不允许没有声母的声节 存在,所以,解决办法是,当声节只有韵母没有声母时,韵母的第一 个字母,必须重写一次,以确保每个声节都有一个声母。因为韵母 的第一个字母都是元音字母,这样,跟汉语拼音声母表的21个声母 相比,本发明就增加了五个不发音的元音声母,除此以外,声节的 声母表跟汉语拼音的声母表,在使用上没有什么不同。

声节共使用38个韵母,参看图3韵母表。跟汉语拼音的韵母表 相比,除了在写法上大多数韵母不同以外,还有三点不同,第一,一 般字典的汉语拼音韵母表列出35个韵母,韵母er未列入表内,本发 明列入表内,写作eh;第二,为了使声母和韵母的构造整齐划一, 把汉语拼音没列入声母表的声母ng,本发明作为韵母使用,列入韵 母表,写作ob,读音和作用都不变;第三,本发明增加一个无读音 韵母,写作ot,无读音韵母只有书写形式,没有读音,作为在普通话 中无韵母的汉字“噷”、 “唔”的韵母,以使中文语料中 的任何一个汉字,在使用本发明编码时,声节都由声母、韵母、 节调三部分组成,无一例外。

单声节由四个字母构成,双声节由八个字母构成,赵词的编码 形式是确定的,不允许有任何改变,也不能错输一个字母。赵词 不允许使用简码,或者缩写。如果一定要使用缩写,可以使用英文 词、其它西文词或者汉语拼音词缩写替代,必须备注。仅看字母 的个数,赵词就不会跟英文词或者其它西文词混淆,也不会跟汉语 拼音词混淆,声节的界限也不会混淆。赵词最好使用普通话读,也 可以使用不标准的普通话读,还可以使用方言语音读。赵词只是 一种汉字编码形式,不是汉语拼音词,读音是否标准,不会影响正 常使用。赵词编码使用国际通用的标准小键盘

3)汉词和赵词一对一编码,有三条编码规则,一个双汉字固定 使用一个双声节编码,一个单汉字固定使用一个双声节编码,哪 一个汉词编码单位对应哪一个赵词编码形式,决定权在发明人,以 汉字计算,哪一个汉字对应哪一个赵词编码形式,决定权在发明人。

汉词和赵词一对一编码,使用三条编码规则,赵词编码可以从 技术上保证汉字编码不出现一个重码汉字。

第一条编码规则,一个双汉字固定使用一个双声节编码。可 以解决中文语料中切分出的任何双汉字无重码。

第二条编码规则,一个单汉字固定使用一个单声节编码。可 以解决最多8580个单汉字或者汉字无重码。

第三条编码规则,一个单汉字固定使用一个双声节编码。可 以解决现有的以及任何可能有的汉字无重码。

据台湾有关部统计,全部汉字,大约有81684个,发明人将给 出有标准普通话读音的全部汉字的赵词编码形式,用户可根据需 要,决定选用哪一个汉字以及多少个汉字和赵词编码形式。

从图4的“意义”,图5的“他们”,可以看出,书写形式的数 量,双声节大约是汉语拼音双音节的49倍,单声节大约是汉语拼音 单音节的7倍。以现代汉语同音词最多的“意义、异义、异议、 异意、意译、奕奕、翼翼、熠熠”为例,使用“cw系统”的拼音 书写,只有一种写法“yì yì”,重码是八个。使用本发明,只用 了双声节的书写形式八个,没有重码。

对于通用的双汉字来说,一个同音双汉字的总数,超过六个的 是少数,例如上面提到的“意义”的同音双汉字是八个,通用的同 音双汉字要达到36个,是不可能的,即使把古代、现代、未来的都 算上,可能性也极小,而通用的同音双汉字要达到49个,更是不可 能的。当然,中国人姓名、地名、科技专业词汇等使用的双汉字, 以及外国人姓名、地名、科技专业词汇翻译成中文后使用的双汉 字,属于汉词和赵词的特殊问题,根据用户的要求,发明人将另外 处理。

类推,双汉字使用双声节编码无重码,根据第三条编码规则, 就可以保证全部汉字编码无重码。现有的不同汉字就算有十万个, 假设都使用双声节编码,也才用去十万个不同的双声节,只占七千 余万个双声节的极少数。汉语拼音的书写双音节,虽然有1300× 1300=1.69×106个不同的书写形式,遗憾的是,书写双音节没有 处理同音码,或者说重码的能

以汉语拼音的1300个书写音节计算,每个音节的同音汉字, 从一个到数十个不等,每个音节的同音汉字,本发明规定使用单 声节编码的汉字有六个,从第七个汉字开始,其余的汉字使用双声 节编码。以GB2312-80的“一级字”,又叫作“常用汉字表”的 3755个汉字计算,其中使用单声节,即四个拉丁字母编码输入电 脑的大约有3267个汉字,约占87%,使用双声节,即八个拉丁字母 编码输入电脑的大约有488个汉字,约占13%。一个声节的平均长 度是:(3267×4+488×8)÷3755=4.52个拉丁字母。

汉词和赵词,作为方法,还可以用在计算机中文信息处理的所 有方面,例如,自然语言理介,机器翻译电子词典,大文本语料库, 数据库与系统设计,语音识别与合成,文体处理,信息检索,自然 语言和人机接口,邮电通讯,办公自动化,计算机自动分词,等 等。汉词作为汉字编码单位,还可以用于日本汉字和韩国汉字的 汉字编码,汉词作为方法,还可以用于日本文语料和韩国文语料的 计算机信息处理等自动化处理领域。

由于汉词和赵词是一对一编码的,赵词无重码,可以读,又是 分词连写的,可以使用数学方法处理,所以,赵词适合作为中文机 器翻译的中间码使用。基于同样的理由,汉词和赵词应用于自然 语言理介等中文信息处理各方面时,显然,比使用语法词要方便的 多。日本汉字和韩国汉字,以及所有不分词连写的书面语,都有中 国汉字的同样问题,他们的分词问题也未能解决,汉词作为方法, 同样为他们的计算机信息处理和自动化,带来方便,减少麻烦。

现有技术相比,本发明的主要优点:

1.赵词编码在可以读的前提下,从技术上作到了使汉字编码 没有一个重码。这为普及电脑应用,创造了条件。

2.赵词编码的可读性适应面广,会说普通话或者不会说普通 话的人,都可以使用。

3.编码的规则就是三条,从一个汉字的编码到全部汉字的编 码,都是这三条编码规则。

4.汉词和赵词的数学定义,将为中文信息处理各种应用问题 的解决,提供方法。

5.汉词和赵词的数学定义说明,赵词比英文词更适宜电脑处 理。

6.使用本发明,最少需记忆最常用的一万二千个汉词及相应 的赵词编码,记忆量很大。但是,一个人长期使用人工选字所耗掉 的时间和精力,大大地多于在一定时期内学会一万二千个汉词及 相应的赵词所用的时间和精力。

下面结合附图的图面对本发明的内容说明如下:

附图1,节调字母表;

附图2,声母表;

附图3,韵母表;

附图4,“意义”的拼音汉词编码表;

附图5,“他们”的拼音汉词编码表。

结合附图说明具体实施例:

在使用拼音汉词编码时,首先要从中文语料中切分出汉词。 切分汉词,可以看作是使用一个汉字和二个汉字进行修辞的过程。 所以,除了在形式上有相似之处外,汉词跟语法词没有任何关系。 根据汉词定义,是切分汉词的基本方法。例1是语法词和汉词的切 分结果对比。

例1.①万向节/是/一/种/非常/灵巧/的/机械装置。(语法词 切分)

②万向节是一种非常灵巧的机械装置。 (汉词定义切分)

从例1的①和②,可以直观地看出语法词和汉词的不同。语法 词的主要问题是词的定义无法把握,给切分造成困难,而汉词的定 义简单明确,就是根据一个汉字和二个汉字进行切分。因为切分 汉词跟个人的修辞水平有关,所以,操作者必须是以汉语为母语的 具有初中以上文化的人。

对于同一个中文语料,不同的人切分出的汉词,一般地说是一 样的。因为人们的倾向,总是希望有最好的修辞表达,总是希望切 分出最好的汉词,在同一文化背景下,人们的思维方式,对“好坏” 的理介程度,也总是一样的。有例外也是正常的,切分出不同的汉 词,可以看作是修辞水平不同,或者是表达方法不同,也就是使用 的汉词不同,还可以看作是创新,也可以看作是糟粕,不规范,等等 这一切,都有可能发生。一般地说,好的汉词切分结果只有一种, 不好的和一般的切分结果是多种多样的,而创新和糟粕,总是极个 别的。

汉词切分出来以后,就可以使用赵词进行编码,参看图1至图 5,为了便于理介,发明人首先给出例句的汉语语法词和汉语拼音 词的书写形式,然后再给出汉词和拼音汉词编码。下面介绍两个 拼音汉词编码实施例。

例2:

①他/对/该/事/件/的/意义,持/有/异议。(汉语语法词)

(②Tā duì gāi shìji àn de yì yì,chi yǒu yìyì. (汉语拼音词)

③他对该事件的意义,持有异议。(汉词)

④Talsduca gaks vihdjimb defa iihbiiha,wihmiidg iihciihd.

     1   1    1    4   2    1    2   1     1   1    3  [4] (拼音汉词编码)

在例2的④中,赵词下面的阿拉伯数字1、2、3、4、以及没有 使用的5、6,跟图1的节调序号1至序号6中的节调字母一一对应, 跟GB2312-80中现代常用汉字表的3755个汉字中每个音节的六个 同音汉字一一对应,对应由发明人规定,参看下面例2的同音汉字 统计表。赵词下面的带中括号的阿拉伯数字[1]、[2]、[3]、[4]、 [5]、[6],跟图1的节调序号1至序号6中的节调字母一一对应,跟 GB2312-80常用汉字表的3755个汉字中每个音节的第七个及更多 的同音汉字一一对应,对应由发明人规定,参看下面例2的同音汉 字统计表。例2的④中只使用了[4],赵词下面的阿拉伯数字,只是 为了学习和说明方便才标注的,学会了赵词,就不必标注了。例2 的同音汉字统计表,前面标的是汉语拼音,数字一律标在汉字的右 下角。

例2的同音汉字统计表:

1/tā      塌4  他1  它3  她2

2/duì     兑3  队2  对1

3/gāi   该1

4/shì      式6     士[1]   世[2]   柿[1]   事4

        拭[3]   誓[5]   逝[5]   势[2]   是1    嗜[4]

        噬[6]   适[3]   仕[6]   侍[2]   释[3]  饰[4]

        氏5    市2     恃[6]   室3    视[3]  试[1] (例3使用的“轼”字,属于GB2312-80的次常用字,发明人规定为 “轼[2]”。)

5/jiǎn  荐[2]   槛[1]   鉴[1]   践[3]   贱[5]  见1

        键[2]   箭6     件2    健[6]   舰[1]  剑5

        饯[3]   渐4     溅[4]   涧[5]   建3

6/de    的1(根据本发明的规定,轻声汉字如在小型字典上 查不到汉字本调的,用去声声调替代,把dc写成dè。)

7/yì        艺4     抑[2]   易[5]   邑[1]   屹[4]  亿6

        臆[6]   逸[5]   肄[6]   疫[6]   亦[1]  裔[2]

        意2     毅[3]   忆[3]   义1    益[1]  溢[4]

        诣[2]   议[2]   谊[2]   译[4]   异3    翼[5]

   翌[4]    绎[3] 8/chí     持1  匙2  池3  迟4  弛5  驰6 9/yǒu  酉3  有1  友2 例3:    ①题/西林壁    苏/轼

横/看/成/岭/侧/成/峰,

远/近/高/低/各/不同。

不/识/庐山/真/面目,

只/缘/身/在/此/山中。(汉语语法词) ②  TíXīLíNBì   Sū  SHì   Héng Kàn chéng lǐng cèchéng fēng,   Yuǎn jìn gāo dīgèbùt óng。   BùshíLúshān zhēn miànmù,   Zhi yuán shēn zài cǐshānzhōng。(汉语拼音) ③    题西林壁    苏轼

横看  成岭  侧  成峰。

远近  高低  各  不同。

不识  庐山  真  面目。

只缘  身在  此  山中。(汉词) ④TIHN XIHSLINN BIHF    SUHS VIHB(YIHV)

 2     1   2    6      1   [2]   [4]   Hebmkama webmlibh cefc webmfebw.

 1   1    1   2    3    1   5   Oomgjinb gagsdihs gcfb buhatoym.

 1   2    1   1    2     1  1   Buhavihn Luhnvams ycns mimamuhb.

 1  [2]   2   1    1    1   2

Yihjoomm vcnuzaka cihg vamsyoys.(拼音汉词编码)

   4  [1]   3   1    1    1   1

例3的说明如下:

例3的同音汉字统计表略,其方法同例2的同音汉字统计表。 需要强调的是,哪一个汉词对应哪一个赵词,或者说,哪一个汉字 对应哪一个赵词,只能由发明人规定。

汉字“轼”用的很少,在现代汉语里,只是作为人名使用,按 照本发明的第三条编码规则,汉字“轼”作为单汉字使用时,必须 写成双声节“vihb(yihv)”,即“轼之”,这样写是发明人规定

          [2]  [4] 的。小括号()表示括号内的声节不输出汉字,但必须编码输入电 脑。作为人名地名使用的“人名类”汉字,据台湾的有关部门统 计,大约是二万五千多个,其中的通用汉字还好办,比汉字“轼” 用得更少的汉字也不少,对普通使用者来说,学习大量的象“轼 之”这样的现代汉语不使用的双汉字及双声节,以及大量的双汉 字专用人名及双声节,显然是不合适的。科技专业汉字等,也属于 这类问题,对此,发明人将另外设法处理。

汉字“识”和“缘”,虽然是常用汉字,但不在发明人规定 的同音汉字中的六个汉字序号之内,但“不识”,“只缘”是双汉 字,编码用双声节,“buhavihn”、“yihjoomm”,符合第一条编

                   1[2]          4[1] 码规则。

汉字“侧”、“各”、“真”、“此”、“题”、“壁”、 “苏”是单汉字,在发明人规定的同音汉字中的六个汉字序号之 内,编码用单声节,“ccfc”、“gcfb”、“ycns”、“cihg”、

                   3         2         1         1  “tihn”、“bihf”、“suhs”,符合第二条编码规则。

 2         6         1

只要是双汉字,就适用于第一条编码规则,一个双汉字固定 使用一个双声节编码。大多数常用单汉字适用于第二条编码规则, 一个单汉字固定使用一个单声节编码。少数常用单汉字、所有的 不常用单汉字及今后新产生的单汉字,适用于第三条编码规则,一 个单汉字固定使用一个双声节编码。当你对拼音汉词编码熟练应 用以后,第三条编码规则可以灵活使用,即,一个单汉字可以使 用多个相关的双声节编码。例如,汉字“轼”还可以写成双声节 “(pibq)vihb”,即“凭轼”,根据使用者的方便,自己决定。但

  5   [2] 第一条和第二条编码规则是永远不能变的。拼音汉词编码,就是 反复使用这三条编码规则。

顺便说一句,前面的GB2312-80常用汉字表的3755个汉字中, 一个声节的平均长度是4.52个拉丁字母,实际情况是,由于第一条 编码规则,一个声节的平均长度在4.00个至4.52个之间。

高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈