拼音汉词编码及其键盘专利检索-国际检索单位第I章专利合作条约专利权专利检索查询-专利查询网

拼音汉词编码及其 键盘

阅读：920发布：2020-06-03

专利汇可以提供拼音汉词编码及其键盘专利检索，专利查询，专利分析的服务。并且拼音汉词编码及其键盘属于汉字信息处理的汉字编码技术领域。本发明提供了一种在字处理基础上的词句音义汉字编码键盘输入方法。为此,提供了一种新的汉字编码单位“汉词”和“句读”,提供了一种新的汉字编码形式“拼音汉词”和“句言”。汉词、句读、拼音汉词和句言的数学化方法,可以为语言信息处理、汉语信息处理和汉字信息处理提供方法。本发明在不使用人工选字的前提下,使汉字编码无重码,可以读。，下面是拼音汉词编码及其键盘专利的具体信息内容。

权利要求

1.一种拼音汉词编码及其键盘专用的汉字输入键盘，其特征在于：拼音汉词编码及其键盘使用“全码”和“简码”两种键盘，全码键盘无图，简码键盘，即图7；
全码和简码，都使用国际通用的标准小键盘，把拼音汉词编码的26个声母、38个韵母、26个节调字母、以及对应的汉语拼音22个声母、38个韵母、4个声调符号，定义在标准键盘的26个英文字母键上；下述的“代替”，都是指把汉语拼音的字母用标准键盘上的英文字母代替；
全码和简码的声母相同，zh用y代替，ch用w代替、sh用V代替，跟汉语拼音相比，增加五个“无读音”声母a、i、e、o、u，同英文字母，其它声母也同英文字母，即图2；
全码的韵母，全部由二个英文字母构成，er用eh代替、a用al代替、o 用oj代替、e用ef代替、ai用ak代替、ei用ec代替、ao用ag代替、ou用 od代替、an用am代替、en同英文字母、ang用at代替、eng用eb代替、 ong用oy代替、i用ih代替、ia用il代替、ie用if代替、iao用ig代替、 iou用id代替、ian用im代替、in同英文字母、iang用it代替、ing用ib 代替、iong用iy代替、u用uh代替、ua用ul代替、uo用uj代替、uai用uk 代替、uei用uc代替、uan用um代替、uen用un代替、uang用ut代替、 ueng用ub代替、ü用oh代替、üe用of代替、üan用om代替、ün用on代替，把汉语拼音的韵母ê并入韵入韵母ei，用ec代替、把汉语拼音的声母 ng，作为韵母使用，用ob代替，跟汉语拼音相比，增加一个“无读音”韵母 ot，同英文字母，图3；
简码的韵母，全部由一个英文字母构成，er、ia以及全码的无读音韵母ot，都用Q代替、iou用w代替、e同英文字母、üan和uan用R代替、üe 和uei用T代替、ian用Y代替、u同英文字母、i同英文字母、o同英文字母、uo用o代替、ün和uen用P代替、a同英文字母、iong和ong用s代替、 iang和uang用D代替、en用F代替、eng和ueng用G代替、ang用H代替、an 用J代替、ao用k代替、ai用L代替、ei和ê用z代替、ie用x代替、ü和 ua用C代替、iao用V代替、ou用B代替、in和ng用N代替、ing和uai用M代替，图3；
全码和简码的节调字母相同，阴平用s、t、u、v、w、x、z代替，阳平用m、n、o、p、q、r、z代替，上声用g、h、i、j、k、l、y代替，去声用a、b、c、d、e、f、y代替，图1。
2.一种拼音汉词的汉字编码方法，其特征在于，以汉词为汉字编码单位，以拼音汉词和拼音句言为汉字编码形式，以汉词和拼音汉词一对一编码，以句言和拼音汉词为输入单位，以句读和汉词为输出单位的汉字音义编码方法，内容包括：
1)以汉词和编码句读为汉字编码单位，由一个汉字和二个汉字组成的汉字编码单位，叫作汉字汉词，一个汉字的汉字汉词，叫作“单汉字”，或者叫作“单汉字汉词”，二个汉字的汉字汉词，叫作“双汉字”，或者叫作“双汉字汉词”，不加区别时，统称为“汉词”，汉词的数学定义是 c2+c1，式中c＝0，1，2，3…正整数，c表示不同汉字的个数，c1表示单汉字汉词的个数，c2表示双汉字汉词的个数；一个汉词只有一个意义，叫作 “类属意义”，简称“类义”，汉词类义的数学模型是H1＝log2(c2+c1)，式中，c＞0，H1表示汉词类义的平均信息量，单位是比特，c表示不同汉字的个数，c1表示单汉字汉词类义的个数，c2表示双汉字汉词类义的个数；汉词具有规定的书写形式和意义，汉词之间有空格；由二个汉词组成的汉字编码单位，叫作“编码句读”，又叫作“句读”，句读的汉字编码单位有四种，就是，单汉字+单汉字、单汉字+双汉字、双汉字+单汉字、双汉字+双汉字；
2)以拼音汉词和拼音句言为汉字编码形式，拼音汉词编码使用“全码”，又叫作“赵词全码”，“简码”，又叫作“赵词简码”，两种汉字编码形式；
全码和简码的声母相同，都是26个，b、p、m、f、d、t、n、l、g、k、 h、j、q、x、y、w、v、r、z、c、s、a、i、e、o、u，即图2；
全码的韵母有38个，是eh、al、oj、ef、ak、ec、ag、od、am、en、 at、eb、oy、ih、il、if、ig、id、im、in、it、ib、iy、uh、ul、uj、 uk、uc、um、un、ut、ub、oh、of、om、on、ot、ob，即图3；
简码的韵母有26个，是Q、W、E、R、T、Y、U、I、O、P、A、S、D、 F、G、H、J、K、L、Z、X、C、V、B、N、M，即图3；
全码和简码的“节调字母”，又叫作“节调”，相同，都是26个，另外，分别还有2个相同的节调字母，阴平节调是s、t、u、v、w、x、z，阳平节调是m、n、o、p、q、r、z，上声节调是g、h、i、j、k、l、y，去声节调是a、b、c、d、e、f、y，即图1；
全码和简码分别使用声母、韵母、节调，把汉语拼音有声韵调的不同音节大约1300个，编码为大约8580个有声韵调的不同的编码，这8580个编码，叫作“拼音汉词”，一个声节的拼音汉词，叫作“单声节”，或者叫作“单声节赵词”，二个声节的拼音汉词，叫作“双声节”，或者叫作 “双声节赵词”，不加区别时，统称为“拼音汉词”或者“赵词”，赵词的数学定义是a2+a1，式中a＝0，1，2，3…正整数，a表示不同声节的个数， a1表示单声节赵词的个数，a2表示双声节赵词的个数；一个赵词只有一个标准语音，就是标准普通话语音，赵词普通话语音的数学模型是H2＝log2 (a2+a1)，式中，a＞0，H2表示赵词普通话语音的平均信息量，单位是比特， a表示不同声节的个数，a1表示单声节赵词普通话语音的个数，a2表示双声节赵词普通话语音的个数；以8580个声节计算，赵词的总数是7.362498 ×107个，赵词语音的熵，即普通话语音的平均信息量是26.134比特；赵词之间有空格；单声节由声母、韵母、节调、共三部分构成，双声节由声母、韵母、节调、声母、韵母、节调，共六部分构成；由二个拼音汉词组成的汉字编码形式，叫作“拼音句言”，又叫作“句言”，句言的汉字编码形式有四种，就是，单声节+单声节、单声节+双声节，双声节+单声节、双声节+双声节；
3)汉词和拼音汉词对应编码的基本规则有三条，一个双汉字固定使用一个双声节编码，一个单汉字固定使用一个单声节编码，一个单汉字固定使用一个双声节编码；汉词和拼音汉词对应编码的附加规则有一条，就是汉字和节调字母对应排序的规则，下述的“序号”，都是指图1的“节调字母序号”，一是“字频排序法”，在同音同声调汉字中，按照使用汉字的频度大小，从序号1到序号6顺序排列6个汉字，反复排列，可排列所有的同音同声调汉字；二是“字义排序法”，又叫作“音义排序法”，在同音同声调汉字中，根据汉字的一个基本意义，规定汉字和节调字母的对应排序，把全部汉字的基本意义，归类为二种“类属意义”，就是“名词” 和“动词”，又细分为6种类属意义，就是，实物名词、抽象名词、代时名词、动作动词、静态动词、过程动词，在同音同声调汉字中，按照汉字的一个基本意义，从序号1到序号6，顺序排列6个汉字，反复排列，可排列所有的同音同声调汉字，图1；
4)以句言和拼音汉词为输入单位，在二个拼音汉词之间有一个空格的前提下，由二个拼音汉词组成的输入单位，叫作“输入句言”，又叫作“句言”，句言后面击二次空格键，如果单声节用数字“1”表示，双声节用数字“2”表示，那么，句言的组合形式有四种，就是“1+1”，“1 +2”，“2+1”，“2+2”，以拼音汉词为输入单位时，输入一个拼音汉词，击一次空格键；
5)以句读和汉词为输出单位，在二个汉词之间有一个空格的前提下，由二个汉词组成的输出单位，叫作“输出句读”，又叫作“句读”，句读后面有二个空格的距离，如果单汉字用数字“1”表示，双汉字用数字 “2”表示，那么，句读的组合形式有四种，就是“1+1”；“1+2”、 “2+1”、“2+2”，以汉词为输出单位时，输出一个汉词，后面有一个空格。
3.根据权利要求1或者权利要求2所述的拼音汉词编码方法和键盘输入方法，其特征在于，对所述的方法和键盘作专业技术应用的分类和限定，就可以用在一切大、中、小、微型计算机汉字信息处理系统、汉字电传机、汉字电脑打字机、汉字终端机、各类电子印刷排版系统、情报检索和档案管理、办公室自动化系统、专家系统、翻译系统、汉字语音识别系统和汉字字形识别系统、汉字信息通讯系统、广告宣传系统、电话查号系统和公用咨询服务系统中。

说明书全文

本发明属于汉字信息处理领域，主要用于汉字的编码、输入、输出、以及汉语词汇和语句的计算机处理等。

汉字小键盘输入方法中，按汉字编码所依据的汉字属性来划分，有形码、音码，形音码、音形码四大类。上述汉字编码方法各有利弊，解决问题也多少不同，各种有关介绍很多，这里就不谈了。它们有三个共同的缺点，一是对重码汉字，普遍使用人工选字，给众多使用者造成不便；二是汉字编码不能象英文词那样方便地输入计算机，给计算机普及带来困难；三是各种汉字编码方法，都不能促进汉字信息处理各种应用问题的解决。例如，由周志农先生发明的“自然码输入法”就很有名，主要缺点是：自然码的拼音编码方法，使用人工选字解决重码问题，不能象使用英文词一样方便，汉语分词问题没有解决；自然码的形义编码方法，不能为汉字信息处理各种应用问题的解决，提供一个良好的环境。

本发明的目的是提供一种支撑汉字信息处理各种应用问题解决的、以字处理为基础、词句处理的、没有重码的，可以读的汉字编码(键盘) 输入方法。为此，提供一种新的汉字编码单位“汉词”，在汉字信息处理和汉字编码中，汉词可以对中文语料进行穷尽切分；提供一种新的汉字编码形式“赵词”，即“拼音汉词”，赵词在分词连写、可以读、不使用人工选字、输入跟英文词差不多的条件下，使汉字编码没有一个重码；提供一种适宜赵词简码输入的小键盘，以便提供输入速度；赵词全码使用国际通用的标准小键盘。

为完成上述目的，本发明提供了一种拼音汉词编码的方法，以及适用于拼音汉词编码的键盘，其特殊之处在于包括下述内容：

1.一种拼音汉词编码及其键盘专用的汉字输入键盘，其特征在于：拼音汉词编码及其键盘使用“全码”和“简码”两种键盘，全码键盘无图，简码键盘，即图7；

全码和简码，都使用国际通用的标准小键盘，把拼音汉词编码的26个声母、38个韵母、26个节调字母、以及对应的汉语拼音22个声母、38个韵母、4个声调符号，定义在标准键盘的26个英文字母键上；下述的“代替”，都是指把汉语拼音的字母用标准键盘上的英文字母代替；

全码和简码的声母相同，zh用y代替，ch用w代替、sh用V代替，跟汉语拼音相比，增加五个“无读音”声母a、i、e、o、u，同英文字母，其它声母也同英文字母，即图2；

全码的韵母，全部由二个英文字母构成，er用eh代替、a用al代替、 o 用oj代替、e用ef代替、ai用ak代替、ei用ec代替、ao用ag代替、ou用 od代替、an用am代替、en同英文字母、ang用at代替、eng用eb代替、 ong用oy代替、i用ih代替、ia用il代替、ie用if代替、iao用ig代替、 iou用id代替、ian用im代替、in同英文字母、iang用it代替、ing用ib 代替、iong用iy代替、u用uh代替、ua用ul代替、uo用uj代替、uai用uk 代替、uei用uc代替、uan用um代替、uen用un代替、uang用ut代替、 ueng用ub代替、ü用oh代替、üe用of代替、üan用om代替、ün用on代替，把汉语拼音的韵母ê并入韵入韵母ei，用ec代替、把汉语拼音的声母 ng，作为韵母使用，用ob代替，跟汉语拼音相比，增加一个“无读音”韵母 ot，同英文字母，图3；

简码的韵母，全部由一个英文字母构成，er、ia以及全码的无读音韵母ot，都用Q代替、iou用w代替、e同英文字母、üan和uan用R代替、üe 和uei用T代替、ian用Y代替、u同英文字母、i同英文字母、o同英文字母、uo用o代替、ün和uen用P代替、a同英文字母、iong和ong用s代替、 iang和uang用D代替、en用F代替、eng和ueng用G代替、ang用H代替、an 用J代替、ao用k代替、ai用L代替、ei和ê用z代替、ie用x代替、ü和 ua用C代替、iao用V代替、ou用B代替、in和ng用N代替、ing和uai用M代替，图3；

全码和简码的节调字母相同，阴平用s、t、u、v、w、x、z代替，阳平用m、n、o、p、q、r、z代替，上声用g、h、i、j、k、l、y代替，去声用a、b、c、d、e、f、y代替，图1。

2.一种拼音汉词的汉字编码方法，其特征在于，以汉词为汉字编码单位，以拼音汉词和拼音句言为汉字编码形式，以汉词和拼音汉词一对一编码，以句言和拼音汉词为输入单位，以句读和汉词为输出单位的汉字音义编码方法，内容包括：

1)以汉词和编码句读为汉字编码单位，由一个汉字和二个汉字组成的汉字编码单位，叫作汉字汉词，一个汉字的汉字汉词，叫作“单汉字”，或者叫作“单汉字汉词”，二个汉字的汉字汉词，叫作“双汉字”，或者叫作“双汉字汉词”，不加区别时，统称为“汉词”，汉词的数学定义是 c2+c1，式中c＝0，1，2，3…正整数，c表示不同汉字的个数，c1表示单汉字汉词的个数，c2表示双汉字汉词的个数；一个汉词只有一个意义，叫作 “类属意义”，简称“类义”，汉词类义的数学模型是H1＝log2(c2+c1)，式中，c＞0，H1表示汉词类义的平均信息量，单位是比特，c表示不同汉字的个数，c1表示单汉字汉词类义的个数，c2表示双汉字汉词类义的个数；汉词具有规定的书写形式和意义，汉词之间有空格；由二个汉词组成的汉字编码单位，叫作“编码句读”，又叫作“句读”，句读的汉字编码单位有四种，就是，单汉字+单汉字、单汉字+双汉字、双汉字+单汉字、双汉字+双汉字；

2)以拼音汉词和拼音句言为汉字编码形式，拼音汉词编码使用“全码”，又叫作“赵词全码”，“简码”，又叫作“赵词简码”，两种汉字编码形式；

全码和简码的声母相同，都是26个b、p、m、f、d、t、n、l、g、k、 h、j、q、x、y、w、v、r、z、c、s、a、i、e、o、u，即图2；

全码的韵母有38个，是eh、al、oj、ef、ak、ec、ag、od、am、en、 at、eb、oy、ih、il、if、ig、id、im、in、it、ib、iy、uh、ul、uj、 uk、uc、um、un、ut、ub、oh、of、om、on、ot、ob即图3；

简码的韵母有26个，是Q、W、E、R、T、Y、U、I、O、P、A、S、D、 F、G、H、J、K、L、Z、X、C、V、B、N、M，即图3；

全码和简码的“节调字母”，又叫作“节调”，相同，都是26个，另外，分别还有2个相同的节调字母，阴平节调是s、t、u、v、w、x、z，阳平节调是m、n、o、p、q、r、z，上声节调是g、h、i、j、k、l、y，去声节调是a、b、c、d、e、f、y，即图1；

全码和简码分别使用声母、韵母、节调，把汉语拼音有声韵调的不同音节大约1300个，编码为大约8580个有声韵调的不同的编码，这8580个编码，叫作“拼音汉词”，一个声节的拼音汉词，叫作“单声节”，或者叫作“单声节赵词”，二个声节的拼音汉词，叫作“双声节”，或者叫作 “双声节赵词”不加区别时，统称为“拼音汉词”或者“赵词”，赵词的数学定义是a2+a1，式中a＝0，1，2，3…正整数，a表示不同声节的个数， a1表示单声节赵词的个数，a2表示双声节赵词的个数；一个赵词只有一个标准语音，就是标准普通话语音，赵词普通话语音的数学模型是H2＝log2 (a2+a1)，式中，a＞0，H2表示赵词普通话语音的平均信息量，单位是比特， a表示不同声节的个数，a1表示单声节赵词普通话语音的个数，a2表示双声节赵词普通话语音的个数；以8580个声节计算，赵词的总数是7.362498 ×107个，赵词语音的熵，即普通话语音的平均信息量是26.134比特；赵词之间有空格；单声节由声母、韵母、节调、共三部分构成，双声节由声母、韵母、节调、声母、韵母、节调，共六部分构成；由二个拼音汉词组成的汉字编码形式，叫作“拼音句言”，又叫作“句言”，句言的汉字编码形式有四种，就是，单声节+单声节、单声节+双声节，双声节+单声节、双声节+双声节；

3)汉词和拼音汉词对应编码的基本规则有三条，一个双汉字固定使用一个双声节编码，一个单汉字固定使用一个单声节编码，一个单汉字固定使用一个双声节编码；汉词和拼音汉词对应编码的附加规则有一条，就是汉字和节调字母对应排序的规则，下述的“序号”，都是指图1的“节调字母序号”，一是“字频排序法”，在同音同声调汉字中，按照使用汉字的频度大小，从序号1到序号6顺序排列6个汉字，反复排列，可排列所有的同音同声调汉字；二是“字义排序法”，又叫作“音义排序法”，在同音同声调汉字中，根据汉字的一个基本意义，规定汉字和节调字母的对应排序，把全部汉字的基本意义，归类为二种“类属意义”，就是“名词” 和“动词”，又细分为6种类属意义，就是，实物名词、抽象名词、代时名词、动作动词、静态动词、过程动词，在同音同声调汉字中，按照汉字的一个基本意义，从序号1到序号6，顺序排列6个汉字，反复排列，可排列所有的同音同声调汉字，图1；

4)以句言和拼音汉词为输入单位，在二个拼音汉词之间有一个空格的前提下，由二个拼音汉词组成的输入单位，叫作“输入句言”，又叫作“句言”，句言后面击二次空格键，如果单声节用数字“1”表示，双声节用数字“2”表示，那么，句言的组合形式有四种，就是“1+1”，“1 +2”，“2+1”，“2+2”，以拼音汉词为输入单位时，输入一个拼音汉词，击一次空格键；

5)以句读和汉词为输出单位，在二个汉词之间有一个空格的前提下，由二个汉词组成的输出单位，叫作“输出句读”，又叫作“句读”，句读后面有二个空格的距离，如果单汉字用数字“1”表示，双汉字用数字 “2”表示，那么，句读的组合形式有四种，就是“1+1”，“1+2”、“2 +1”、“2+2”，以汉词为输出单位时，输出一个汉词，后面有一个空格。

对上述的方法和键盘作专业技术应用的分类和限定，就适用于一切大、中、小、微型计算机汉字信息处理系统、汉字电传机、汉字电脑打字机、汉字终端机、各类电子印刷排版系统、情报检索和档案管理、办公室自动化系统、专家系统、翻译系统、汉字语音识别系统和汉字字形识别系统、汉字信息通讯系统、广告宣传系统、电话查号系统和公用咨询服务系统中。

中文语料，总是由不同的汉字组成的。以GB2312-80中的6763个不同汉字计算，共可构造不同的汉词4.5744932×107个，即一个唯一的汉词集合，每个汉词的熵，即平均信息量是25.447比特，计算方法如下：

当c＝6763时，

c2+c1＝67632+67631＝4.5744932×107(个)

H1＝log2(c2+c1)

＝log24.5744932×107

＝25.447(比特)

汉词的数量很大，但现代汉语实际使用的汉词，并不多。现代汉语实际使用的汉词，可以根据汉语语法词的数量作对比估算。从形式上看，语法词中的全部双音节词，都可以看作是双汉字，全部单音节词，都可以看作是单汉字，三音节词、四音节词、五音节以上的词，都可以切分成双汉字和单汉字，两个汉字的语法词组，都是双汉字，还有一些汉词无法跟语法词对比，参看实施例中的例句。实际使用汉词的数量，明显地多于语法词的数量。根据现代通用语法词的数量，发明人估算，现代汉语通用汉词的数量，大约六万个，中文语料覆盖率为99％，其中，中文语料覆盖率为95％，最常用的通用汉词，大约一万二千个。

汉词之间的距离有一个空格就可以了。在汉字编码时，首先把中文语料切分成汉词，然后经赵词编码输入计算机，输出计算机的是分词连写的汉词，也可以是不分词连写的汉字，但最好是汉词。分词连写将对汉字信息处理的各种应用问题，带来无穷无尽的方便和好处。分词连写的重要性，怎么强调都不过分。

汉词的数学定义说明。汉词是一种不同汉字重复排列的方法。参看图4，“信”、“息”、“论”三个不同汉字的重复排列方法。根据重复排列种数的公式：mn，以及加法定义，就可以计算出汉词的总数。计算汉词的总数，就是汉词的数学定义。从图4汉词原理例图可以看出，由 “信”、“息”、“论”、三个不同汉字，可构造9个不同的双汉字汉词、 3个不同的单汉字汉词，共计12个不同的汉词，现代汉语实际使用的不同汉词有4个，即：“信”、“息”、“论”、“信息”，其余的8个双汉字汉词备用。“备用”这个道理很简单，在“信息论”没有产生以前，“信息”这个汉词没有人使用，而现在大量使用。

汉词的数学定义，能够使计算机和普通使用者，从总体上把握汉词，能够定量地描述汉词的各种特征，这对汉字信息处理和汉字编码各种问题的解决，是非常有用的。再举一个例子，如果把“通讯功能的开启和停止”。看成是一个句子，那么，共使用了10个不同汉字，使用了6个汉词，因为本发明规定一个汉词只有一个意义，即“类属意义”，简称“ 类义”，所以，根据信息论的方法，以及汉词类义的数学模型，可以建立汉词句子类义的数学模型：H3＝log2(c2+c1)n，c≥1，1≤n≤c，

H3表示句子类义的平均信息量，单位：比特；

n表示句子里使用汉词的个数；

其它同汉词类义的数学模型。

“通讯功能的开启和停止”这句话的类义，即这句话意义的平均信息量是当c＝10，n＝6时，H3＝log2(c2+c1)n＝log2(102+ 101)6＝6×6.781＝40.686比特。

对于英文词和汉语语法词来说，进行类似的计划，将是极为困难的。汉词的数学定义，汉词类义的数学模型，句子类义的数学模型，将为第三代汉字编码输入方法，汉字信息处理提供一个良好的工作环境。

赵词的数学定义说明。赵词的数学定义，跟汉词的数学定义，没有什么根本地不同，只是写法和数量不同，赵词使用的是声节，是一种以语音为主的汉字编码形式，汉词使用的是汉字，是一种规定性的汉字编码单位，从总体数量上说，汉词比赵词要多很多。由于赵词是可以读的，所以，可以对赵词的语音进行定量地描述。本发明规定，一个赵词只有一个语音，不同的赵词，就有不同的语音，如果不同的赵词读音相同，即同音不同型，也是不同的语音。赵词语音的信息量和赵词类义的信息量，计算方法完全一样，如果不同汉字的个数跟不同声节的个数相同，那么，信息量也就相同，这符合常识。赵词普通话语音的数学模型，H2＝log2(a2+a1)， a＞0，将为汉字的语音输入识别与合成提供方法。用赵词编码所组成的编码句子，即普通话语音句，计算方法同“汉词句子类义”的计算方法。只是把“汉词句子类义的数学模型”中的“c”换成“a”，“n”表示语音句中赵词的个数，用H4表示普通话语音句的信息量即可，即：H4＝log2 (a2+a1)n，a≥1，1≤n≤a。根据汉词句子类义和语音的数学模型，可以统一写成一种形式，即：H＝log2(c2+c1)n，c＞0，0＜n≤c。

使用声节，不会改变普通话的语音。本发明不使用轻声音节，凡遇轻声汉字，一律标注本调，如在小型字典上查不到汉字本调的，一律用“去声”声调替代。

声节的编码说明。参看图1节调字母表，其中，序号1由节调字母“s、 m、g、a”构成，分别表示阴平、阳平、上声、去声四个声调，序号1的四个节调字母跟本发明的声母，韵母组合，可编码1300个不同的声节，相当于使用汉语拼音的四个声调符号跟声母、韵母组合，构造1300个不同的单音节。反复使用序号1的方法，就有了序号2至序号7。其中，序号1至序号6，共可编码不同的声节6×1300＝7800个。序号7的情况比较特殊，用一个声调字母“z”表示阴平和阳平声调，用“y”表示上声和去声声调。GB2312-80的“一级字”的声调比例，大约是，阴平0.25、阳平0.23、上声0.17、去声0.35，分别以最高的阴平0.25和去声0.35计算，则有， 0.25+0.35＝0.6，即1300×0.6＝780，用“z”和“y”两个节调字母可编码不同的声节780个，所以有，7800+780＝8580，这就是8580个不同声节的由来。根据赵词的定义，可以计算出，单声节的不同编码形式是8580 个，双声节的不同编码形式是8580×8580＝7.36164×107。赵词编码形式的总数是：8580+85802＝7.362498×107；7.362498×107个赵词，是使汉字编码无重码的关键技术。由于赵词的总数是七千余万个，解决汉字编码的重码问题，根本使用不完，所以，本发明规定只使用图1的序号1 至序号6的节调字母，序号7的节调字母备用。

声节共使用26个声母，参看图2声母表，其中五个元音声母“a、i、 e、o、u”只出现在声母位置上，没有读音，因为本发明不允许没有声母的声节存在，所以，解决办法是，当声节只有韵母没有声母时，韵母的第一字母，必须重写一次，以确保每个声节都有一个声母。因为韵母的第一个字母都是元音字母，这样，跟汉语拼音声母表的21个声母相比，本发明就增加了五个不发音的元音声母，声节的声母表跟汉语拼音的声母表，在使用上没有什么不同。

声节共使用38个韵母，参看图3韵母表。跟汉语拼音的韵母表相比，除了在写法上大多数韵母不同以外，还有四点不同，第一，一般字典的汉语拼音韵母表列出35个韵母，韵母er未列入表内，本发明列入表内；第二，为了使声母和韵母整齐划一，把汉语拼音没列入声母表的声母ng，本发明作为韵母使用，列入韵母表，读音和作用都不变；第三，本发明增加一个无读音韵母，无读音韵母只有书写形式，没有读音，作为普通话中无韵母的汉字“口歆”、“口舞”、“唔”的韵母，以使中文语料中的任何一个汉字，在使用本发明编码时，声节都由声母、韵母、节调三部分组成，无一例外；第四，本发明把汉语拼音的韵母“e”并入韵母“ei”。

赵词全码使用小写英文字母，单声节由四个字母构成，双声节由八个字母构成，赵词简码使用大写英文字母，单声节由三个字母构成，双声节由六个字母构成，赵词的编码形式是确定的。仅看字母的个数，赵词就不会跟英文词或者其它西文词混淆，也不会跟汉语拼音词混淆，声节的界限也不会混淆。赵词最好使用普通话读，也可以使用不标准的普通话读，还可以使用方言语音读。赵词只是一种汉字编码形式，不是汉语拼音词，读音是否标准，不会影响正常使用。

从图5的“意义”，图6的“他们”，可以看出，双声节大约是汉语拼音双音节的49倍，单声节大约是汉语拼音单音节的7倍。以现代汉语同音词最多的“意义、异义、异议、异意、意译、奕奕、翼翼、熠熠”为例，使用汉语拼音书写，只有一种写法“yi yi”，重码是八个。使用本发明，只用了双声节的编码八个，没有重码。对于通用的双汉字来说，一个同音双汉字的总数，超过六个的是少数，例如上面提到的“意义”的同音双汉字是八个，通用的同音双汉字要达到36个，是不可能的，即使把古代、现代、未来的都算上，可能性也极小，而通用的同音双汉字要达到49个，更是不可能的。当然，中国人姓名、地名、科技专业词汇等使用的双汉字，以及外国人姓名、地名、科技专业词汇翻译成中文后使用的双汉字，属于汉词和赵词的特殊问题，根据用户的要求，发明人将另外处理。

类推，双汉字使用双声节编码无重码，根据第三条基本编码规则，从技术的角度看，就可以保证全部汉字编码无重码。现有的不同汉字就算有十万个，假设都使用双声节编码，也才用去十万个不同的双声节，只占七千余万个双声节的极少数。汉语拼音的双音节，虽然有1300×1300＝ 1.69×106个不同的书写形式，遗憾的是，双音节没有处理同音码，或者说重码的能力。

对句读和句言的说明。“编码句读”和“输出句读”的形式完全相同，只是一个用在编码前的切分，一个用在计算机输出，所以简称相同。 “拼音句言”和“输入句言”的简称相同的道理同上。句读是指汉字的三字语和四字语，句言是指汉字编码的三个声节(相当于音节)和四个声节的编码。使用句读的主要目的是，一是为了解决汉字编码的重码问题，当汉字有重码时，使用三字句读编码，三声节句言输入，可以解决重码问题，句读和句言使用最多的形式是三声节“1+2”和“2+1”，因为本发明的双声节即“2”不会有重码，所以，四字语“2+2”不会有重码问题；二是为了使语义更确定，例如，汉语的“三字经”，“四字成语”等，都能表示一个确定的意义或者故事；三是为了把句读和句言作为句处理方法，为准备拼音的赵词和句言输入计算机后，自动转换成汉词和句读输出，提供条件；四是为了使语句更通顺，表达更清楚，五是为了从语句中切分出汉词更方便。

例1：万向节是一种非常灵巧的机械装置。 “A1，A2，A4，A5”表示句读，“A3，A11，A12，A21，A22，A41，A42，A51，A52” 表示汉词。切分结果如下：

万向节是一种非常灵巧的机械装置。

上述方法叫作“句读切分法”，本发明规定，一个句读必须切分成二个汉词，并且只能切分成二个汉词，因为句读后面使用二个空格，所以，从书面上看，句读跟汉词一样，具有形式标志，这对于计算机自动分词，将会带来许多方便。两个句读叫作“超句读”，两个超句读叫作“次语句” 两个次语句叫作“语句”，两个语句叫作“超语句”等等，根据需要，一直可以二合下去。虽然超句读、语句等没有形式标志，但作为一种算法，将给自然语言理介、机器翻译等带来方便。

例2：他对该事件的意义，持有异议。

使用“句读切分法”切分“例2”，觉得很不顺手，如果把“例2”改写成：“他对于该事件的意义，持有异议。”增加了一个“于”字，觉得好切分一点，但还是不顺手，如果把“例2”改写成：“他对于该事件产生的意义，持有异议。”切分就顺手一点，语句也比较通顺。这说明，句读可以帮助用户在文字表达上，更清楚，具有修辞作用。“例2”虽然读起来不通，但对说明如何进行编码，不会有什么不利影响。

本发明是怎样解决汉字编码重码问题的。

用户要学会GB2312-80常用汉字表的3755个汉字的赵词编码，或者学会GB2312-80中的6763个汉字的赵词编码。根据双声节赵词无重码，句言无重码，以及本发明将为所有的常用汉字都备有容错码。在键盘输入时，只要编码属于下面的一项，即可保证无重码。一是同音汉字中的第一轮6 个节调序号内的汉字；二是使用双声节赵词输入；三是使用句言输入，句言内必有一个是双声节赵词。如果不属于上述三项的汉字编码输入，才会有重码，解决办法是使用编码的基本规则第三条，即一个单汉字固定使用一个双声节编码。

编码的键盘图说明。全码键盘只使用了三个压缩码，即zh用y，ch用w， sh用v表示，全码使用标准英文键盘，因为压缩码只有三个，所以，全码键盘不再画图。

“简码键盘”参看图7，是本发明的专用键盘，简码的键位代码，声母参看图2，韵母参看图3，节调字母参看图1。图7中的键位代码，下面左侧是全码韵母和声母，右侧中括号内是汉语拼音。“/”表示没有对应代码。

赵词编码的附加规则说明。附加规则实际上是三条基本编码规则的一部分，三条基本编码规则都必须使用附加规则，这里是为了叙述更方便，才单独作为一条附加规则列出来的。附加规则就是讲一个声调的6个节调字母，如何跟同音汉字对应排序编码的方法，简称“排序”。

字频排序法，就是根据现代汉语书面语中汉字相对使用频率来“排序”编码的。这一方法比较简单，但规律性差，用户记忆量很大。

字义排序法，发明人认为，汉字不是表示“名称”，就是表示“动作”，所以，把“名称”一类的意义叫作“名词”，动作一类的意义，叫作“动词”。一个汉字的意义虽多，总有一个基本意义。规定一个单汉字汉词只表示基本意义，汉字的其它意义，使用双汉字汉词表示。例如：汉字“打”，基本意义是“用手或器具撞击物体”，单汉字汉词是“动词”，再细分是“动作动词”，汉字“打”的其它意义，总要跟其它汉字连用，即使用双汉字汉词，才能表示，如：

“打手”(名词)，实物名词，

“打人”(动词)，动作动词，

“打发”(动词)，过程动词，

“打量”(动词)，静态动词，

“打算”(动词)，静态动词，等等。

把汉字的基本意义分为二大类，又细分为六类基本意义，虽然“同义”词很多，但并不影响使用。规定一个汉词只有一个意义，使“类义” 成为可以计算的，这以对汉字信息处理、汉字编码、都将带来方便。字义排序法的主要缺点，是记忆量很大。

对六种类义的补充说明：下面的“相当于”都是指汉语中的语法语。

参看图1，

序号1，实物名词，相当于名词中的具体名词。

例如：人、山、水，

序号2，抽象名词，相当于名词中的抽象名词。

例如：友、思、政

序号3，代时名词，相当于代词、数量词、时间、处所、方位词等。

例如：他、年、秒、上、东、之、以。

序号4，动作动词，相当于大部分动词

例如：打、放、写

序号5：静态动词，相当于一部分动词、形容词的全部。

例如：是、大、小、好、快、慢。

序号6，过程动词，相当于一部分动词，副词、介词、助词、连词、叹词。

例如：漂、流、很、都、在、向、地、的、得、着、了、过、和、哈。

单汉字的类义跟双汉字的类义，有时会发生变化，例如，单汉字汉词 “学”是过程动词，“生”是过程动词，双汉字汉词“学生”是实物名词，词义的这一变化过程，叫作“形态”，所以，“字义排序法”又叫作“形态编码”。

另外，“字义排序法”有例外情况，例如：“他、她、它”都应属于序号3，代时名词，但为了使用上的方便，规定：“他”，代对名词，“她”，抽象名词，“它”，实物名词。类似的情况还有“地”、“得”、“的” 等等，对例外作专门规定，显然是缺点，好在于这样的特殊汉字并不多。

与现有技术相比，本发明的主要优点：

1.赵词编码在可以读的前提下，从技术上作到了使汉字编码没有一个重码。这为普及计算机应用，创造了条件。

2.赵词编码的可读性适应面广，会说普通话或者不会说普通话的人，都可以使用。

3.编码的基本规则就是三条，从一个汉字的编码到全都汉字的编码，都是这三条基本编码规则。

4.汉字和赵词的数学定义，以及汉词音义句的数学模型将为汉字信息处理各种应用问题的解决，提供方法。

5.汉词和赵词的数学定义和音义句的数学模型说明，赵词比英文词更适宜计算机处理。

下面结合附图的图面对本发明的内容说明如下：

图1，节调字母表(类义字母表)；

图2，声母表；

图3，韵母表；

图4，汉词原理例图；

图5，“意义”的拼音汉词编码表；

图6，“他们”的拼音汉词编码表；

图7，简码键盘图。

结合附图说明具体实施例；

在使用拼音汉词编码时，首先要从中文语料中切分出汉词。切分汉词，可以看作是使用一个汉字和二个汉字进行修辞的过程。所以，除了在形式上有相似之处外，汉字跟语法词没有任何关系。根据“汉词定义”，是切分汉词的基本方法，图4是切分汉词的基本原理，例1是语法词和汉词的切分结果对比。

例1.①万向节/是/一/种/非常/灵巧/的/机械装置。(语法词切分)

②万向节是一种非常灵巧的机械装置。(汉字定义切分)

从例1的①和②，可以直观地看出语法词和汉词的不同。语法词的主要问题是词的定义无法把握，给切分造成困难，而汉词的定义简单明确，就是根据一个汉字和二个汉字进行切分。因为切分汉词跟个人的修辞水平有关，所以，操作者必须是以汉语为母语的具有初中以上文化的人。

对于同一个中文语料，不同的人切分出的汉词，一般地说是一样的。因为人们的倾向，总是希望有最好的修辞表达，总是希望切分出最好的汉词，在同一文化背景下，人们的思维方式，对“好坏”的理解程度，也总是一样的。有例外也是正常的，切分出不同的汉词，可以看作是修辞水平不同，或者是表达方法不同，也就是使用的汉词不同，还可以看作是创新，也可以看作是糟粕，不规范，等等这一切，都有可能发生。一般地说，好的汉词切分结果只有一种，不好的和一般的切分结果是多种多样的，而创新和糟粕，总是极个别的。

汉词切分出来以后，就可以使用赵词进行编码，参看图1至图6，为了便于理解，发明人首先给出例句的汉语语法和汉语拼音词的书写形式，然后再给出汉词和拼音汉词编码。例2是使用“字频排序法”、全码的例句。

例2：

①他/对/ 该/ 事/ 件/ 的/ 意义，持/ 有/异议。(汉语语法词)

②Tāduìgāi shìjīān de yìyì，chíyǒu yìyì (汉语拼音词)

③他对该事件的意义，持有异议。(汉词)

④Tai sduca gaks vihdjimb defa iihbiiha，wihmiidg iihciihd

1 1 1 4 2 1 2 1 1 3 [4] (拼音汉词全码，字频排序法)

在例2的④中，赵词下面的阿拉伯数字1、2、3、4、以及没有使用的5、6，跟图1的节调序号1至序号6中的节调字母一一对应，跟GB2312- 80中现代常用汉字表的3755个汉字中每个音节的六个同音汉字一一对应，对应由发明人根据字频规定，参看下面例2的同音汉字统计表中汉字右下侧的数字。在例2的④中，赵词下面的带中括号的阿拉伯数字[1]、[2]、 [3]、[4]、[5]、[6]，跟图1的节调序号1至序号6中的节调字母一一对应，跟GB2312-80常用汉字表的3755个汉字中每个音节的第七个及更多的同音汉字一一对应，对应由发明人规定，参看下面例2的同音汉字统计表中汉字右下侧的数字。例2的④中只使用了[4]，只是为了学习和说明方便才标注的，学会了赵词，就不必标注了。

下面拼音汉词简码、字义排序法仍然使用例2的句子。

⑤他对该事件的意义，持有异议。

⑥TAUDTF GLX VIBJYC DEF IIBIIE，WIPIWK IIFIIA.(拼音汉词

3 6 6 2 3 6 [2][5] 4 5 6 1 编码、字义排序法)

在⑤中的“该事件”和“持有异议”是句读，其它是汉词。句读后面有二个空格，句读后面有标点符号时，标点符号前加一个空格，表示前面是句读。

在⑥中的“GLX VIBJYC”和“WIPIWK IIFIIA”是句言，其它是赵词。空格的规定同⑤中的句读。

例2中的同音汉字统计表，前面标的是汉语拼音，汉字右下角的数字是“字频排序法”中的汉字排序序号，在汉字下方的数字是“字义排序法”中的汉字排序序号。

例2的④中，提到的“对应由发明人规定”，在例2的⑥中，改写成 “对应由汉字的基本意义决定，即由类义决定。”汉字的基本意义可以查《现代汉语词典》，或者由发明人提供。

使用赵词简码时，声节如果没有声母，韵母的第一个字母，是指赵词全码的第一个字母，要重写一次，例如：“瓦”，汉语拼音，“wǎ”，赵词全码：“uulg”，赵词简码：“UCG”。赵词简码不能写成“CCG”。

例2的同音汉字统计表：

1/tā 塌4 他1 它3 她2

4 3 1 2

2/duì 兑3 队2 对1

4 1 6

3/gāī 该1

4/shì 式6 示[5] 士[1] 世[2] 柿[1] 事4

1 4 [1] [3] [1] 2

拭[3] 誓[5] 逝[5] 势[2] 是1 嗜[4]

[4] [4] [6] [5] 5 [5]

筮[6] 适[3] 仕[6] 侍[2] 释[3]饰[4]

[4] [5] [1] [6] 6 [5]

氏5 市2 恃[6] 室3 视[3]试[1]

[2] 3 [5] [3] [4] [6] (例3使用的“轼”字，属于GB2312-80的次常用字，发明人规定为“轼[2]”。)

[1]

5/jīǎn 荐[2] 槛[4] 鉴[1] 践[5] 贱[5] 见1

5 [1] [1] [4] [5] 4

键[2] 箭6 件2 健[6] 舰[1] 剑5

1 [1] 3 [5] [1] [1]

饯[3] 渐4 溅[4] 涧[5] 建3

[4] [5] [4] [1] 6

6/de 的1(根据本发明的规定，轻声汉字如在小型字典上查不到

6 汉字本调的，用去声声调替代，把de写成dè)

7/yì 艺4 抑[2] 易[5] 邑[1] 屹[4] 亿[6]

2 4 [6] [1] [5] 3

臆[6]逸[5] 肄[6] 疫[6] 亦[1] 裔[2]

[1] [5] [6] [1] [5] [1]

意2 毅[3] 忆[3] 义1 益[1] 溢[4]

[2] [5] [6] 5 5 [4]

诣[2]议[4] 谊[2] 译[4] 异3 翼[5]

[5] 1 [5] [5] 6 [1]

翌[4]绎[3]

[3] [6]

8/chí 持1 匙2 池3 迟4 弛5 驰6

4 [1] 1 5 6 [5]

9/yǒu 酉3 有1 友2

3 5 1

例3： ①题/西林壁苏/轼

横/看/成/岭/侧/成/峰，

远/近/高/低/各/不同。

不/识/庐山/真/面目，

只/缘/身/在/此/山中。(汉语语法词)

② TíxīLíBì Sū SHì

Héng Kàn chéng Líng cè chéng fēng，

yuǎn jìn gāo dí gé bùtóng。

Bù shí Lúshān zhēn miànmù，

zhǐ yuán shēn zài cī shānzhōng。(汉语拼音)

③ 题西林壁苏轼

横看成岭侧成峰。

远近高低各不同。

不识庐山真面目。

只缘身在此山中。 (汉词)

④TIHN XIHSLINN BIHF SUIHS VIHB(YIHV)

2 1 2 6 1 [2] [4]

Hebmkama webmlibh cefc webmfebw.

1 1 1 2 3 1 5

Oomgjinb gagsdihs gefb buhatoym.

1 2 1 1 2 1 1

Buhavihn Luhnvams ycns mimamuhb.

1 [2] 2 1 1 1 2

yihjoomm vcnuzaka cihg vamsyoys.(拼音汉词全码、字频排序法)

4[1] 3 1 1 1 1

例3的说明如下；

例3的同音汉字统计表略，其方法同例2的同音汉字统计表。

汉字“轼”用的很少，在现代汉语里，只是作为人名使用，按照本发明的第三条基本编码规则，汉字“轼”作为单汉字使用时，必须写成双声节，“vihb(yihv)”，即“轼之”，这样写是发明人规定的。小括号

[2] [4] ( )表示括号内的声节不输出汉字，但必须编码输入计算机，作为人名地名使用的“人名类”汉字，椐台湾的有关部门统计，大约是二万五千多个，其中的通用汉字还好办，比汉字“轼”用得更少的汉字也不少，对普通使用者来说，学习大量的象“轼之”这样的现代汉语不使用的双汉字及双声节，以及大量的双汉字专用人名及双声节，显然是不合适的。科技专业汉字等，也属于这类问题，对此，发明人将另外设法外理。

汉字“识”和“缘”，虽然是常用汉字，但不在发明人规定的同音汉字中的六个汉字序号之内，但“不识”，“只缘”是双汉字，编码用双声节，“buhavihn”、“yihjoomm”，符合第一条基本编码规则。

1 [2] 4 [1]

汉字“侧”、“各”、“真”、“此”、“题”、“壁”、“苏” 是单汉字，在发明人规定的六个汉字序号之内，编码用单声节，“ccfc”、

3 “gcfb”、“yens”、“cihg”、

2 1 1 “tihn”、“bihf”、“suhs”，符合第二条编码规则。

2 6 1

只要是双汉字，就适用于第一条编码规则，一个双汉字固定使用一个双声节编码。大多数常用单汉字适用于第二条基本编码规则，一个单汉字固定使用一个单声节编码。少数常用单汉字、所有的不常用单汉字及今后新产生的单汉字，适用于第三条基本编码规则，一个单汉字固定使用一个双声节编码。当你对拼音汉词编码熟练应用以后，第三条基本编码规则可以灵活使用，即，一个单汉字可以使用多个相关的双声节编码。例如，汉字“轼”还可以写成双声节“(pibq)vihb”，即“凭轼”，根据使用者的方便，自己决定。但第一条和第二条基本编码规则是永远不能变的。拼音汉词编码，就是反复使用这三条基本的编码规则。

标题	发布/更新时间	阅读量
一种知识产权在线交易大数据系统	2020-05-20	627
基于大数据撰写专利名称的方法及装置	2020-05-18	979
模糊识别法在词组识别中的应用	2020-05-11	212
一种配电网络智能安全全方位预警与控制系统	2020-06-26	648
一种PC互联网和3G(4G)手机移动网联网管理的酒店软件	2020-06-17	48
基于移动终端客户端模块实现实名呼叫业务的方法和系统	2020-06-15	892
一种语音检索方法及采用该方法的音像信息检索系统	2020-05-17	566
华语拼音、单拼输入统一方案及智能转换翻译	2020-06-07	1016
一种基于音符建模的哼唱式音乐检索方法及系统	2020-06-21	30
一种基于BPM流程引擎的SMS安全管理系统	2020-06-14	917

拼音汉词编码及其键盘

本发明属于汉字信息处理领域，主要用于汉字的编码、输入、输出、 以及汉语词汇和语句的计算机处理等。

该功能需要专业版企业版VIP权限，您可以：

本发明属于汉字信息处理领域，主要用于汉字的编码、输入、输出、以及汉语词汇和语句的计算机处理等。