首页 / 专利库 / 专利权 / 专利合作条约 / 第I章 / 国际检索单位 / 拼音汉词编码及其键盘

拼音汉词编码及其键盘

阅读:920发布:2020-06-03

专利汇可以提供拼音汉词编码及其键盘专利检索,专利查询,专利分析的服务。并且拼音汉词编码及其 键盘 属于汉字信息处理的汉字编码技术领域。本 发明 提供了一种在字处理 基础 上的词句音义汉字编码 键盘输入 方法。为此,提供了一种新的汉字编码单位“汉词”和“句读”,提供了一种新的汉字编码形式“拼音汉词”和“句言”。汉词、句读、拼音汉词和句言的数学化方法,可以为语言信息处理、汉语信息处理和汉字信息处理提供方法。本发明在不使用人工选字的前提下,使汉字编码无重码,可以读。,下面是拼音汉词编码及其键盘专利的具体信息内容。

1.一种拼音汉词编码及其键盘专用的汉字输入键盘,其特征在于: 拼音汉词编码及其键盘使用“全码”和“简码”两种键盘,全码键盘无 图,简码键盘,即图7;
全码和简码,都使用国际通用的标准小键盘,把拼音汉词编码的26个 声母、38个韵母、26个节调字母、以及对应的汉语拼音22个声母、38个 韵母、4个声调符号,定义在标准键盘的26个英文字母键上;下述的“代 替”,都是指把汉语拼音的字母用标准键盘上的英文字母代替;
全码和简码的声母相同,zh用y代替,ch用w代替、sh用V代替,跟汉 语拼音相比,增加五个“无读音”声母a、i、e、o、u,同英文字母,其它 声母也同英文字母,即图2;
全码的韵母,全部由二个英文字母构成,er用eh代替、a用al代替、o 用oj代替、e用ef代替、ai用ak代替、ei用ec代替、ao用ag代替、ou用 od代替、an用am代替、en同英文字母、ang用at代替、eng用eb代替、 ong用oy代替、i用ih代替、ia用il代替、ie用if代替、iao用ig代替、 iou用id代替、ian用im代替、in同英文字母、iang用it代替、ing用ib 代替、iong用iy代替、u用uh代替、ua用ul代替、uo用uj代替、uai用uk 代替、uei用uc代替、uan用um代替、uen用un代替、uang用ut代替、 ueng用ub代替、ü用oh代替、üe用of代替、üan用om代替、ün用on代 替,把汉语拼音的韵母ê并入韵入韵母ei,用ec代替、把汉语拼音的声母 ng,作为韵母使用,用ob代替,跟汉语拼音相比,增加一个“无读音”韵母 ot,同英文字母,图3;
简码的韵母,全部由一个英文字母构成,er、ia以及全码的无读音韵 母ot,都用Q代替、iou用w代替、e同英文字母、üan和uan用R代替、üe 和uei用T代替、ian用Y代替、u同英文字母、i同英文字母、o同英文字 母、uo用o代替、ün和uen用P代替、a同英文字母、iong和ong用s代替、 iang和uang用D代替、en用F代替、eng和ueng用G代替、ang用H代替、an 用J代替、ao用k代替、ai用L代替、ei和ê用z代替、ie用x代替、ü和 ua用C代替、iao用V代替、ou用B代替、in和ng用N代替、ing和uai用M代 替,图3;
全码和简码的节调字母相同,阴平用s、t、u、v、w、x、z代替,阳 平用m、n、o、p、q、r、z代替,上声用g、h、i、j、k、l、y代替,去声 用a、b、c、d、e、f、y代替,图1。
2.一种拼音汉词的汉字编码方法,其特征在于,以汉词为汉字编码 单位,以拼音汉词和拼音句言为汉字编码形式,以汉词和拼音汉词一对一 编码,以句言和拼音汉词为输入单位,以句读和汉词为输出单位的汉字音 义编码方法,内容包括:
1)以汉词和编码句读为汉字编码单位,由一个汉字和二个汉字组成 的汉字编码单位,叫作汉字汉词,一个汉字的汉字汉词,叫作“单汉字”, 或者叫作“单汉字汉词”,二个汉字的汉字汉词,叫作“双汉字”,或者 叫作“双汉字汉词”,不加区别时,统称为“汉词”,汉词的数学定义是 c2+c1,式中c=0,1,2,3…正整数,c表示不同汉字的个数,c1表示单汉 字汉词的个数,c2表示双汉字汉词的个数;一个汉词只有一个意义,叫作 “类属意义”,简称“类义”,汉词类义的数学模型是H1=log2(c2+c1), 式中,c>0,H1表示汉词类义的平均信息量,单位是比特,c表示不同汉字 的个数,c1表示单汉字汉词类义的个数,c2表示双汉字汉词类义的个数; 汉词具有规定的书写形式和意义,汉词之间有空格;由二个汉词组成的汉 字编码单位,叫作“编码句读”,又叫作“句读”,句读的汉字编码单位 有四种,就是,单汉字+单汉字、单汉字+双汉字、双汉字+单汉字、双 汉字+双汉字;
2)以拼音汉词和拼音句言为汉字编码形式,拼音汉词编码使用“全 码”,又叫作“赵词全码”,“简码”,又叫作“赵词简码”,两种汉字编 码形式;
全码和简码的声母相同,都是26个,b、p、m、f、d、t、n、l、g、k、 h、j、q、x、y、w、v、r、z、c、s、a、i、e、o、u,即图2;
全码的韵母有38个,是eh、al、oj、ef、ak、ec、ag、od、am、en、 at、eb、oy、ih、il、if、ig、id、im、in、it、ib、iy、uh、ul、uj、 uk、uc、um、un、ut、ub、oh、of、om、on、ot、ob,即图3;
简码的韵母有26个,是Q、W、E、R、T、Y、U、I、O、P、A、S、D、 F、G、H、J、K、L、Z、X、C、V、B、N、M,即图3;
全码和简码的“节调字母”,又叫作“节调”,相同,都是26个,另 外,分别还有2个相同的节调字母,阴平节调是s、t、u、v、w、x、z,阳 平节调是m、n、o、p、q、r、z,上声节调是g、h、i、j、k、l、y,去声 节调是a、b、c、d、e、f、y,即图1;
全码和简码分别使用声母、韵母、节调,把汉语拼音有声韵调的不 同音节大约1300个,编码为大约8580个有声韵调的不同的编码,这8580个 编码,叫作“拼音汉词”,一个声节的拼音汉词,叫作“单声节”,或者 叫作“单声节赵词”,二个声节的拼音汉词,叫作“双声节”,或者叫作 “双声节赵词”,不加区别时,统称为“拼音汉词”或者“赵词”,赵词 的数学定义是a2+a1,式中a=0,1,2,3…正整数,a表示不同声节的个数, a1表示单声节赵词的个数,a2表示双声节赵词的个数;一个赵词只有一个 标准语音,就是标准普通话语音,赵词普通话语音的数学模型是H2=log2 (a2+a1),式中,a>0,H2表示赵词普通话语音的平均信息量,单位是比特, a表示不同声节的个数,a1表示单声节赵词普通话语音的个数,a2表示双 声节赵词普通话语音的个数;以8580个声节计算,赵词的总数是7.362498 ×107个,赵词语音的熵,即普通话语音的平均信息量是26.134比特;赵 词之间有空格;单声节由声母、韵母、节调、共三部分构成,双声节由声 母、韵母、节调、声母、韵母、节调,共六部分构成;由二个拼音汉词 组成的汉字编码形式,叫作“拼音句言”,又叫作“句言”,句言的汉字 编码形式有四种,就是,单声节+单声节、单声节+双声节,双声节+单 声节、双声节+双声节;
3)汉词和拼音汉词对应编码的基本规则有三条,一个双汉字固定使 用一个双声节编码,一个单汉字固定使用一个单声节编码,一个单汉字固 定使用一个双声节编码;汉词和拼音汉词对应编码的附加规则有一条,就 是汉字和节调字母对应排序的规则,下述的“序号”,都是指图1的“节 调字母序号”,一是“字频排序法”,在同音同声调汉字中,按照使用汉 字的频度大小,从序号1到序号6顺序排列6个汉字,反复排列,可排列所有 的同音同声调汉字;二是“字义排序法”,又叫作“音义排序法”,在同 音同声调汉字中,根据汉字的一个基本意义,规定汉字和节调字母的对应 排序,把全部汉字的基本意义,归类为二种“类属意义”,就是“名词” 和“动词”,又细分为6种类属意义,就是,实物名词、抽象名词、代时 名词、动作动词、静态动词、过程动词,在同音同声调汉字中,按照汉字 的一个基本意义,从序号1到序号6,顺序排列6个汉字,反复排列,可排列 所有的同音同声调汉字,图1;
4)以句言和拼音汉词为输入单位,在二个拼音汉词之间有一个空格 的前提下,由二个拼音汉词组成的输入单位,叫作“输入句言”,又叫 作“句言”,句言后面击二次空格键,如果单声节用数字“1”表示,双 声节用数字“2”表示,那么,句言的组合形式有四种,就是“1+1”,“1 +2”,“2+1”,“2+2”,以拼音汉词为输入单位时,输入一个拼音汉 词,击一次空格键;
5)以句读和汉词为输出单位,在二个汉词之间有一个空格的前提下, 由二个汉词组成的输出单位,叫作“输出句读”,又叫作“句读”,句 读后面有二个空格的距离,如果单汉字用数字“1”表示,双汉字用数字 “2”表示,那么,句读的组合形式有四种,就是“1+1”;“1+2”、 “2+1”、“2+2”,以汉词为输出单位时,输出一个汉词,后面有一 个空格。
3.根据权利要求1或者权利要求2所述的拼音汉词编码方法和键盘 输入方法,其特征在于,对所述的方法和键盘作专业技术应用的分类和限 定,就可以用在一切大、中、小、微型计算机汉字信息处理系统、汉字 电传机、汉字电脑打字机、汉字终端机、各类电子印刷排版系统、情报 检索和档案管理、办公室自动化系统、专家系统、翻译系统、汉字语音 识别系统和汉字字形识别系统、汉字信息通讯系统、广告宣传系统、电 话查号系统和公用咨询服务系统中。

说明书全文

发明属于汉字信息处理领域,主要用于汉字的编码、输入、输出、 以及汉语词汇和语句的计算机处理等。

汉字小键盘输入方法中,按汉字编码所依据的汉字属性来划分,有形 码、音码,形音码、音形码四大类。上述汉字编码方法各有利弊,解决 问题也多少不同,各种有关介绍很多,这里就不谈了。它们有三个共同 的缺点,一是对重码汉字,普遍使用人工选字,给众多使用者造成不便; 二是汉字编码不能象英文词那样方便地输入计算机,给计算机普及带来 困难;三是各种汉字编码方法,都不能促进汉字信息处理各种应用问题的 解决。例如,由周志农先生发明的“自然码输入法”就很有名,主要缺点 是:自然码的拼音编码方法,使用人工选字解决重码问题,不能象使用 英文词一样方便,汉语分词问题没有解决;自然码的形义编码方法,不能 为汉字信息处理各种应用问题的解决,提供一个良好的环境。

本发明的目的是提供一种支撑汉字信息处理各种应用问题解决的、 以字处理为基础、词句处理的、没有重码的,可以读的汉字编码(键盘) 输入方法。为此,提供一种新的汉字编码单位“汉词”,在汉字信息处 理和汉字编码中,汉词可以对中文语料进行穷尽切分;提供一种新的汉 字编码形式“赵词”,即“拼音汉词”,赵词在分词连写、可以读、不 使用人工选字、输入跟英文词差不多的条件下,使汉字编码没有一个重 码;提供一种适宜赵词简码输入的小键盘,以便提供输入速度;赵词全码 使用国际通用的标准小键盘。

为完成上述目的,本发明提供了一种拼音汉词编码的方法,以及适 用于拼音汉词编码的键盘,其特殊之处在于包括下述内容:

1.一种拼音汉词编码及其键盘专用的汉字输入键盘,其特征在于: 拼音汉词编码及其键盘使用“全码”和“简码”两种键盘,全码键盘无 图,简码键盘,即图7;

全码和简码,都使用国际通用的标准小键盘,把拼音汉词编码的26个 声母、38个韵母、26个节调字母、以及对应的汉语拼音22个声母、38个 韵母、4个声调符号,定义在标准键盘的26个英文字母键上;下述的“代 替”,都是指把汉语拼音的字母用标准键盘上的英文字母代替;

全码和简码的声母相同,zh用y代替,ch用w代替、sh用V代替,跟汉 语拼音相比,增加五个“无读音”声母a、i、e、o、u,同英文字母,其它 声母也同英文字母,即图2;

全码的韵母,全部由二个英文字母构成,er用eh代替、a用al代替、 o 用oj代替、e用ef代替、ai用ak代替、ei用ec代替、ao用ag代替、ou用 od代替、an用am代替、en同英文字母、ang用at代替、eng用eb代替、 ong用oy代替、i用ih代替、ia用il代替、ie用if代替、iao用ig代替、 iou用id代替、ian用im代替、in同英文字母、iang用it代替、ing用ib 代替、iong用iy代替、u用uh代替、ua用ul代替、uo用uj代替、uai用uk 代替、uei用uc代替、uan用um代替、uen用un代替、uang用ut代替、 ueng用ub代替、ü用oh代替、üe用of代替、üan用om代替、ün用on代 替,把汉语拼音的韵母ê并入韵入韵母ei,用ec代替、把汉语拼音的声母 ng,作为韵母使用,用ob代替,跟汉语拼音相比,增加一个“无读音”韵母 ot,同英文字母,图3;

简码的韵母,全部由一个英文字母构成,er、ia以及全码的无读音韵 母ot,都用Q代替、iou用w代替、e同英文字母、üan和uan用R代替、üe 和uei用T代替、ian用Y代替、u同英文字母、i同英文字母、o同英文字 母、uo用o代替、ün和uen用P代替、a同英文字母、iong和ong用s代替、 iang和uang用D代替、en用F代替、eng和ueng用G代替、ang用H代替、an 用J代替、ao用k代替、ai用L代替、ei和ê用z代替、ie用x代替、ü和 ua用C代替、iao用V代替、ou用B代替、in和ng用N代替、ing和uai用M代 替,图3;

全码和简码的节调字母相同,阴平用s、t、u、v、w、x、z代替,阳 平用m、n、o、p、q、r、z代替,上声用g、h、i、j、k、l、y代替,去声 用a、b、c、d、e、f、y代替,图1。

2.一种拼音汉词的汉字编码方法,其特征在于,以汉词为汉字编码 单位,以拼音汉词和拼音句言为汉字编码形式,以汉词和拼音汉词一对一 编码,以句言和拼音汉词为输入单位,以句读和汉词为输出单位的汉字音 义编码方法,内容包括:

1)以汉词和编码句读为汉字编码单位,由一个汉字和二个汉字组成 的汉字编码单位,叫作汉字汉词,一个汉字的汉字汉词,叫作“单汉字”, 或者叫作“单汉字汉词”,二个汉字的汉字汉词,叫作“双汉字”,或者 叫作“双汉字汉词”,不加区别时,统称为“汉词”,汉词的数学定义是 c2+c1,式中c=0,1,2,3…正整数,c表示不同汉字的个数,c1表示单汉 字汉词的个数,c2表示双汉字汉词的个数;一个汉词只有一个意义,叫作 “类属意义”,简称“类义”,汉词类义的数学模型是H1=log2(c2+c1), 式中,c>0,H1表示汉词类义的平均信息量,单位是比特,c表示不同汉字 的个数,c1表示单汉字汉词类义的个数,c2表示双汉字汉词类义的个数; 汉词具有规定的书写形式和意义,汉词之间有空格;由二个汉词组成的汉 字编码单位,叫作“编码句读”,又叫作“句读”,句读的汉字编码单位 有四种,就是,单汉字+单汉字、单汉字+双汉字、双汉字+单汉字、双 汉字+双汉字;

2)以拼音汉词和拼音句言为汉字编码形式,拼音汉词编码使用“全 码”,又叫作“赵词全码”,“简码”,又叫作“赵词简码”,两种汉字编 码形式;

全码和简码的声母相同,都是26个b、p、m、f、d、t、n、l、g、k、 h、j、q、x、y、w、v、r、z、c、s、a、i、e、o、u,即图2;

全码的韵母有38个,是eh、al、oj、ef、ak、ec、ag、od、am、en、 at、eb、oy、ih、il、if、ig、id、im、in、it、ib、iy、uh、ul、uj、 uk、uc、um、un、ut、ub、oh、of、om、on、ot、ob即图3;

简码的韵母有26个,是Q、W、E、R、T、Y、U、I、O、P、A、S、D、 F、G、H、J、K、L、Z、X、C、V、B、N、M,即图3;

全码和简码的“节调字母”,又叫作“节调”,相同,都是26个,另 外,分别还有2个相同的节调字母,阴平节调是s、t、u、v、w、x、z,阳 平节调是m、n、o、p、q、r、z,上声节调是g、h、i、j、k、l、y,去声 节调是a、b、c、d、e、f、y,即图1;

全码和简码分别使用声母、韵母、节调,把汉语拼音有声韵调的不 同音节大约1300个,编码为大约8580个有声韵调的不同的编码,这8580个 编码,叫作“拼音汉词”,一个声节的拼音汉词,叫作“单声节”,或者 叫作“单声节赵词”,二个声节的拼音汉词,叫作“双声节”,或者叫作 “双声节赵词”不加区别时,统称为“拼音汉词”或者“赵词”,赵词 的数学定义是a2+a1,式中a=0,1,2,3…正整数,a表示不同声节的个数, a1表示单声节赵词的个数,a2表示双声节赵词的个数;一个赵词只有一个 标准语音,就是标准普通话语音,赵词普通话语音的数学模型是H2=log2 (a2+a1),式中,a>0,H2表示赵词普通话语音的平均信息量,单位是比特, a表示不同声节的个数,a1表示单声节赵词普通话语音的个数,a2表示双 声节赵词普通话语音的个数;以8580个声节计算,赵词的总数是7.362498 ×107个,赵词语音的熵,即普通话语音的平均信息量是26.134比特;赵 词之间有空格;单声节由声母、韵母、节调、共三部分构成,双声节由声 母、韵母、节调、声母、韵母、节调,共六部分构成;由二个拼音汉词 组成的汉字编码形式,叫作“拼音句言”,又叫作“句言”,句言的汉字 编码形式有四种,就是,单声节+单声节、单声节+双声节,双声节+单 声节、双声节+双声节;

3)汉词和拼音汉词对应编码的基本规则有三条,一个双汉字固定使 用一个双声节编码,一个单汉字固定使用一个单声节编码,一个单汉字固 定使用一个双声节编码;汉词和拼音汉词对应编码的附加规则有一条,就 是汉字和节调字母对应排序的规则,下述的“序号”,都是指图1的“节 调字母序号”,一是“字频排序法”,在同音同声调汉字中,按照使用汉 字的频度大小,从序号1到序号6顺序排列6个汉字,反复排列,可排列所有 的同音同声调汉字;二是“字义排序法”,又叫作“音义排序法”,在同 音同声调汉字中,根据汉字的一个基本意义,规定汉字和节调字母的对应 排序,把全部汉字的基本意义,归类为二种“类属意义”,就是“名词” 和“动词”,又细分为6种类属意义,就是,实物名词、抽象名词、代时 名词、动作动词、静态动词、过程动词,在同音同声调汉字中,按照汉字 的一个基本意义,从序号1到序号6,顺序排列6个汉字,反复排列,可排列 所有的同音同声调汉字,图1;

4)以句言和拼音汉词为输入单位,在二个拼音汉词之间有一个空格 的前提下,由二个拼音汉词组成的输入单位,叫作“输入句言”,又叫 作“句言”,句言后面击二次空格键,如果单声节用数字“1”表示,双 声节用数字“2”表示,那么,句言的组合形式有四种,就是“1+1”,“1 +2”,“2+1”,“2+2”,以拼音汉词为输入单位时,输入一个拼音汉 词,击一次空格键;

5)以句读和汉词为输出单位,在二个汉词之间有一个空格的前提下, 由二个汉词组成的输出单位,叫作“输出句读”,又叫作“句读”,句 读后面有二个空格的距离,如果单汉字用数字“1”表示,双汉字用数字 “2”表示,那么,句读的组合形式有四种,就是“1+1”,“1+2”、“2 +1”、“2+2”,以汉词为输出单位时,输出一个汉词,后面有一个空 格。

对上述的方法和键盘作专业技术应用的分类和限定,就适用于一切 大、中、小、微型计算机汉字信息处理系统、汉字电传机、汉字电脑打 字机、汉字终端机、各类电子印刷排版系统、情报检索和档案管理、办 公室自动化系统、专家系统、翻译系统、汉字语音识别系统和汉字字形 识别系统、汉字信息通讯系统、广告宣传系统、电话查号系统和公用咨 询服务系统中。

中文语料,总是由不同的汉字组成的。以GB2312-80中的6763个不同 汉字计算,共可构造不同的汉词4.5744932×107个,即一个唯一的汉词集 合,每个汉词的熵,即平均信息量是25.447比特,计算方法如下:

当c=6763时,

c2+c1=67632+67631=4.5744932×107(个)

H1=log2(c2+c1)

      =log24.5744932×107

      =25.447(比特)

汉词的数量很大,但现代汉语实际使用的汉词,并不多。现代汉语实 际使用的汉词,可以根据汉语语法词的数量作对比估算。从形式上看,语 法词中的全部双音节词,都可以看作是双汉字,全部单音节词,都可以看 作是单汉字,三音节词、四音节词、五音节以上的词,都可以切分成双汉 字和单汉字,两个汉字的语法词组,都是双汉字,还有一些汉词无法跟 语法词对比,参看实施例中的例句。实际使用汉词的数量,明显地多于语 法词的数量。根据现代通用语法词的数量,发明人估算,现代汉语通用 汉词的数量,大约六万个,中文语料覆盖率为99%,其中,中文语料覆盖率 为95%,最常用的通用汉词,大约一万二千个。

汉词之间的距离有一个空格就可以了。在汉字编码时,首先把中文 语料切分成汉词,然后经赵词编码输入计算机,输出计算机的是分词连写 的汉词,也可以是不分词连写的汉字,但最好是汉词。分词连写将对汉 字信息处理的各种应用问题,带来无穷无尽的方便和好处。分词连写的 重要性,怎么强调都不过分。

汉词的数学定义说明。汉词是一种不同汉字重复排列的方法。参 看图4,“信”、“息”、“论”三个不同汉字的重复排列方法。根据重 复排列种数的公式:mn,以及加法定义,就可以计算出汉词的总数。计 算汉词的总数,就是汉词的数学定义。从图4汉词原理例图可以看出,由 “信”、“息”、“论”、三个不同汉字,可构造9个不同的双汉字汉词、 3个不同的单汉字汉词,共计12个不同的汉词,现代汉语实际使用的不同 汉词有4个,即:“信”、“息”、“论”、“信息”,其余的8个双汉字 汉词备用。“备用”这个道理很简单,在“信息论”没有产生以前,“信 息”这个汉词没有人使用,而现在大量使用。

汉词的数学定义,能够使计算机和普通使用者,从总体上把握汉词, 能够定量地描述汉词的各种特征,这对汉字信息处理和汉字编码各种问 题的解决,是非常有用的。再举一个例子,如果把“通讯功能的开启 和停止”。看成是一个句子,那么,共使用了10个不同汉字,使用了6个 汉词,因为本发明规定一个汉词只有一个意义,即“类属意义”,简称“ 类义”,所以,根据信息论的方法,以及汉词类义的数学模型,可以建立汉 词句子类义的数学模型:H3=log2(c2+c1)n,c≥1,1≤n≤c,

H3表示句子类义的平均信息量,单位:比特;

n表示句子里使用汉词的个数;

其它同汉词类义的数学模型。

“通讯功能的开启和停止”这句话的类义,即这句话意 义的平均信息量是当c=10,n=6时,H3=log2(c2+c1)n=log2(102+ 101)6=6×6.781=40.686比特。

对于英文词和汉语语法词来说,进行类似的计划,将是极为困难的。 汉词的数学定义,汉词类义的数学模型,句子类义的数学模型,将为第三 代汉字编码输入方法,汉字信息处理提供一个良好的工作环境。

赵词的数学定义说明。赵词的数学定义,跟汉词的数学定义,没有什 么根本地不同,只是写法和数量不同,赵词使用的是声节,是一种以语音 为主的汉字编码形式,汉词使用的是汉字,是一种规定性的汉字编码单 位,从总体数量上说,汉词比赵词要多很多。由于赵词是可以读的,所以, 可以对赵词的语音进行定量地描述。本发明规定,一个赵词只有一个语 音,不同的赵词,就有不同的语音,如果不同的赵词读音相同,即同音不同 型,也是不同的语音。赵词语音的信息量和赵词类义的信息量,计算方法 完全一样,如果不同汉字的个数跟不同声节的个数相同,那么,信息量也 就相同,这符合常识。赵词普通话语音的数学模型,H2=log2(a2+a1), a>0,将为汉字的语音输入识别与合成提供方法。用赵词编码所组成的 编码句子,即普通话语音句,计算方法同“汉词句子类义”的计算方法。 只是把“汉词句子类义的数学模型”中的“c”换成“a”,“n”表示语 音句中赵词的个数,用H4表示普通话语音句的信息量即可,即:H4=log2 (a2+a1)n,a≥1,1≤n≤a。根据汉词句子类义和语音的数学模型,可以 统一写成一种形式,即:H=log2(c2+c1)n,c>0,0<n≤c。

使用声节,不会改变普通话的语音。本发明不使用轻声音节,凡遇轻 声汉字,一律标注本调,如在小型字典上查不到汉字本调的,一律用“去 声”声调替代。

声节的编码说明。参看图1节调字母表,其中,序号1由节调字母“s、 m、g、a”构成,分别表示阴平、阳平、上声、去声四个声调,序号1的四 个节调字母跟本发明的声母,韵母组合,可编码1300个不同的声节,相 当于使用汉语拼音的四个声调符号跟声母、韵母组合,构造1300个不同 的单音节。反复使用序号1的方法,就有了序号2至序号7。其中,序号1至 序号6,共可编码不同的声节6×1300=7800个。序号7的情况比较特殊, 用一个声调字母“z”表示阴平和阳平声调,用“y”表示上声和去声声 调。GB2312-80的“一级字”的声调比例,大约是,阴平0.25、阳平0.23、 上声0.17、去声0.35,分别以最高的阴平0.25和去声0.35计算,则有, 0.25+0.35=0.6,即1300×0.6=780,用“z”和“y”两个节调字母可 编码不同的声节780个,所以有,7800+780=8580,这就是8580个不同声 节的由来。根据赵词的定义,可以计算出,单声节的不同编码形式是8580 个,双声节的不同编码形式是8580×8580=7.36164×107。赵词编码形 式的总数是:8580+85802=7.362498×107;7.362498×107个赵词,是 使汉字编码无重码的关键技术。由于赵词的总数是七千余万个,解决汉 字编码的重码问题,根本使用不完,所以,本发明规定只使用图1的序号1 至序号6的节调字母,序号7的节调字母备用。

声节共使用26个声母,参看图2声母表,其中五个元音声母“a、i、 e、o、u”只出现在声母位置上,没有读音,因为本发明不允许没有声母 的声节存在,所以,解决办法是,当声节只有韵母没有声母时,韵母的第一 字母,必须重写一次,以确保每个声节都有一个声母。因为韵母的第一个 字母都是元音字母,这样,跟汉语拼音声母表的21个声母相比,本发明就 增加了五个不发音的元音声母,声节的声母表跟汉语拼音的声母表,在使 用上没有什么不同。

声节共使用38个韵母,参看图3韵母表。跟汉语拼音的韵母表相比, 除了在写法上大多数韵母不同以外,还有四点不同,第一,一般字典的汉 语拼音韵母表列出35个韵母,韵母er未列入表内,本发明列入表内;第二, 为了使声母和韵母整齐划一,把汉语拼音没列入声母表的声母ng,本发明 作为韵母使用,列入韵母表,读音和作用都不变;第三,本发明增加一个无 读音韵母,无读音韵母只有书写形式,没有读音,作为普通话中无韵母的 汉字“口歆”、“口舞”、“唔”的韵母,以使中文语料中的任何一个 汉字,在使用本发明编码时,声节都由声母、韵母、节调三部分组成, 无一例外;第四,本发明把汉语拼音的韵母“e”并入韵母“ei”。

赵词全码使用小写英文字母,单声节由四个字母构成,双声节由八个 字母构成,赵词简码使用大写英文字母,单声节由三个字母构成,双声节 由六个字母构成,赵词的编码形式是确定的。仅看字母的个数,赵词就不 会跟英文词或者其它西文词混淆,也不会跟汉语拼音词混淆,声节的界限 也不会混淆。赵词最好使用普通话读,也可以使用不标准的普通话读,还 可以使用方言语音读。赵词只是一种汉字编码形式,不是汉语拼音词,读 音是否标准,不会影响正常使用。

从图5的“意义”,图6的“他们”,可以看出,双声节大约是汉语 拼音双音节的49倍,单声节大约是汉语拼音单音节的7倍。以现代汉语同 音词最多的“意义、异义、异议、异意、意译、奕奕、翼翼、熠熠”为 例,使用汉语拼音书写,只有一种写法“yi yi”,重码是八个。使用本发 明,只用了双声节的编码八个,没有重码。对于通用的双汉字来说,一个 同音双汉字的总数,超过六个的是少数,例如上面提到的“意义”的同音 双汉字是八个,通用的同音双汉字要达到36个,是不可能的,即使把古代、 现代、未来的都算上,可能性也极小,而通用的同音双汉字要达到49个, 更是不可能的。当然,中国人姓名、地名、科技专业词汇等使用的双汉 字,以及外国人姓名、地名、科技专业词汇翻译成中文后使用的双汉字, 属于汉词和赵词的特殊问题,根据用户的要求,发明人将另外处理。

类推,双汉字使用双声节编码无重码,根据第三条基本编码规则,从 技术的度看,就可以保证全部汉字编码无重码。现有的不同汉字就算 有十万个,假设都使用双声节编码,也才用去十万个不同的双声节,只占 七千余万个双声节的极少数。汉语拼音的双音节,虽然有1300×1300= 1.69×106个不同的书写形式,遗憾的是,双音节没有处理同音码,或者说 重码的能

对句读和句言的说明。“编码句读”和“输出句读”的形式完全相 同,只是一个用在编码前的切分,一个用在计算机输出,所以简称相同。 “拼音句言”和“输入句言”的简称相同的道理同上。句读是指汉字的 三字语和四字语,句言是指汉字编码的三个声节(相当于音节)和四个声 节的编码。使用句读的主要目的是,一是为了解决汉字编码的重码问题 ,当汉字有重码时,使用三字句读编码,三声节句言输入,可以解决重码 问题,句读和句言使用最多的形式是三声节“1+2”和“2+1”,因为本 发明的双声节即“2”不会有重码,所以,四字语“2+2”不会有重码问 题;二是为了使语义更确定,例如,汉语的“三字经”,“四字成语”等, 都能表示一个确定的意义或者故事;三是为了把句读和句言作为句处理 方法,为准备拼音的赵词和句言输入计算机后,自动转换成汉词和句读输 出,提供条件;四是为了使语句更通顺,表达更清楚,五是为了从语句中 切分出汉词更方便。

例1:万向节是一种非常灵巧的机械装置。 “A1,A2,A4,A5”表示句读,“A3,A11,A12,A21,A22,A41,A42,A51,A52” 表示汉词。切分结果如下:

万向节是一种非常灵巧的机械装置。

上述方法叫作“句读切分法”,本发明规定,一个句读必须切分成二 个汉词,并且只能切分成二个汉词,因为句读后面使用二个空格,所以, 从书面上看,句读跟汉词一样,具有形式标志,这对于计算机自动分词,将 会带来许多方便。两个句读叫作“超句读”,两个超句读叫作“次语句” 两个次语句叫作“语句”,两个语句叫作“超语句”等等,根据需要,一 直可以二合下去。虽然超句读、语句等没有形式标志,但作为一种算法, 将给自然语言理介、机器翻译等带来方便。

例2:他对该事件的意义,持有异议。

使用“句读切分法”切分“例2”,觉得很不顺手,如果把“例2”改 写成:“他对于该事件的意义,持有异议。”增加了一个“于”字,觉得 好切分一点,但还是不顺手,如果把“例2”改写成:“他对于该事件产生 的意义,持有异议。”切分就顺手一点,语句也比较通顺。这说明,句读 可以帮助用户在文字表达上,更清楚,具有修辞作用。“例2”虽然读起 来不通,但对说明如何进行编码,不会有什么不利影响。

本发明是怎样解决汉字编码重码问题的。

用户要学会GB2312-80常用汉字表的3755个汉字的赵词编码,或者学 会GB2312-80中的6763个汉字的赵词编码。根据双声节赵词无重码,句言 无重码,以及本发明将为所有的常用汉字都备有容错码。在键盘输入时, 只要编码属于下面的一项,即可保证无重码。一是同音汉字中的第一轮6 个节调序号内的汉字;二是使用双声节赵词输入;三是使用句言输入,句 言内必有一个是双声节赵词。如果不属于上述三项的汉字编码输入,才 会有重码,解决办法是使用编码的基本规则第三条,即一个单汉字固定 使用一个双声节编码。

编码的键盘图说明。全码键盘只使用了三个压缩码,即zh用y,ch用w, sh用v表示,全码使用标准英文键盘,因为压缩码只有三个,所以,全码键 盘不再画图。

“简码键盘”参看图7,是本发明的专用键盘,简码的键位代码,声母 参看图2,韵母参看图3,节调字母参看图1。图7中的键位代码,下面左侧 是全码韵母和声母,右侧中括号内是汉语拼音。“/”表示没有对应代码。

赵词编码的附加规则说明。附加规则实际上是三条基本编码规则的 一部分,三条基本编码规则都必须使用附加规则,这里是为了叙述更方便, 才单独作为一条附加规则列出来的。附加规则就是讲一个声调的6个节 调字母,如何跟同音汉字对应排序编码的方法,简称“排序”。

字频排序法,就是根据现代汉语书面语中汉字相对使用频率来“排 序”编码的。这一方法比较简单,但规律性差,用户记忆量很大。

字义排序法,发明人认为,汉字不是表示“名称”,就是表示“动 作”,所以,把“名称”一类的意义叫作“名词”,动作一类的意义,叫 作“动词”。一个汉字的意义虽多,总有一个基本意义。规定一个单汉 字汉词只表示基本意义,汉字的其它意义,使用双汉字汉词表示。例如: 汉字“打”,基本意义是“用手或器具撞击物体”,单汉字汉词是“动 词”,再细分是“动作动词”,汉字“打”的其它意义,总要跟其它汉字 连用,即使用双汉字汉词,才能表示,如:

“打手”(名词),实物名词,

“打人”(动词),动作动词,

“打发”(动词),过程动词,

“打量”(动词),静态动词,

“打算”(动词),静态动词,等等。

把汉字的基本意义分为二大类,又细分为六类基本意义,虽然“同 义”词很多,但并不影响使用。规定一个汉词只有一个意义,使“类义” 成为可以计算的,这以对汉字信息处理、汉字编码、都将带来方便。字 义排序法的主要缺点,是记忆量很大。

对六种类义的补充说明:下面的“相当于”都是指汉语中的语法语。

参看图1,

序号1,实物名词,相当于名词中的具体名词。

例如:人、山、

序号2,抽象名词,相当于名词中的抽象名词。

例如:友、思、政

序号3,代时名词,相当于代词、数量词、时间、处所、方位词等。

例如:他、年、秒、上、东、之、以。

序号4,动作动词,相当于大部分动词

例如:打、放、写

序号5:静态动词,相当于一部分动词、形容词的全部。

例如:是、大、小、好、快、慢。

序号6,过程动词,相当于一部分动词,副词、介词、助词、连词、叹 词。

例如:漂、流、很、都、在、向、地、的、得、着、了、过、和、 哈。

单汉字的类义跟双汉字的类义,有时会发生变化,例如,单汉字汉词 “学”是过程动词,“生”是过程动词,双汉字汉词“学生”是实物名词, 词义的这一变化过程,叫作“形态”,所以,“字义排序法”又叫作“形 态编码”。

另外,“字义排序法”有例外情况,例如:“他、她、它”都应属于 序号3,代时名词,但为了使用上的方便,规定:“他”,代对名词,“她”, 抽象名词,“它”,实物名词。类似的情况还有“地”、“得”、“的” 等等,对例外作专规定,显然是缺点,好在于这样的特殊汉字并不多。

现有技术相比,本发明的主要优点:

1.赵词编码在可以读的前提下,从技术上作到了使汉字编码没有一 个重码。这为普及计算机应用,创造了条件。

2.赵词编码的可读性适应面广,会说普通话或者不会说普通话的人, 都可以使用。

3.编码的基本规则就是三条,从一个汉字的编码到全都汉字的编码, 都是这三条基本编码规则。

4.汉字和赵词的数学定义,以及汉词音义句的数学模型将为汉字信 息处理各种应用问题的解决,提供方法。

5.汉词和赵词的数学定义和音义句的数学模型说明,赵词比英文词 更适宜计算机处理。

下面结合附图的图面对本发明的内容说明如下:

图1,节调字母表(类义字母表);

图2,声母表;

图3,韵母表;

图4,汉词原理例图;

图5,“意义”的拼音汉词编码表;

图6,“他们”的拼音汉词编码表;

图7,简码键盘图。

结合附图说明具体实施例;

在使用拼音汉词编码时,首先要从中文语料中切分出汉词。切分汉 词,可以看作是使用一个汉字和二个汉字进行修辞的过程。所以,除了在 形式上有相似之处外,汉字跟语法词没有任何关系。根据“汉词定义”, 是切分汉词的基本方法,图4是切分汉词的基本原理,例1是语法词和汉 词的切分结果对比。

例1.①万向节/是/一/种/非常/灵巧/的/机械装置。(语法 词切分)

②万向节是一种非常灵巧的机械装置。(汉字定义切 分)

从例1的①和②,可以直观地看出语法词和汉词的不同。语法词的主 要问题是词的定义无法把握,给切分造成困难,而汉词的定义简单明确, 就是根据一个汉字和二个汉字进行切分。因为切分汉词跟个人的修辞水 平有关,所以,操作者必须是以汉语为母语的具有初中以上文化的人。

对于同一个中文语料,不同的人切分出的汉词,一般地说是一样的。 因为人们的倾向,总是希望有最好的修辞表达,总是希望切分出最好的 汉词,在同一文化背景下,人们的思维方式,对“好坏”的理解程度, 也总是一样的。有例外也是正常的,切分出不同的汉词,可以看作是修 辞水平不同,或者是表达方法不同,也就是使用的汉词不同,还可以看 作是创新,也可以看作是糟粕,不规范,等等这一切,都有可能发生。 一般地说,好的汉词切分结果只有一种,不好的和一般的切分结果是多 种多样的,而创新和糟粕,总是极个别的。

汉词切分出来以后,就可以使用赵词进行编码,参看图1至图6,为了 便于理解,发明人首先给出例句的汉语语法和汉语拼音词的书写形式, 然后再给出汉词和拼音汉词编码。例2是使用“字频排序法”、全码的 例句。

例2:

①他/对/ 该/  事/  件/  的/ 意义, 持/  有/异议。(汉语语法词)

②Tāduìgāi shìjīān de yìyì,chíyǒu yìyì (汉语拼音词)

③他对该事件的意义,持有异议。(汉词)

④Tai sduca gaks vihdjimb defa iihbiiha,wihmiidg iihciihd

    1     1    1    4   2    1    2         1   1    3  [4]  (拼音汉词全码,字频排序法)

在例2的④中,赵词下面的阿拉伯数字1、2、3、4、以及没有使用 的5、6,跟图1的节调序号1至序号6中的节调字母一一对应,跟GB2312- 80中现代常用汉字表的3755个汉字中每个音节的六个同音汉字一一对应, 对应由发明人根据字频规定,参看下面例2的同音汉字统计表中汉字右 下侧的数字。在例2的④中,赵词下面的带中括号的阿拉伯数字[1]、[2]、 [3]、[4]、[5]、[6],跟图1的节调序号1至序号6中的节调字母一一对应, 跟GB2312-80常用汉字表的3755个汉字中每个音节的第七个及更多的同 音汉字一一对应,对应由发明人规定,参看下面例2的同音汉字统计表中 汉字右下侧的数字。例2的④中只使用了[4],只是为了学习和说明方便 才标注的,学会了赵词,就不必标注了。

下面拼音汉词简码、字义排序法仍然使用例2的句子。

⑤他对该事件的意义,持有异议。

⑥TAUDTF GLX VIBJYC DEF IIBIIE,WIPIWK IIFIIA.(拼音汉词

    3  6   6   2  3   6  [2][5]   4  5   6  1 编码、字义排序法)

在⑤中的“该事件”和“持有异议”是句读,其它是汉词。句读 后面有二个空格,句读后面有标点符号时,标点符号前加一个空格,表示 前面是句读。

在⑥中的“GLX VIBJYC”和“WIPIWK IIFIIA”是句言,其它是赵词。 空格的规定同⑤中的句读。

例2中的同音汉字统计表,前面标的是汉语拼音,汉字右下角的数字 是“字频排序法”中的汉字排序序号,在汉字下方的数字是“字义排序 法”中的汉字排序序号。

例2的④中,提到的“对应由发明人规定”,在例2的⑥中,改写成 “对应由汉字的基本意义决定,即由类义决定。”汉字的基本意义可以 查《现代汉语词典》,或者由发明人提供。

使用赵词简码时,声节如果没有声母,韵母的第一个字母,是指赵词 全码的第一个字母,要重写一次,例如:“瓦”,汉语拼音,“wǎ”,赵词 全码:“uulg”,赵词简码:“UCG”。赵词简码不能写成“CCG”。

例2的同音汉字统计表:

1/tā        塌4   他1   它3   她2

         4      3      1      2

2/duì       兑3   队2   对1

         4      1      6

3/gāī      该1

         6

4/shì       式6   示[5] 士[1]  世[2] 柿[1] 事4

         1      4      [1]    [3]    [1]    2

拭[3] 誓[5] 逝[5] 势[2] 是1  嗜[4]

[4]    [4]    [6]    [5]    5     [5]

筮[6] 适[3] 仕[6] 侍[2] 释[3]饰[4]

[4]    [5]    [1]    [6]    6     [5]

氏5   市2   恃[6] 室3   视[3]试[1]

[2]    3      [5]    [3]    [4]   [6] (例3使用的“轼”字,属于GB2312-80的次常用字,发明人规定为“轼[2]”。)

                                                       [1]         

5/jīǎn     荐[2] 槛[4] 鉴[1] 践[5] 贱[5] 见1

           5      [1]    [1]    [4]    [5]    4

           键[2] 箭6   件2   健[6] 舰[1] 剑5

           1      [1]    3      [5]    [1]    [1]

           饯[3] 渐4   溅[4] 涧[5] 建3

           [4]    [5]    [4]    [1]    6

6/de      的1(根据本发明的规定,轻声汉字如在小型字典上查不到

          6 汉字本调的,用去声声调替代,把de写成dè)

7/yì    艺4  抑[2] 易[5] 邑[1] 屹[4] 亿[6]

       2     4      [6]    [1]    [5]    3

       臆[6]逸[5] 肄[6] 疫[6] 亦[1] 裔[2]

       [1]   [5]    [6]    [1]    [5]    [1]

       意2  毅[3] 忆[3] 义1   益[1] 溢[4]

       [2]   [5]    [6]    5      5      [4]

       诣[2]议[4] 谊[2] 译[4] 异3   翼[5]

       [5]   1      [5]    [5]    6      [1]

       翌[4]绎[3]

       [3]   [6]

8/chí 持1  匙2   池3   迟4   弛5   驰6

       4     [1]    1      5      6      [5] 

9/yǒu 酉3  有1   友2

       3     5      1 

例3:         ①题/西林壁    苏/轼

         横/看/成/岭/侧/成/峰,

         远/近/高/低/各/不同。

         不/识/庐山/真/面目,

         只/缘/身/在/此/山中。(汉语语法词)

②       TíxīLíBì  Sū SHì

   Héng  Kàn chéng Líng cè chéng  fēng,

   yuǎn  jìn gāo  dí gé bùtóng。

   Bù  shí Lúshān  zhēn miànmù,

   zhǐ  yuán shēn   zài  cī shānzhōng。(汉语拼音)

③          题西林壁       苏轼

        横看 成岭  侧 成峰。

        远近 高低  各 不同。

        不识 庐山  真 面目。

        只缘 身在  此 山中。  (汉词)

④TIHN  XIHSLINN  BIHF  SUIHS VIHB(YIHV)

     2      1   2     6     1   [2]  [4]

  Hebmkama webmlibh  cefc webmfebw.

     1   1    1   2     3    1   5

  Oomgjinb gagsdihs  gefb buhatoym.

     1   2    1   1     2    1   1

  Buhavihn Luhnvams  ycns mimamuhb.

     1 [2]    2   1     1    1   2

  yihjoomm vcnuzaka  cihg vamsyoys.(拼音汉词全码、字频排序法)

     4[1]     3   1     1    1   1

例3的说明如下;

例3的同音汉字统计表略,其方法同例2的同音汉字统计表。

汉字“轼”用的很少,在现代汉语里,只是作为人名使用,按照本发 明的第三条基本编码规则,汉字“轼”作为单汉字使用时,必须写成双 声节,“vihb(yihv)”,即“轼之”,这样写是发明人规定的。小括号

      [2]  [4] ( )表示括号内的声节不输出汉字,但必须编码输入计算机,作为人名地 名使用的“人名类”汉字,椐台湾的有关部门统计,大约是二万五千多个, 其中的通用汉字还好办,比汉字“轼”用得更少的汉字也不少,对普通使 用者来说,学习大量的象“轼之”这样的现代汉语不使用的双汉字及双 声节,以及大量的双汉字专用人名及双声节,显然是不合适的。科技专业 汉字等,也属于这类问题,对此,发明人将另外设法外理。

汉字“识”和“缘”,虽然是常用汉字,但不在发明人规定的同音汉 字中的六个汉字序号之内,但“不识”,“只缘”是双汉字,编码用双声 节,“buhavihn”、“yihjoomm”,符合第一条基本编码规则。

     1  [2]        4  [1]

汉字“侧”、“各”、“真”、“此”、“题”、“壁”、“苏” 是单汉字,在发明人规定的六个汉字序号之内,编码用单声节,“ccfc”、

                                                         3 “gcfb”、“yens”、“cihg”、

 2         1         1 “tihn”、“bihf”、“suhs”,符合第二条编码规则。

 2         6         1

只要是双汉字,就适用于第一条编码规则,一个双汉字固定使用一 个双声节编码。大多数常用单汉字适用于第二条基本编码规则,一个单 汉字固定使用一个单声节编码。少数常用单汉字、所有的不常用单汉字 及今后新产生的单汉字,适用于第三条基本编码规则,一个单汉字固定使 用一个双声节编码。当你对拼音汉词编码熟练应用以后,第三条基本编 码规则可以灵活使用,即,一个单汉字可以使用多个相关的双声节编码。 例如,汉字“轼”还可以写成双声节“(pibq)vihb”,即“凭轼”,根据 使用者的方便,自己决定。但第一条和第二条基本编码规则是永远不能 变的。拼音汉词编码,就是反复使用这三条基本的编码规则。

高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈