首页 / 专利库 / 人工智能 / 语言建模 / n元语法模型 / 词串 / 根码思维模式词语处理系统

根码思维模式词语处理系统

阅读:93发布:2020-11-21

专利汇可以提供根码思维模式词语处理系统专利检索,专利查询,专利分析的服务。并且根码思维模式词语处理系统,属于 电子 计算机汉字输入的技术领域。本 发明 提供了一套分词、编码输入、记录的方法和专用的输入装置。主要特点是①取思维模式、象思维的慢镜头似地以一串串的单词、复词为输入单位。②对字、单词和复词用汉语拼音的首字母和39个汉字部件编码输入。③有重时,自动智能选重。④并以与单、复词对应具有语义的记录码形成智能文本。④这些独特的功能可借助造价低廉的输入装置来实现。,下面是根码思维模式词语处理系统专利的具体信息内容。

1、一种以词组为主,利用音、形结合进行编码输入,以汉字机内码进行传输的汉字处理方法,其特征在于:
-采用与思维一致,字数入手、语义为据的分词技术,把待输句子分成2~4个字的单词串,或二条、二条以上的单词组合成的复词串以及少数单用字,这就是编码、输入、和记录的单元;
-用汉语拼音的首字母和39个部件对单词、复词及汉字编码;
-每个汉字编2码,每条单词编4码,单词码由字码组成,每条复调编4码加插一空格,复词码由单词码组成;
-编码输入时如有重码,系统自动进行智能选重;
-输入后,以与之对应具有语义的记录码进行记录,形成智能文本、或通讯传输,只有向打印机、显示器等输出时才以汉字机内码传输、显示字符。
2、一种专用于权利要求1所述方法包括CPU部(201)、液晶显示部(203)、电源部(204)、RS232接口部(205)的汉字输入装置,其特征是把系统部分(1)和基本部分(2)做在一个机壳内:
-系统部分(1)含有键盘(101)和智能文本读出部(102)、检出控制部(106)、单词管理部(105)、单词库(104)、复词合成管理部(103)、符号库(107)、智能选重部(108)、缓存部(109)等结构功能;这些结构功能块主要由一些专用控制电路和存贮器构成,存贮器总容量1.2~2.5兆;
-基本部分(2)含有CPU部(201)、液晶显示部(203)、电源部(204)、RS232接口部(205)和外延I/O插口(202)等;CPU部(201)中的CPU为8088或80286,时钟频率>8MHZ。
3、根据权利要求1所述的方法,其特征是分词技术还遵循“三先二优四严卡,大五为复义可加”的规则,所有中文词汇经分词技术处理后,其中单词汇集成中文单词库,库中每条单词有与其对应的输入编码和具有语义信息的记录码,中文单词库可以用于汉字输入、中文信息处理等方面。
4、根据权利要求1~2所述的方法和装置,其特征是键盘(101)为普通英文电脑键盘扩展成编码键盘(如图2),其中26个英文字母代表汉语拼音首字母,3个卷舌音除和i、u相拼外分别定在AIU3键,以 、 标出,12个不取首字母的音节,分4组标在VERO4个键位上,用它们编第一码;用于编第二码的39个部件,其中31个为偏旁字型,首先用这31个偏旁字型按所标键编第二码,不属于这31个偏旁字型的汉字:是左右型的取起笔按YUIOP5键所标编码,非左右型的起笔处含“十、、丷”的按DF键所标编码,不含这3个部件的取起笔按GHJKL5键所标编码;据此对GB2312-80中全部6763个汉字简、繁两体,分别逐个编码,形成二套根码汉字编码码本。
5、根据权利要求1所述的方法,其特征是自动进行智能选重为根据记录码所含有的语义信息,以及由骨架词构成的句型进行理解,首先利用骨架词对后随词的指向进行判断,遇句号后再对全句进行最后确定;当人工智能对重码的处理达到一定程度时,单、复词的输入编码可以缩短为3码。
6、根据权利要求1所述的方法,其特征是如果连接以“字”为单元输入时,系统会自动将它们串成词;输入后以记录码记录的智能文本,具有语义、词间间隔,句型等信息,可以用于进一步的自动标引、自动文摘等中文信息处理。
7、根据权利要求1,3,5所述的方法,其特征是按行业的不同而制作各种相应的版本供用户选用,任何人都可以使用任何版本,但以适合自己行业的版本最容易取得高效。
8、根据权利要求2所述的装置,其特征是键盘(101)和液晶显示部(203)的显示屏置于机壳上表面或开合箱式机壳的二个内表面,机壳或开合箱式机壳由金属或塑料制成;根据基本部分(2)是否利用IBM  pc8088或80286的主机板等的取材不同,可有多种实施情况。
9、根据权利要求2、8所述的输入装置,其特征是输入装置单独工作,仅在装置内缓存部(109)的存贮空间被文本充满时或其它需要时才通过RS232接口部(205)或外延I/O插口(202)与外接公共机(3)进行数据交换;外接公共机中的微机系统(302)可以是微机系统、电脑打字机、电脑排版系统,也可以只是单独的打印机等,I/O扩展箱(301)可以只有一个3.5软盘驱动器,也可以有数个不同规格的软盘驱动器、硬盘、显示器、打印机等外设及电源;系统部分(1)除键盘(101)以外部分可以做成扩充卡,插到现有微机的扩展槽里,以提高现有微机的汉字处理功能。
10、根据权利要求1,3~6所述的方法,其特征是除用于权利要求2,8~9所述的专用输入装置外,还可以用在大、中、小、微型电子计算机系统,汉字电传机、电脑打字机、终端机及通讯系统上;其中汉语分词、中文单词库、智能文本、和按行业分版本等方法还可用于语音输入,中文单词库、智能文本还可用于自动识别输入。

说明书全文

发明是一种汉字编码输入、记录的方法和装置;它属于电子计算机汉字输入领域;包括以简便的输入编码和具有语义的记录码为根本,取思维模式地以单、复词为单元,编码输入、记录;和兼价的输入装置,特别适应于我国办公室的自动化。

现有利用电脑或电脑打字机等输入汉字还未普及,使用者多为专职输入员,然而数十种在应用的输入法之中,以五笔字型(CN-85100837A)装机量最大,最有代表性。其不足之处是把字拆成130个字根,用字根编码,并采用大量的简码,难学难记,很难被非专职人员所接受,不适应计算机的普及应用。CN-87105289和CN-89106796公开了一种音形结合的编码方法,不足之处是仍然针对字这个低层次信息来编码,虽然采用了可以简化编码的音形结合方式,也难以取得高效率。CN-88101281公开了以字串为主的编码方法,不足之处是采用全拼音,没有抓住词的特性去简化编码,没有看到汉语分词的必然性和实用性。CN-87108006公开了一种自动分隔成词组的方法,不足之处是仅仅为了输入时将汉语拼音串转换成汉字串。在CN-87104695中公开了一种词语编码的方法及其多功能汉字电脑装置。它的目的是提供一种多种编码方法并用,词组编码为主、字为辅的方法以及使用该方法的多功能汉字电脑的装置。构成是用汉字首音、汉字偏旁的首字首音为基本编码元素;以声母码、声旁码、声位码组合成多种编码方法并用。以及由现有电脑、输出装置加上装在软盘驱动器中的软件固化在EPROM中的软件模块和用该方法命名的通用ASCII键盘。不足之处是①没有充分发挥针对词语、取音形结合可使编码极为简便的合,致使编码仍然复杂。②没有采用汉语分词技术,虽然以词语编码为主,但实际上只有少部分的词组才能以词语形式输入。没有采用汉语分词技术的词组输入还有 四大弊端:a.输入时取词难,词组输入也要记忆。如要输“微型电子计算机会计算题目吗?”一句,其中可有“微型电子计算机会计算题目吗?”、“微型电子计算机会计算题目吗?”、“微型电子计算机会计算题目吗?”“微型电子计算机会计算题目吗?”等多种组合,如不记住机内的组合形式,就可能扑空。如果将所有可能的组合都收集入库,词库之大将使b.计算机容量难以接受,还要使c.编码的位数增加,更大的影响是d.难以设置人工智能,汉字输入的发展必将与自然语言理解相联系,变为理解的输入,才能使汉字输入产生根本的变化。只有使用分词技术、却到好处地将句分成若干语义明确、使用灵活的语义块之后,才可能在普通的微机上实现智能;要不“微型电子计算机会计算题目吗?”一句中要避免不被电脑误解成“微型电子计算机会计算题目吗?”将是一个多么大的系统?③该专利虽已采用词组输入,可是输入后仍然没有把宝贵的词间间隔、明确语义块等信息保留下来。另一方面④它所公开的多功能汉字电脑系统含有1~4个5.5软盘驱动器、打印机、显示器等,以及所公开的汉化通用ASCII键盘,编码难、记忆量大,没有做到以最少的配备实现高效率的汉字输入,没有利用一个简单的装置去取代现有微机系统、电脑打字机的汉字输入工作,而让这些微机系统、电脑打字机作为公用机或做其它工作;将打字机、软盘、硬盘驱动器等汉字输入时闲着以及没有必要的彩色显示器等部件解放出来,共用和它用。

本发明的目的在于避免上述现有技术中的不足之处而提供一种简单易学,记忆极少而高效率的、适合大众而各有发挥之处的汉字输入方法;以及专用这一方法,操作简单、价兼的汉字输入装置。同时解决汉语词与词之间在书面上没有明显界限的弊端;把汉字输入与自然语言理解相联系,为汉语文本进行自动标引、自动文摘等中文信息处理提供素材。名阅“根码”,即旨在使汉字输入产生根本的变化,并用汉字输入装置去取代人们手中的笔和纸。

本发明的目的可以通过以下措施来达到:采用以词组为主,利用音、形结合的形式进行编码输入的方法,其特殊之处在于采用与思维一致,字数入手、语义为据的分词技术,把待输句子分成2~4个字的单词串,或二条、二条以 上的单词组合成的复词串以及少数单用字,这就是编码、输入和记录的单元;以汉语拼音的首字母和39个部件对汉字、单词、复词进行编码,每个汉字编2码,每条单词编4码,单词码由字码组成,每条复词编4码加插一空格,复词码由单词码组成;编码输入时如出现重码,自动进行智能选重;输入后,以与之对应具有语义的记录码进行记录,形成智能文本、或通讯传输,只有向打印机、显示器等输出时才以汉字机内码传输、显示出字符。同时制作一种专用上述方法包括系统部分和基本部分的汉字输入装置,如图1。把系统部分(1)和基本部分(2)做在一个机壳内。其中系统部分含有:键盘、智能文本读出部、检出控制部、单词管理部、单词库、复词合成管理部、符号库、智能选重部、缓存部等结构功能块;这些结构功能块主要由一些专用控制电路和存贮器构成,存贮器总容量1.2~2.5兆;基本部分含有CPU部、液晶显示部、电源部、RS232接口部和外延I/O插口等;CPU部中的CPU为8088或80286,时钟频率>8MHZ。

本发明的目的还可以通过以下措施达到:①把上述的分词技术,还加上“三先二优四严卡,大五为复义可加”的规则,所有中文词汇经分词技术处理后,其中单词汇集成中文单词库,库中每条单词有与其对应的输入编码和具有语义信息的记录码,中文单词库可以用于汉字输入、中文信息处理等方面。②上述的键盘为普通英文电脑键盘扩展成编码键盘,其中26个英文字母代表汉语拼音首字母,3个卷舌音除和i、u相拼外分别定在AIU3键,以 、 标出,12个不取首字母的音节,分4组标在VERO4个键位上,用它们编第一码;用于编第二码的39个部件,其中31个为偏旁字型,首先用这31个偏旁字型按所标键编第二码,不属于这31个偏旁字型的汉字:是左右型的取起笔按YUIOP5键所标编码,非左右型的起笔处含“十、、丷”的按DF键所标编码,不含这3个部件的取起笔按GHJKL5键所标编码;据此对GB2312-80中全部6763个汉字简、繁两体,分别逐个编码,形成二套根码汉字编码码本。③上述的自动进行智能选重是根据记录码所含有的语义信息,以及由骨架词构成的句型进行理解,首先利用骨架词对后随词 的指向进行判断,遇句号后再对全句进行最后确定;当人工智能对重码的处理达到一定程度时,单、复词的输入编码可以缩短为3码。④上述的自动组词是在连接以“字”为单元输入时,系统会自动将它们串成词;输入后以记录码记录的智能文本,具有语义、词间间隔,句型等信息,可以用于进一步的自动标引、自动文摘等中文信息处理。⑤根据上述的汉语分词、编码方法和中文单词库,按行业的不同而制作各种相应的版本供用户选用,任何人都可以使用任何版本,但以适合自己行业的版本最容易取得高效。⑥上述输入装置的键盘和液晶显示部置于机壳上表面或开合箱式的二个内表面,机壳由金属或塑料制成;根据基本部分的CPU部是否采用IBM  pc8088或80286的主机板等的取材不同,可有多种实施情况。⑦上述的输入装置,为单独工作,仅在装置内缓存部的存贮空间被文本充满时或其它需要时才通过RS232接口部或外延I/O插口与外接公共机(3)进行数据交换,外接公共机中的微机系统可以是微机系统、电脑打字机、电脑排版系统,也可以只是单独的打印机等,I/O扩展箱可以只有一个3.5软盘驱动器,也可以有数个不同规格的软盘驱动器、硬盘,显示器、打印机等外设及电源;系统部分(1)除键盘以外部分可以做成扩充卡,插到现有微机的扩展槽里,以提高现有微机的汉字处理功能。⑧上述的汉语分词和汉字编码、记录等方法除用于上述的专用输入装置外,还可以用在大、中、小、微型电子计算机系统,汉字电传机、电脑打字机、终端机及通讯系统上;其中汉语分词、中文单词库、智能文本和按行业分版本等方法还可以用于语音输入,中文单词库和智能文本还可用于自动识别输入。

附图说明:

图1.汉字输入装置方框图

图2.编码键盘布局示意图

下面结合实施例和附图将本发明的技术内容详述如下:

一、汉语分词技术分词与思维一致,遵循“字数入手,语义为据;三先二优四严卡,大五为复义可加”的规则。在思维中,以3、2、4、1的次序 扫描,有停顿(即符合本规则)便将其分开,如同思维的慢境头,很自然地变成一串串的单词,词串间有间隙,如:

“他们  想不到  爱迪生  竟是  这样  一位  奇迹般  的  人物,一天  夜里  他们  悄悄地  来到  爱迪生  的  房间,向  房里  望了望,爱迪生  正在  酣睡,而  他的  仪器  却在  发  字母  A  呢!”

“中国  共产党  中央  委员会”

这就是所分的一条条单词及少数单用字。单词是含2~4个汉字,语义明确,可以单用,使用灵活,理解方便的基本语义块;它是表示一件事物、一个概念以及与该事物、该概念直接相关的属性或修饰成分。二条或二条以上的单词(可以含字、数字或其它符号)组合成复词(如“中国共产党中央委员会”,它是由4条单词所组成的一条复词)。单词和复词都是汉字输入、理解和记录的单位。复词的语义除少数情况外,均可由单词简单相加而得。现将分词规则阐述如下:

1.“字数入手,语义为据;”字数作为分词的一条重要线索。以字数入手,这样不但思维反应快,而且容易使人们做到分词的同一。同时也符合组词在语义上的规律。分词并否机械地以字数来断词,分词的根据是语义。也就是以语义为根据,将句子分成若干具有上述概念的单词。

2.“三先”“三先二优四严卡”进一步从考虑次序和字数构成上加以说明。“三先”居三、二、四、一的考虑次序之首。三减一加一,分别是二和四,然而先读入三字,思维会很快地扫描第二、第四个字,是三字单词取之;否则,是二、是四也就自然可得了。构成三字单词的有二种情况:①由三个字(1+1+1)构成。如:老中青、工农兵、着眼点、不算好、她笑了、立足点、这笔钱、德智体、头颈部、等等。②由二字单词再加上一个字(2+1或1+2)构成。由单词加字构成,与复词有点类似。但与复词不同,除字数特征外,语义不是由它的成分简单相加可得,而有所转变。如:工业化、参谋长、大部分、独创性、复印机、副作用、革命化、公有制、反作用、计算机、年轻化、目的地、年产量、突破口、小朋友、等等。

3.“二优”二字单词在分词考虑顺序上居三字之后。二字单词都由2个字构成,它不但可以参加构成复词,还可以参与其它字数单词的构成。“优”除了与其它字数单词相同之外,还有特别优待之处。①完全属于上述单词概念与要求的如:汉语、拼音、人工、智能、当代、科学、计算、规律、法则、等等。②特别优待的是:有些单用词,如果碰到一块,在句中起联系、转接,或者是语气性作用、单位名称的,也当作二字单词。如例“电  是由  发电站  发出的。如果  电压高  的话,小电流  就能  输送  大电量。电缆  内的  电压  可高达  13  万伏。那么,灌溉  就将  很困难  了。”中的:是由、的话、就能、内的、就将、等。

4.“四严卡”二字单词除了符合普通规律外,还有特别优待之处。三字单词没有优待,但也不受严卡之限,它的1+1+1和2+1、1+2两种情况,全部作为单词。而四字单词则不同,要“严卡”。四字词有如下五种情况,1~4都为单词,5是复词。①由4个字(1+1+1+1)构成,如:不言而喻、不正之、以理服人、除此之外、高瞻远瞩、道听途说、得不尝失、出谋划策、顾此失彼、提心吊胆、按劳取酬、总而言之、生吞活剥、掩盗铃、等等。②由二字单词加字(2+1+1或1+1+2)构成,如:不太清楚、这一学说、其中之一、藏了起来、没完没了、不顾一切、加以注意、干劲冲天、坚定不移、共产主义、通宵达旦、按需分配、身心健康、自我牺牲、等等。③由三字单词加字(3+1或1+3)构成,如:共产党员、绝大部分、总后勤部、总政治部、外老太太、近几年来、具体地说、另一方面、微处理机、等等。④有叠字的四字单词,它们和上面所列一样,亦都是单词。如:悉悉索索、老老实实、兢兢业业、安安生生、进进出出、时时刻刻;格格不入、牢牢掌握、面面俱到、默默无闻、恋恋不舍、想入非非;所作所为、彻头彻尾、各式各样、有条有理、十全十美、等等。⑤由2个二字单词(2+2)构成的四字词,它们由可以完全独立的2条二字单词组成,语义也可由这两条单词的简单相加而得,它们虽然字数与四字单词相同,但已不是单词,而是复词。与上面所列作一比较,很容易区别它们,如:爱国  主义、文化  程度、发达  国家、发明 创造、对内  搞活、中国  人民、中华  民族、专业  设备、物质  文明、文学  艺术、等等。“四严卡”即要注意别把⑤这部分误作单词。

5.“大五为复义可加。”作为现代汉语的词汇,等于、大于五字的情况往往很多,但它们并非单词,而是单词的再组合形式-复词。等于、大于五个字的词汇都是复词。复词的语义大都可以从单词的语义上简单相加而得。但少数情况例外。①它们的语义是单词语义的简单相加。这部分占比例很大,如:促  肾上腺  皮质  激素、大规模  集成电路、非向量  算术  运算、非中结中断  状态、二巯基  丙磺酸钠、保卫  祖国、克服  困难、天气  预报、文化  程度、提高  警惕、等等。②它们的语义不能从单词语义简单的相加而得。这部分占比例很少,把它们看作是单词组合成复词的一个特殊形式。如:“打破  砂锅  问  到底”、“磨刀  不误  砍柴  工”、“三个  臭  皮匠,顶个  诸葛亮”、“姜太公  钓鱼-愿者  上钩”等。

6.在3、2、4字单词考虑之后,都不行,最后才考虑分单用字。单用词不但汉字输入速度慢,更讨厌的是语义块太小,多义的情况又多。按本方法分词之后,要用单用字的比例很少(占文章字数6%左右)。将其中高频的26个提出定于26个字母键,可以减少单用字的击键数。

二、中文单词库  经过上述方法的分词以后,所分开的一条条单词便是中文单词库的具体内容,中文单词库是中文词汇的主要部分(数量远少于中文词汇),由于单词是语义明确、可以单用、理解方便的基本语义块,所以复词以及句子、文章、都是由一条条如此理解方便的单词构成。单词的语义,以记录码的形式存在于中文单词库中(记录码的编制和骨架词,以及骨架词的指向等参见连带专利CN-87107881,下同)。所有单词汇集成中文单词库,每条单词都有与其对应的输入编码和具有语义信息的记录码。中文单词库可以用于智能输入、形成智能文本和中文信息处理。

单词收集建库,由于复词为单词的组合形式,所以复词无需建库,只要设置一些指针便可以实现复词的合成与输出。记录是这样,与复词串相对应的记录码是在它的单词记录码中间加上一个连词符。

人们都工作在各自的行业范围之内。然而提供给用户的不必要也不可能是整个中文单词库。本系统将根据行业不同给以相应的中文单词分库。借此本系统备有若干行业版本供用户选用。

各行业版本之间,只是一部分有关行业的单、复词不同,以及一些涉及专业信息处理上会有所差异。对于使用者,都是一样操作。然而,任何人可以使用任何版本,但以适合自己行业的版本最容易取得高效。由于用汉语分词技术处理建库词汇,在汉字输入和汉字词频统计工作上尚无先例,所以还要做一项各行业实用单、复词及词频统计工作,并在社会实践中形成各行业单、复词的实用子集。行业版本的划分不一定与社会职业相同,行业版本的设定是根据所用单、复词每版4~6万,与普通计算机处理能力相适宜为度。

三、汉字编码和编码键盘  用普通英文电脑键盘扩展为汉字编码键盘。由于输入单位已是单词和复词,这与现有汉字编码显然不同。用26个英文字母键,每个字只需编2码;这2码则要求有很强的离散能力。此外,用音还是用形,这又有很大差别。当只需用字的第一码组合成单词或复词码时,又在一定的语义场(有智能)之下,音码有独到之处。所以本法采用音、形结合,并取以音为主的方式。

编码键盘(如图2)的产生:取汉语拼音的首字母编第一码,键盘上的26个英文字母分别代表汉语拼音的首字母。对zh、ch、sh三个卷舌音除与i、u相拼外分别定在a、i、u三键,12个不取首字母的音节分4组定在erov4个键位上:其中Li、Lu、Lo三个音节定在e键,ji、ju、jian、jia定在o键,xi、xu定在r键,yi、yu、yan定在v键,这12个音节编码所取与首字母不一致,如图2。第二码取形。首先将GB2312-80中的汉字选出31个偏旁,以偏旁字型( )的形式标在编码键盘上(如图2),表示偏旁所处位置固定,偏旁以外部分只能在所标的′ ′内。如′ ′仅指′相、校、标′等等,而不包括′李、杀′以及′木′字;′ ′仅指′叶、啡、鸣′等等,不包括′嗣、右、号、否′以及′口′字。同时,也不作任何延伸,如′ ′不延伸′廴′, ′ ′不延伸′口′等。其中,′艹、氵′这二个含字数特多的偏旁让它们跨了二个键位,如′ ′取S,′ ′取D,′ ′取N,′ ′取M。不属于这些偏旁字型的分为左右型和非左右型,两型都取起笔,用五个基本笔“一、丨、丿、丶、 ”编码。左右型即有纵向间隙,可以分成左右二部分或左、中、右等二个以上部分的汉字,它们用上一排(YUIOP)五键所标的五个基本笔编码。非左右型的汉字,它们起笔处是′十、、丷′的如图2所标取D、F键,起笔处不含这三个部件的取五个基本笔,用中间一排(GHJKL)五键所标的五个基本笔编码。

(一)字编码:每个汉字编两码。

1.用汉语拼音的首字母编第一码(音)。需要说明的有:

①zh、ch、sh三个卷舌音除了和i、u相拼外,分别依次用a、i、u代之。

②标出的12个音节按所标键取之。

2.用39个部件编第二码(形)。如下依次符合即取之。

①取31个偏旁字型。

②非左右型汉字以起笔处含“十、、丷”取之。

③以起笔是“一、丨、丿、丶、 ”五个基本笔取之;其中左右型用上一排(YUIOP),非左右型用中间一排(GHJKL)。

以字为单位输入时,输入2码后,用数字键选重。为了方便盲打,用1~5分别代表一、丨、丿(含 五个基本笔。对一些常常以一个字单独使用的汉字,以它最靠下、右的一笔,用这五个基本笔取之(如:的di5 了112 后hj1 反fj3 要yg3 般bi3 象xj4或hg4等)。这只需在码表中将它们放到第1~5相应的次序即可。

根据上述的汉字编码键盘(如图2)和编码方法,对GB2312-80中全部6763个汉字简繁两体,分别逐个编码,形成二套根码汉字编码码本,是单词、复词输入编码的基础。其中多音字将有关词汇的读音列出,供产生单、复词编码时使用。

(二)单词编码:由字码组成,每条单词编四码。即:

2字单词=第1个字码+第2个字码=音+形+音+形

3字单词=第1~3字第一码+第三字的第二码=音+音+音+形

4字单词=1~4字的第一码=音+音+音+音

(三)复词编码:由单词码组成,每条复词编四码。即:

2条单词组成的复词=第1条单词前两码+第2条单词前两码。

3条单词组成的复词=第1~3条单词第一码+第3条单词第二码。

4、>4条单词组成的复词=前1~3条单词第一码+最后一单词的第一码。

复词附则:①在输入时复词四个码之间任一处插入一个空格。

②2字单词参加复词时码次改为:音、音、形、形。

(四)其它:对4个高频汉语标点符号“,。、;”依次定在“,./;”键上,一键输入。把其它符号包括其它文种字母,区位表中1~6区的符号,置于符号库,二键编码输入(少用的让它有重,加数字选重输入);约定它们的第一码为键盘上11个符号键除已用于高频符号4个以外的7个之一,第二码可以是26个英文字母,数字或符号键。其中把以“′”开头后随26个字母和10个数字共36个码留给最高频的单用字,每字每次可以少击键1次。意义不如多串复词大。处理是系统提供,让用户选用。

此外,本系统早期的版本,人工智能程度较低。对重码敏感的用户可采用分组技术,对复词要插入一个空格约定为:①复词在最后一条单词码前插入一个空格。这样由2或3条单词组成的复词击键为M1+M2+空格+m3+m4而大于或等于4条单词组成的复词击键为m1+m2+m3+空格+m4②对由3或4个字构成的单词在第一码后插入一个空格,击键为m1+空格+m2+m3+m4。这两种分组方法用户可分别临时设定。

四、智能输入和智能文本  使用者只管利用上述的分词和编码方法击键输入。字、单词、复词混合输入,无须用转换键。

例如:

TZMZ  SBDY  ADUF  JKSH  AAYW  VGWZ  QOBI  DI5  RFWI  V  T  Y  E

他们  想不到  爱迪生  竟是  这样  一位  奇迹般  的  人物,一天  夜里

TZMZ  QQDQ  LDDY  ADUF  DI5  FKOA  XJ5  FKEH  WLWK  ADUF  AGZG  HQUT

他们  悄悄地  来到  爱迪生  的  房间,向  房里  望了望,爱迪生  正在  酣睡,

EG5  TZDI  VZQH  QYZG  FL3  ZLMH  A  NR5

而  他的  仪器  却在  发  字母  A  呢!

HV  PY  RG  ZN  DZ  OS  Q  D  RW

汉语  拼音  人工  智能  电子  计算机  奇迹般  的  人物

K  B  J  S  C  I  B  V

孔夫子  搬家-尽是书  吃不穷,穿不穷,不会  算计  一世穷

除此以外,至于系统内如何运行,优其是记录码有何信息,系统内如何实现智能处理重码以及形成智能文本等等,使用者均无须理会。上例每以空格隔开的是单词,2条或2条以上单词的上面合起来共4个码的是复词。由单词串成复词有多种形式和约定,具体采用那些形式和约定由具体版本以及用户自定。它至少有:①本身是词汇、术语,如“汉语  拼音”、“人工  智能”等等;②无“的”定语段,如“一天  夜里”;③有“的”定语段,如“奇迹般  的  人物”;④谚语、俗语、歇后语,如“孔夫子  搬家-尽是书,吃不穷,穿不穷,不会  算计  一世穷”;⑤行业常用语等等。单词串为复词是无约束的、随心所欲的,正是如此用户可以任意增加,并且很少有重,而输入速度可以成倍增加。所以,根码不必专设简码。

所谓智能输入是在键盘编码输入的同时,计算机还自动地作下述工作:

①智能选重  系统根据记录码所含的语义信息,以及由骨架词构成的句型进行理解。当出现重码,首先利用骨架词对后随词的指向进行判断。选出合适的那条单词。如果有二条或更多的单词都处于前面骨架词的指向范围内,将它们都暂时保留,遇句号后再对全句进行审定。遇句号表示一句输入结束,这时再根据全句骨架词所构成的句型等进一步从语义上进行判断和确定它们。然后,还将全句的单(复)词记录码中的类属信息提出,形成或加入上文记忆体,为 后面的理解和智能处理服务。

②减少码长  随着人工智能作用的不断完善,对重码的处理达到一定程度时,每条单、复词都为四码的编码长度还可以减1。这时,输入速度再次提高,操作者更为轻松、快捷,而系统却是繁忙地利用人工智能处理着大量的重码。

③自动组词  当使用者以“字”为单位连接输入2个或2个以上时,系统自动将它们串成词置于临时词库内,下文就可以象其它单、复词一样地编码输入了。这个临时词库的大小受内存与系统远行的剩余时间的多少制约。这种自动组词也可以加上人工干预以扩大组词范围(当然用户还可以把它们加到系统的复词库里,单词库要求编相应的记录码,故用户不好加)。

④产生智能文本  在输入的同时,系统以记录码作记录,形成文本,因为记录码具有语义、并与单、复词相对应;其中骨架词还可表示句型。因而,这种文本具有词间间隔、语义、句型等信息,可以用于进一步的自动标引、自动文摘等中文信息处理。此外,为了与现有文本兼容以及适应一些不使用智能文本的场合,输入时是否以记录码形成智能文本让用户设定。

五、汉字输入装置(如图1)由系统部分(1)和基本部分(2)组成。系统部分(1)含有键盘(101)和智能文本读出部(102)、检出控制部(106)、单词管理部(105)、单词库(104)、复词合成管理部(103)、符号库(107)、智能选重部(108)、缓存部(109)等结构功能块。基本部分(2)含有CPU部(201)、液晶显示部(203)、电源部(204)、RS232接口部(205)和外延I/O插口(202)等。

(一)系统部分  系统部分(1)为本系统特有。除键盘(101)已如上述由普通电脑键盘扩展而成编码键盘(如图2)以外;为一些结构功能块,主要由一些专用控制电路和存贮器构成,如果基本部分(2)所含的存贮器容量大,这部分硬件就可以简单些,因为存贮器总容量需1.2~2.5兆。存贮器包括RAM,EPRAM或ROM,诸如各行业版本之间的不同部分自然放在RAM区。版本不同而输入装置却是一样。系统的信息流是:

由键盘(101)键入的编码码符,经CPU部(201)送到检出控制部(106),检出控制部根据编码的码次和第一码符的特征分3路送出,第一码是符号的加上后继1码送符号库(107),取出对应的符号送智能选重部(108);在4个码中如果有空格,将空格所在的4个码送复词合成管理部(103),然后从单词库(104)中取出复词的各条单词,一并送智能选重部(108);除上面两种情况外,送单词管理部(105),到单词库(104)中取出对应单词(为汉字机内码串的形式)之后,送智能选重部(108),其中包括第二码后是数字键的“字”输入。在这3路信息流中如有重码,都被一并送到智能选重部(108);智能选重部只有出现重码才工作,没有重码和选重后都将单、复词和记录码一道送缓存部(109),形成机内文本;另一方面,在这3路信息流中多处需要显示的信息,都经过CPU部(201)送到液晶显示部(203)显示输出。在智能选重部(108)包括智能处理重码的有关设置,如上文记忆体、智识库、规则库等以及临时词库。

当需要读智能文本输出时,将缓存部(109)的文本通过CPU部(201),由智能文本读出部(102)根据记录码,到单词库取出有关单、复词串,又通过CPU部(201)送液晶显示部(203)显示输出。机内形成的机内文本或由外接公共机(3)读入的文本、及其它数据都送到缓存部(109)存贮与处理。

上述信息流的流动,也即输入装置的汉字输入工作都是单独地进行。只有当上述缓存部(109)中的空间被机内文本充满时,或者其它需要时才通过RS232接口部(205)或外延I/O插口(202)与外接公共机(3)的有关设备连接,进行数据交换。

(二)基本部分  根据基本部分(2)的取材的不同至少有如下4种实施情况,它们的目标是在保证完成上述功能为前提,尽可能地简单、价兼和轻巧。

①CPU部(201)用IBMpc机CPU为8088的主机板。液晶显示部(203)包括液晶显示屏、推动控制电路、以及点阵软或硬汉字库;除显示屏以外部分和RS232接口部(205)做成插板式插在主机板的1 ~2个扩展槽上(与主机板平行)。系统部分(1)除键盘(101)以外的硬件也做成插板,插在主机板的扩展槽上。剩余的扩展槽拆去,换一个外延I/O插口(202),以便和外接公共机(3)的I/O扩展箱(301)连接。电源部(204)用不间断交直流两用带畜电池的电源。

②元器件同上,对上述8088主机板进行改进,将上述插入件做在相当原主机板原来放扩展槽的空间位置上,产生一块适合本输入装置的主机底板。其它同上。

③将上述基本部分(2)的原器件、系统部分(1)的结构功能块都合做在更高集成度的方形芯片上,目的是追求低功耗、小体积、价兼。这时可以仅用蓄电池供电。

④CPU部(201)用IBMpc机CPU为80286的主机板。这时,可以全用主机板上的存贮器,系统部分(1)除键盘(101)以外的硬件可以很简单。

上述数种实施情况,硬件要达到的指标是存贮空间1.2~2.5兆,主频>8MHz。

上述系统部分(1)和基本部分(2)共同构成汉字输入装置。这两部分都做在一个机壳里,键盘(101)和液晶显示部(203)的显示屏做在机壳的上表面,或者是开合箱式机壳的两个内表面,机壳可以用金属,也可以用塑料为材料制成。

(三)外接公共机  外接公共机(3)中的微机系统(302)可以是微机系统、电脑打字机、电脑排版系统;也可以只是单独的打印机。I/O扩展箱(301)可以只有一个3.5软盘驱动器及其适配器,也可以有数个不同规格的软盘驱动器、硬盘驱动器、单色或彩色显示器、打印机等以及它们的适配器,电源等。微机系统(302)和I/O扩展箱(301)两部分可以只有其中之一,也可以两者具在,它们之间可以通过磁盘或接口电路进行数据交换。这两部分的配置由具体用户选定。总之,外接公共机(3)为汉字输入装置以外的公共使用部分,它们与输入装置之间是1对多的关系;通常,输入装置都是 各自单独工作,只有当某部输入装置内缓存部(109)的存贮空间用完,或者出于其它需要时才把这台输入装置与公共机联接;交换数据以后,又将外接公共机空出,以备其它输入装置之联接。外接公共机(3)在一个办公室或一个单位有一台便可以,而输入装置则可以每人都有,仅是书写文件、汉字录入和打印输出的部,它们可以以50∶1的比例来配置,经费的节约是相当可观的。加之,输入装置本身汉字输入效率高、价兼、实用。然而,可以让输入装置变成象玻璃板,园珠笔一样的办公用品,去取代人们手中的纸和笔。

根据本发明的构思,还可以把系统部分(1)除键盘(101)外做成一个充卡,插到现有微机的扩展槽里,以提高现有微机的汉字处理能力。

根据本发明的构思,上述汉语分词、汉字编码方法、以记录码记录形成智能文本的方法除用于专用的输入装置外,还可以用在大、中、小、微型电子计算机系统,汉字电传机、电脑打字机、终端机及通讯系统上。在汉字电传机或通讯系统上可以用记录码进行传输,码位少而信息量大,它是与单词一一对应,无重的定长编码;也可以用输入码进行传输,其信息量更大,码位更少,但有重,有重的再加送一个数字选重码,就可达到同样的目的。

根据本发明的构思,上述汉语分词、中文单词库、智能文本和按行业分版本等方法还可用于语音输入;中文单词库、智能文本还可用于自动识别输入。

本发明对比现有技术有如下优点:

一、汉字输入方面

①编码方法简单、易学  仅用汉语拼音首字母和39个部件进行编码;所用汉语拼音只涉及声母和12个音节,所以,汉语拼音不好的人也能适应,39个部件更是简单直观,无需拆字;编码规则简单、严谨;有初小文化程度便可应用。

②记忆量极少  除熟悉一下简单的编码键盘外,无需记忆。编码键盘所标的表面记忆与实际记忆一样。她不必设简码;以单串复可按规律、约定进行,也无需记忆。

③适合大众而各有发挥之处  面向不同行业的用户,提供相应的多版本供 选用,行业适应性好。专职输入员如用点记忆,就可不按规律、约定,无约束地多串、多用复词输入,以及加用分组技术。普通工作人员,科技工作者可以充分发挥专业之长,去使用行业长串复词、或把行业常用话串为复词;尤其是无需记忆,无少用易忘之弊,更为他们所喜爱。

④高效率文章的93%汉字均可用单、复词为单位输入;并且与思维同步,自然、而快捷。便于想打、听打、盲打,指法熟练者速度可与录音相妨。

二、输入装置方面

①简单价兼  现有用于汉字输入的微机,以低档的算,640K内存带硬盘,主频>8MHz兆的微机、电脑打字机少者也要上万元,而本输入装置约2~3千元;它便可取代微机、电脑打字机的汉字输入工作及部分其它工作。

②分、合灵活  输入装置分别独立工作,分散在具体工作人员手里,而让诸如现有微机、电脑打字机在汉字输入时闲着不用或非必需的硬件设备作外接公共机。这就很灵活,单位部门就可灵活配置。另一方面输入装置只要和I/O扩展箱连接,就是一台完整的微机系统,可以做微机系统所能做的工作。

③上述①②的结合,就非常适合我国办公室的自动化。如果一个上百位职工的机关或单位,汉字输入装置与外接公共机可以50∶1的比例配置,平均每人不到3千元,便人人有电脑用,这个单位就可变成不用纸和笔的单位。这非常利于我国电子计算机的普及应用;加上输入装置的小巧、便携,又将带来许多好处。

④输入装置与公共的I/O扩展箱连接,后者可简可繁,这又给进入文化家庭做好了准备。

三、中文信息处理方面

①汉语分词与汉字输入相结合,除了汉字输入方面所得到的好处外,解决了汉语词与词之间在书面上没有明显分界之弊。

②把汉字输入与自然语言理解相联系,可以产生基于理解的汉字输入,将使汉字输入产生质的变化;同时又为计算机促进语言文化的发展创造了较好的条件。

③形成了智能文本,为电子计算机自动标引、自动文摘等中文信息处理提供了素材。

④人们用本发明的方法和装置进行书写,由于与思维相一致,以具有明确语义的单、复词为单位,势必利于写作平的提高和行文措词的准确性。

深信,本发明将产生很大的社会效益。

高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈