技术领城
本发明涉及一种将汉字的构件和全拼相结合的汉字的计算机输入法,属于计 算机的汉字输入法技术领域。
背景技术
迄今通用的计算机汉字输入法的输入码编制方式数量众多,号称“万‘码’ 奔腾”。但是归纳一下,却不外乎两大类:一是字音编码,即基本根据单字的汉 语拼音方式(一般去掉声调,或作些省变)编成输入码。由此形成的音码输入法, 是将电脑
键盘上的拉丁字母键按汉字字音的汉语拼音形式(省去声调)敲击组合 来完成输入,最有代表性的是全拼输入法。二是字形编码,即将字形拆分成一些 构形成分,将其与电脑键盘上的各个键位的名称(一般是字母)对应,通过这种 构形成分的键盘名称组合来进行编码。由此形成的形码输入法,是通过敲击电脑 键盘上对应各构形成分类型的不同键位来完成输入的,最有代表性的是五笔字形 输入法。
现有的计算机汉字输入法的编码方式,都存在
缺陷。
音码输入法较为易学,但是除了经常被人诟病的输入速度慢,重码多以外, 更大的问题是一般人使用这种输入法只能成功输入整个字符集中的少数汉字。汉 字是一种时间跨度达3000多年,具有庞大字符集的文字系统。仅目前已在国际 标准字符集中编码(内码)的汉字就达7万多字(GBK+CJK扩展A+CJK扩展B), 而这个数字还将进一步扩展——CJK扩展B已进行到最后审定阶段;汉字古文 字的在国际标准字符集中的编码工作也在推进中。庞大的字符集不可避免导致计 算机汉字拼音输入的困难:因为这种输入法的成功输入是建立在人们对字音正确 识读的
基础上的,而研究表明,一般使用者所掌握的汉字通常是3000左右,虽 然这些文字是现代语言交际中使用文字的主体,但其与字符集总量间的巨大差距 决定了当今人们在计算机汉字拼音输入中经常会遭遇困难,比如:人名、地名中 所包含的一些生僻字已成为日常电脑输入中的一个实现问题;历史典籍、古文字 材料中则有更多生僻字因为种种需要必须出现在现代人的语言交际中,而一般使 用者只能通过查字典才能确定这些文字的读音进而完成音码输入,效率的低下是 可想而知的。更严重的问题是,历史汉字中有相当一部分字是不能确定读音的(古 文字中尤其多见),对这部分汉字,现有的音码输入方法就完全失去了价值。
形码输入方式(如五笔字形输入等)倒是可以不依赖文字识读的,但由于它 们脱离了固有的汉字音义系统另起炉灶来进行编码而与字符对应,则不可避免产 生两种弊端:一是难学,将形码对应到各个键位,实际增加了一个层次记忆的要 求;二是与文字习得脱节,形码与键位的对应,与汉字本身的音义要素并无关系, 就等于为汉字输入专设了一套额外的习得规则,除了服务于输入,并无其他价值。 这也就是目前汉字电脑输入使用形码的人数要大大低于使用音码者的原因所在。 我们在华东师范大学2008年上半年修读“汉字与文化”课的本科同学中进行的 调查结果表明,62位同学只有1位同学平时使用五笔字形输入法,其他同学均 使用音码输入。这证明,用形码的方式来解决汉字输入难题很难得到公众的普遍 认可和接受。另外,现有的形码输入法对形码的分析规则一般是建立在笔画定型 为“横、撇、竖、捺”等若干类型后的楷书字形基础上的,而隶书以前的古文字 原形字则根本还未形成这种笔画类型,所以用现有形码原则来为古文字原形字编 码更是不可行的。
发明内容
本发明的目的在于针对现有计算机输入法不能很好解决汉字大字符集中的 大多数文字不被一般人所识而导致的输入困难问题,提供一种构件全拼组合输入 法,使一般汉字识读
水平者能够成功输入其所不能识读的汉字。
本发明提供的构件全拼组合输入法包括两部分内容,一是提供一种新的汉字 编码方法;二是将新的汉字编码整合到现有的计算机汉字输入系统中,汉字编码 整合到现有汉字输入系统中属于常规方法,在这里不进行详细论述。
本发明提供的构件全拼组合输入法中的汉字编码方法,主要思路是:一些汉 字的读音虽然可能不被具有一般文字知识的人所知,但组成这些字的构件(也称 偏旁、部首)的读音则通常是人们熟悉的,因此可以通过读音单位由整字到构件 的转换,变未知读音为可知读音,以实现未识字的输入。主要包括以下要点:
1.将汉字按照先上后下,先左后右,先外后里的顺序分拆成构件;
除了少数单构件字(即独体字)外,绝大多数文字包含多个构件,这是本输 入法将构件全拼码扩展成字的拼音码的基本条件。很显然,这种扩展的方式必须 有一个统一的规范,以避免人们在构件码扩展为字码的过程中各行其是导致输入 的失败。本输入法规定的构件组合顺序为:先上后下,先左后右,先外后里等。 如“采”是上下组合,则输入码以“爪”“木”为序,输入“zhuamu”即可调 出;“休”为左右组合,则输入码以“人”“木”为序,输入“renmu”即可; “困”为里外组合,则输入码以“囗”“木”为序,输入“weimu”即可。
2.将第一步分拆成的构件按照全拼的规则进行编码,其中至今尚无公认读 音的构件设置统一标识编码。少数汉字构件尚无公认的读音(这在历史汉字, 特别是古文字中多见一些),所以在为这些含有的无音或不确定读音构件的字编 码时就需要采用统配构件“z”,即以“z”作为无音或不确定读音构件的统一码。 如“巵”,上部偏旁无音,下部偏旁为“巴”,字的输入码则为“zba”(见图1)。 考虑一般使用者识字水平,对一些虽然本有音义,但却比较生僻的偏旁,除了 用本音编码外,也可以用“z”作为统一标识编码。如“覲”,可编“qinjian”和 “zjian”两个输入码。
在对汉字进行分拆时,分拆的构件可以是独体字也可以是合体字,合体的 构件就可能由独体构件合成。如在“李”中,“木”是构件,而在“焚”中,“林” 又是构件。构件一般具有独立的音、义,可以独立成字;也有少量构件未见独 立成字,但一般也有读音。把构件的全拼输入码按照一定的顺序组合起来,便 可以形成字的输入码。构件作为全拼编码基本单位的确立,有助于扩展字的输 入检索的
覆盖面:尽管许多字人们并不认识,但人们还是可以通过构成该文字 的可以认识的构件(哪怕只有一个)的全拼输入来达到调出相关文字的目的。
对包含多种读音的构件,或者以不同分拆方式可以拆出多种构件组合的汉 字,按照构件的读音数或可以施行的构件分拆方式数,编制多个字音编码。由 于有些构件有不只一个读音,使用者的文字水平各不相同,或立足于不同的视
角,人们对字的构件分析组合也常常可以有多种不同的选择。这些不同的路径, 本输入法都可以兼容。如“厭”字,既可分析为“厂”、“猒”,也分析为“厂”、 “日”“肉”“犬”,输入“yanyan”、“yanrirouquan”都可以调出。又因为“厂” 有“yan”、“chang”两音,则再增“chayan”、“changrirouquan”两个输入码。 这样,“厭”字就有了四个输入码。这种设计的目的在于令使用者可以通过各自 所熟悉或认同的不同途径,殊途同归地实现文字输入。
使用构件异形统一原则。汉字构件往往会由于在字中
位置不同而发生构形 差异,如“手”和“扌”,“水”和“氵”。或因为自然结构规整需要发生省形, 如“稁”的上部为“高”的省形,“鳬”的上半部为“
鸟”的省形等等。所有这 些异形构件在本输入法中一律依据基本字形统一定音,如手=扌,水=氵,糸= 纟,心=忄,人=亻,刀=刂,火=灬,仌=氵,示=礻,食=饣,辵=辶,金=钅, 犬=犭,衣=衤,言=讠。“=”以后的构件编码读音同皆同“=”之前构件。“稁” 的上部也定音为gao,“鳬”的上半部也定音为niao等等。
生僻构件以笔画的有序组合来进行编码,即:横(一):a;竖(丨):b; 撇(丿):c;点(丶):d;折(乛、亅、乚、乁 等):e;提(/):f;捺(乀): g;且仅取生僻构件的则前四笔进行编码。
通过构件全拼组合来实现未识字的输入,前提是能够识记构件读音。应该 说,构件数量有限,绝大多数构件同时又是常用字,所以识记构件读音对于一 般读者来说并非难事。然而,有少数生僻字本身是独体字,也就是所谓构件, 或者说这种构件本身也是生僻字,其读音当然也就不为常人所熟悉。为此,我 们又依据本输入码编码原则设计了一种笔画组合编码法,以方便人们对生僻构 件(字)读音的查检。这种笔画组合编码将汉字的七种笔画各对应一个拉丁字 母(汉语拼音字母),即:横(一):a;竖(丨):b;撇(丿):c;点(丶):d; 折(乛、亅、乚、乁 等):e;提(/):f;捺(乀):g。使用者遇到不知读音的 生僻构件时,按笔顺将其笔画的对应字母依次输入,即可检出该构件(还可以 通过在“输入法设置”中的“编码查询”中选择“微软拼音输入法”或“郑码” 来获知其读音)。为方便使用者,如生僻构件的笔画超过四笔,则仅取前四笔编 码,生僻构件的笔画组合编码法虽然带有了些许约定性,但其最终是要落实生 僻构件原本的读音,符合本编码法的基本原则。
本发明与已有同类技术相比所具有的优点:
1.通过全拼单位由整字到构件的转换,可以使大字符集中的未识字输入变 成一种对一般电脑使用者而言成为一种轻而易举的操作。既消除了一般音码输入 存在的输入盲区,又克服了形码输入难学难记的障碍。
2.构件全拼组合输入,大大限制了重码概率,可以有效提高音码输入的效 率。如输入“齸”这个字,用全拼输入法输入“yi”,重码469,要查到第469 个字,翻到47面,才能找到它。而用本输入编码输入,则重码仅为3(图3)。
3.不但适用于笔画定型后的楷体(广义楷体,包含宋体、
黑体、仿宋体等) 汉字编码,而且适合给现有输入法难以完成编码的没有笔画定型的古文字原形字 编码。
具体实施方式
实施例1:
本发明提供的汉字构件全拼组合输入法可以用于通用的汉字计算机输入法
软件。根据本发明提供的编码方法编成的码表装入输入法程序,形成具有本发明 提供的汉字输入法。在对汉字进行分拆和编码时,本领域普通技术人员通常情况 下均不会有太多障碍。本发明采用的编码对象为GBK字符集。从GBK字符集中 的20902个汉字中选择普通输入者可能会存在读音障碍的独体字(构件),列成 表1进行编码:
表1:生僻构件件读音及笔画组合编码表
构 件 读音1 读音2 读音3 读音4 笔画组合码 前4 笔画组合码全 笔画 数 丿 pie Yi c c 1 乛 ya e e 1 乚 yin e e 1 乁 yi e e 1 亅 jue e e 1 乀 fu g g 1 丨 gun Shu b b 1 丶 zhu Dian d d 1 亠 tou Wen da da 2 匸 xi ae ae 2 匚 fang Qu ae ae 2 丂 kao Yu ae ae 2 丷 ha dc dc 2 凵 qian Kan eb eb 2 丩 jiu eb eb 2 厶 si ed ed 2 卩 dan Pianpang eb eb 2 冖 mi Ping de de 2 讠 yan de de 2 厂 chang Han ac ac 2 冫 bing Liang df df 2 乂 yi dg dg 2 阝 fu eb eb 2 勹 bao ce ce 2 廴 jian Yin eg eg 2 亻 ren cb cb 2 冂 jiong Tong be be 2 乄 wu cd cd 2
刂 dao Ce be be 2 丅 xia ab ab 2 卜 bu Bo bd bd 2 匕 bi Pin ce ce 2 丄 shang ba ba 2 ㄍ kuai ee ee 2 乜 mie Nie ee ee 2 宀 mian Bao dde dde 3 亇 ma cee cee 3 乇 tuo Zhe cae cae 3 夊 sui ceg ceg 3 囗 wei bea bea 3 丬 zhuang dfb dfb 3 亼 ji cga cga 3 辶 zou deg deg 3 彡 shan San ccc ccc 3 氵 shui San ddf ddf 3 尣 you cdce cdce 3 彳 chi Fu ccb ccb 3 弋 yi aed aed 3 扌 shou aef aef 3 亽 ra cgd cgd 3 夂 dong Zhong ceg ceg 3 尢 wang ace ace 3 兀 wu ace ace 3 广 guang Yan dac dac 3 忄 shu Xin dbd dbd 3 乊 ho cdc cdc 3 刄 ren ecg ecg 3 亍 chu aae aae 3 亐 yu aae aae 3
艹 cao Pianpang abb abb 3 屮 che Chu ebb ebb 3 幺 yao eed eed 3 孑 jie eef eef 3 乆 jiu ecg ecg 3 巛 chuan Shun eee eee 3 亾 wu ecg ecg 3 兦 wu ecg ecg 3 彑 ji eea eea 3 孒 jue eea eea 3 彐 xun eaa eaa 3 卄 nian abb abb 3 卪 jie Ran ebd ebd 3 孓 jue eeg eeg 3 丌 ji acb acb 3 巳 si Yi eae eae 3 廾 gong Nong acb acb 3 卂 xun eab eab 3 纟 jiao Si eef eef 3 壬 ren caba caba 4 禸 rou beed beed 4 屲 wa cebb cebb 4 厃 yan ceac ceac 4 毌 guan eeab eeab 4 攵 wen Pu cacg cacg 4 攴 pu Po buyou baeg baeg 4 夭 yao cacg cacg 4 丯 jie Gua cccb cccb 4 毋 wu eeac eeac 4 冃 mao beaa beaa 4 爫 zhao Zhua cddc cddc 4
耂 lao abac abac 4 罓 gang becd becd 4 円 yan beba beba 4 爿 pan Qiang beac beac 4 卝 kuang abba abba 4 冄 ran beaa beaa 4 亓 qi Yiqi aacb aacb 4 曰 yue beaa beaa 4 尐 jie bcdg bcdg 4 夨 ze eacg eacg 4 匁 mangmi cecg cecg 4 卍 wan ebab ebab 4 廿 nian abba abba 4 兯 han Bajie dceb dceb 4 灬 huo dddd dddd 4 丏 mian abee abee 4 帀 za Yijin abeb abeb 4 夬 jue eacg eacg 4 巿 fu Po abeb abeb 4 冇 mao acbe acbe 4 礻 shi debd debd 4 冘 yin You dece dece 4 卍 wan eaba eaba 4 尹 yin Yun eaac eaac 4 肀 yu eaab eaab 4 弔 diao Shu eaeb eaeb 4 仌 bing Renren cgcg cgcg 4 朩 teun aecg aecg 4 兂 zan Ji aece aece 4 夃 gu Ying naiyou ceed ceed 4 殳 shu Jiyou ceeg ceeg 4
丮 ji ebaa ebaa 4 旡 ji aece aece 4 歹 dai E aced aced 4 仒 eo cgdd cgdd 4 刅 chuang ecdd ecdd 4 亣 da dacb dacb 4 曱 zad beaa beaab 5 甴 zha beab beaba 5 卌 xi abbb abbbb 5 丗 shi abbb abbba 5 囙 yin beea beeaa 5 歺 e Buxi bace baced 5 冎 gua Guo beeb beebe 5 朮 shu abce abced 5 戋 jian aaec aaecd 5 夰 gao acgc acgcb 5 犮 ba Ba accf accfd 5 罒 si bebb bebba 5 夗 yuan Xifan cede cedee 5 衤 yi debc debcd 5 氐 di Zhi ceae ceaed 5 卮 zhi ccae ccaee 5 氶 zheng eeec eeecf 5 疋 ya Shu ebac ebacf 5 叏 jue Zyou eabe eabeg 5 疒 ne Bing dacd dacdf 5 刍 chu ceea ceeaa 5 戊 wu caec caecd 5 戉 yue eaec eaecd 5 丱 guan Kuang ecbb ecbba 5 叐 ba Zyou cace caceg 5
氺 shui edfc edfcd 5 癶 bo edfc edfcc 5 艮 gen Hen eaae eaaecf 6 虍 hu Pianpang baec baecce 6 聿 yu eaaa eaaaab 6 屰 ni Po dcae dcaebc 6 缶 fou caab caabeb 6 巟 huang aaec daecbe 6 舛 chuan Xiguo ceda cedaeb 6 夅 jiang Suikua cega cegaeb 6 尗 shu Pu shangxiao baae baaecd 6 覀 xi abeb abebba 6 糹 mi eedd eedddd 6 乑 yin Zhong cbcc cbcccg 6 艸 cao Cheche ebce ebcebc 6 朿 ci abeb abebcg 6 糸 mi Si eede eededd 6 戍 shu cade cadecd 6 甶 fu cbea cbeaba 6 囟 xin cbec cbecda 6 襾 ya abeb abebba 6 戌 xu caae caaecd 6 乕 hu ccaa ccaabeb 6 耒 lei aaab aaabcf 6 幵 jian Gangan afca afcaab 6 曳 ye beaa beaaec 6 甬 yong edbe edbeaab 7 巵 zhi Zba ccae ccaebae 7 芈 mi abba abbaaab 7 豕 shi acec acecccg 7 酉 you abec abeceaa 7
甫 fu Pu abea abeaabd 7 夋 qun Sibasui edcd edcdceg 7 叓 shi Zyou abea abeabeg 7 辰 chen acaa acaaecg 7 尨 mang Pang acec acecccd 7 镸 zhang abaa abaaaed 7 囧 jiong becd becdbea 7 冏 jiong jiongbakou becd becdbea 7 囪 cong cbec cbeccda 7 囱 cong cbec cbeceda 7 釆 bian cdca cdcabcg 7 坙 jing Xing yichuantu aeee aeeeaba 7 豸 zhi cddc cddcecc 7 児 ni bbea bbeaace 7 卣 you babe babeeaa 7 戼 mao abae abaebea 7 卤 lu babe babecda 7 坙 jing Xing aeee aeeeaba 7 芈 mi abbb abbbaaab 7 奂 huan cebe cebeacg 7 咼 wai Guakou beeb beebebea 8 隹 zhui cbda cbdaaaba 8 黾 min Koudian beab beabeaae 8 叀 zhuan abea abeabaed 8 彔 lu eeae eeaedfcg 8 夌 ling Lusui abac abacdceg 8 豖 chu Zhuo acec acecccfd 8 疌 qie aeaa aeaabacf 8 卥 xi babe babeccda 8 坴 lu Lutu abac abacdaba 8 烉 huan cebe cebecdacg 9
柬 jian abed abedcabcg 9 禺 yu beaa beaabebfd 9 酋 qiu dcab dcabeceaa 9 彖 tuan Jishi eeac eeacecccg 9 韋 wei Wei ebab ebabeaaeb 9 圅 han edbe edbedcaaba 10 鬯 chang Zbi cddd cdddddebce 10 丵 zhuo bbdc bbdcdcaab 10 畗 fu Zkoutian dabe dabeabeaba 10 鬲 ge Li abea abeabedcab 10 寅 yin Mianz ddea ddeabeabacd 11 啇 di Zhai dadc dadcbeacbea 11 桼 qi Murenshui abcg abcgcgedfcd 11 堇 jin Qin abba abbabeaaaba 11 啚 bi Tu koulin bead beadabebeaa 11 鹵 lu babe babecddddda 11 舄 xi cbea cbeaaacedddd 12 嗇 se Zhui abcd abcdcdabebeaa 13 廌 zhi dace dacebbaaedddd 13 剺 luan cddc cddcedbecdbea 13 黽 min beaa beaabeaeaeaa 13 舄 xi cbea cbeaaacaedddd 13 夐 xuan Zmusui cebe cebecdbeaaaceg 14 巤 lie eeeb eeebecdaeddedde 15
实施例2:
其他同实施例1,但本实施例采用的编码对象为GBK+CJK扩展A+CJK扩 展B的超大汉字字符集。