首页 / 专利库 / 人工智能 / 翻译管理系统 / 翻译记忆 / 形素编码法及其输入健盘

形素编码法及其输入健盘

阅读:128发布:2020-12-11

专利汇可以提供形素编码法及其输入健盘专利检索,专利查询,专利分析的服务。并且一种汉字的形素编码法及其输入 键盘 。从汉字的图形特点出发,归纳并制定了表示六种笔划汇合点(不汇合、拐弯、三叉、四叉、五叉、六叉)及其数量和分布的形素(字形要素)。利用形素设计键盘及编码具有键盘盘面简洁醒目、编码规则简易、自然、明确、记忆量小等优点。可以广泛应用于中文电脑、中文打字机、电脑电话、电话自动查号台、中文翻译机、检索等方面。,下面是形素编码法及其输入健盘专利的具体信息内容。

1、一种形素编码方法,其特征在于采用了表示六种笔划汇合点(不汇合、拐弯、三叉、四叉、五叉、六叉)的种类、数量及分布的形素(字形要素)的全部或一部分作为编码元。
2、按权利要求1规定的编码方法,其特征在于用下列符号来表示形素:

3、按权利要求1规定的编码方法,其特征在于选用下列形素与10个数字对应:

4、按权利要求1规定的编码方法,其特征在于沿相连的笔划连续出现的同类汇合点的个数合并计算,用一个形素代表。
5、按权利要求1规定的编码方法,其特征在于形素“木”可表示为“大、 ”及“十、 ”,形素“大”可表示为“十、 ”。
6、按权利要求1规定的编码方法,其特征在于集外汉字用形
及部件码组成的序列进行编码。
7、一种用于上述编码方法的键盘,其特征在于在标准键盘的辅音键位上安排了形素符号。
8、一种采用上述编码方法的电话拨盘,其特征在于用10个形素符号与电话拨盘的数字对应。

说明书全文

发明涉及计算机中文信息处理的汉字编码方法及输入键盘,并涉及汉字检索方法。

汉字编码可分音、形两类,而其中形码又可分为笔划类与部件类两种。前者可以以李金铠的专利(GB2100899A)为代表,将汉字分解为笔划序列进行编码,存在分解过程长的缺点。后者可以以陈爱文的专利(CN85105556A)为代表,将字形分解为部件序列进行编码,存在由于汉字部件众多带来的种种困难。四号码编码法采用汉字四角出现的笔划及部件进行编码,由于不能顾及汉字的全体而存在重码多的困难。

本发明的目的是提供一种编码符号少而又能充分、直接表达每个汉字特点的编码方法。这样的方法必然具有记忆量小、规则简单、重码少、击键次数少等优点。

本发明的技术关键在于找到了独立于汉字笔划与部件之外的、能反映汉字图形特点的、表示笔划汇合点的种类、数量及分布的形素(字形要素)及从汉字中提取形素的方法。

通常在操作员向计算机键入稿件的过程中包含了操作者对原稿的阅读过程。这是一个视觉识别过程,这一过程注意的是汉字图形特点,很少考虑笔划、部件的具体细节,其速度比书写时仔细考虑笔划部件细节要快得多。可见编码方法的着眼点应放在汉字的图形特点而不是笔划和部件的品种、数量、分布上。编码过程不应是书写过程的模拟。本发明认为笔划汇合点的情况是我们识别汉字图形特点的一个重要方 面。如“上”字,它的特点在于两个笔划汇合点“ ”与“丄”及其上下的分布。符合这一特点的图形:上、 都认作“上”字。笔划长短的影响只对个别汉字的识别(如“土”与“士”“末”与“未”)起作用。笔划的倾角也只对个别字的识别有影响(如王与壬)。放弃这些影响较小的特征后,我们可将笔划汇合点分成六种:拐弯 、匚、厂、乙、囗等;

三叉    入、亻、工、止、正等;

四叉    十、乂、艹、卅、井等;

五叉    大、才等;

六叉    木等;

不汇    二、三、八、川、六等;

汇合点的分布可有上下、左右、包围三种: ◎。

汇合点的种类、方位、数量及其在汉字中的分布基本上决定了汉字特征,我们称它们为字形的要素,简称形素。汇合点的不同方位,如丄 当然也是一个要素,但为了减少符号品种和提高编码速度,我们放弃方位。只考虑种类、数量和分布。把种类与数量结合起来并用符号表示,得到表1所列形素。

表1    形素表

*备用形素,分别表示“斜”、“对”三叉汇合点。

其中“-、=、≡、 ”表示不汇合点,数量1……4以上。“

”表示三叉汇合点,数量从1……4以上。“十…… ”表示四叉汇合点,数量从1……4以上。“ 、冂… ”为拐弯汇合点,数量从1……4以上。大及木为五叉和六叉,数量为1。当键位不够时,“木”可用“大、 ”或“十、 ”表示,“大”可用“十、 ”表示。“囗”表示闭合四拐弯。

将这些形素,按DVORAK提出的键盘合理化原则安排到标准键盘的26个字母键位上就得到了形素键盘。图1是一种形素键盘的实例。其中省略了形素“木”,元音(A、E、I、O、U)键不安排形素。安排了一个形略键▲,用于输入形略语码(形略码)。此外删字键(DEL)在汉字状态下分为下档:删前(删左)及上档:删后(删右)。△键为拼音略码键,用于输入拼音略码。

利用形素进行编码(即以形素为编码元)的具体方法随用途而异,可以有多种方案。利用全部或大部形素的方案称第一类方案。仅利用一部分形素的方案为第二类方案。

第一类编码法实例

1.单字编码法。用于向计算机逐字输入国家标准《信息交换用汉字编码字符基本集GB2312-80》,编码规则为:

一、沿相连的笔划连续出现的同类汇合点的个数合并计算并用一个形素代表。

二、成组的不汇点合并计算,对称分布在两边的汇合点合并计算并用一个形素代表。

三、汇合点不重复计入,即已在前一码中计算过的汇合点在后面的 取码中不再考虑。

四、偏旁“扌”用形素“ ”代表。

五、点的两端及短撇的尖端与其它笔划相碰处不作为相连,点与短撇的中部与其它笔划相碰时认为是相连,作汇合点考虑。

六、部件(在汉字中以相对固定的形式出现的构件)之间的相碰不作为相连。不作汇合点考虑。

七、码位及次序是①“上中至左”取一码,②“左偏下”取一码,③“右偏上”取一码,④“右次上”取一码,⑤“下中至右”取一码。有②不再取④,无②才取④。

八、取足4码不需另加结束键(也不加空格键),不足4码字按字形特点选形素 、◎之一作结束键。字形特点不明显时选 即可。

提出上述规则的理由:

1.连续出现的同类汇合点数量合并计算可以增加信息量,并使各形素的使用频度均匀,提高编码效率。

2.汇合点不重复计算的目的是避免降低信息量,减少编码的不确定性。

3.由于含有偏旁“扌”的汉字很多而且总出现在编码的首码上,故选用一个不出现在首码的形素“ ”代表偏旁“扌”,使此偏旁一次击键输入。

4.点、短撇以及汉字各部件之间无论在书写体还在印刷体中往往出现与其它部件相碰的情况,似连似不连、时连时不连。为了减少这种不确定因素,规定一律作不相连处理。

5.取码次序必须照顾到各种结构汉字取码的方便与有效。规则中的次序包含着优先等级,如第①码“上中至左”以“上中”部的汇合点为优先,若无上中部的汇合点则取上左方的汇合点。又如第②码“左偏下”,以左为优先,同样“左”的情况下取较下方的汇合点。第②码不能取到“中下”方向去。如在“左偏下”方向无汇合点,此码就不取。第⑤码的“下中至右”以“下中”位置为优先,“下中”无汇合点再看“下右”方向有无汇合点。

6.编码不采用空格键作结束键不仅减少击键次数,而且使本编码可与拼音码混合使用,互不混淆。在不足4码时用 /◎键作结束键可以补充字形信息。

音、形两类编码各有特点,若能双轨使用,既发挥了拼音码速度快、便于口授和起草文稿的长处,又发挥了形码可以输入罕用字的优点。拼音码以词为基础,可直接用标准的键盘输入。每个词汇用空格键结束。因此计算机根据空格键及元音字母出现的规律可以判定输入的是何种码。当输入代码符合拼音音节特点并有空格键时为拼音码,当输入代码不符合拼音音节时及无空格键时为形素码。

对“的”、“是”……等使用频率极高的几十个字,可规定简码,用一形码加 或◎)两键输入。

重码的处理方法:

当计算机在输入码转为机内码(或信息交换码)的过程中发现存在重码时,以声光报警提醒操作者注意显示器上提示的重码字。当重码字在一个以上时,显示器下方以各重码字的使用频度为序,列出重码字并注明序号。操作者可键入相应序号选择其中一字。若不 后随数字,计算机理解为选其第1字。

表2给出了第一类单字编码的例子。

2.形略语编码。用于向计算机输入常用或特定的词汇、短句以至短文的编码。其编码法为先击形词键▲表示后续4个形素是形略码,然后根据词汇或关键字的数目选取4个形素。对双字词,每个字取首、尾两个形素,共4个形素(不足时补以 /◎)。三字词,第一、二个字取首形素,第三字取首尾两个形素。四字词,每字取首形素。短句和短文先取4个关键字,然后再取其形素。例如“坚持四项基本原则”,取关键字“坚持四则”,其代码为“▲= 囗冂”。允许用户用▲键的上档定义新的形略码:▲(上档)被定义的词句的全部单字编码▲对应的形略码▲(上档)。

3.集外字编码法。用于向计算机输入国家标准《GB2312-80》基本集以外的汉字。

集外字中所含的汉字部件可用其首尾形素及重码选择数字表出。常用部件的形素代码见表3。表中同时列出了可双轨使用的拼音码。

汉字部件在汉字中的相互关系可用形素 、◎表出。此时 、◎称为结构符,用来表示汉字的结构。汉字的结构是有层次的,如“程”字由“禾”与“呈”拼成,“呈”又由“口”与“王”拼成。根据这种层次关系,在对集外字编码时应按以下规则将集外字分解为部件与结构符组成的序列:

1.在每个部件的代码之前(或后)键入一个表明该部件与其余部件结构关系的结构符;

2.两个低层次部件(即一个低层次合体)之前(或后)也需键入一个表明该合体与其余部分结构的结构符;

3.在编码中部件的次序对应于该部件在汉字中位置依次先左后右、先高后低、先外后内的次序决定的次序。

这样的序列具有唯一性。例如由“甲、乙、丙”三个部件组成四个字形不同的字,它们的编码各不相同:

为了表示集外字编码的开始和结束,集外字编码的第一和最末一个结构码应是“大写”(即同时按换档键)。

采用这样的编码的最大优点是它可以指导计算机用字形拼装的方式生成集外字的汉字点阵。只要计算机内部有汉字部件的字形点阵,那么按照下列拼装规则可以确定拼装次序:

1.前置(或后随)结构符相同的两个部件先拼合;

2.前置(或后随)结构符不相同的两个部件暂不拼合;

3.已拼合的部件作为新的部件参加拼合。

如计算机收到一组集外字编码 甲 丙,其中乙与丙的前置结构符不同暂不拼合。甲与乙的前置结构符相同,均为“左右结构”,于是取甲、乙两个部件的点阵以左右结构进行拼装,拼装的比例可由计算机根据字形均匀的原则选择。(见林竟瑜“汉字拼装比例的自动生成”中国仪器仪表学会汉字信息处理研究会第五届学术会议论文),拼装好的部件“甲乙”之前有 ,与“丙”之前的 相同,于是两者进行点阵的上下拼装,最后得到甲乙丙的字形点阵。(详见盛谏“集外字的描述码处理法”中文信息处理国际会议论文集,北京1987.8)

第二类编码实例

利用10个数字进行编码在某些设备上有特殊意义(如电话拨号编码)。因此从24个形素中精选出10个形素与10个数字对应:(“囗”与“ ”合并为“囗”)

表4    10个与数字对应的形素

这些形素与数字在形象上或含义上有些联系,因此不难记住它们的对应关系。当然将这些形素刻在拨号盘周围或键盘上更好,可免记忆。

第二类编码也可分单字编码、形略编码、集外字编码3种。

1.单字编码规则:

一、沿相连的笔划连续出现的同类汇合点的个数合并计算,但合并计算的最大值不超过该类汇合点在所选10个形素中的最大值,即 “十”不超过1,“ ”不超过2,“ ”不超过4,“一”不超过3。用一个形素代表。

二、当汇合点个数的合并计算值大于最大值时可分两处取码。个数为偶数时平分,个数为奇数时第一处比第二处小1。此外将“木”分解为“十、 ”,“大”分解为“十、 ”。

三、在最大值以内,成组的无汇合点合并计数,对称分布在两侧的汇合点合并计数并用-形素代表。

四、点的两端、短撇的尖端与其它笔划相碰不看作相连。

五、部件之间相碰不作汇合点看待。

六、码位及其次序为:①上中至左,②左偏下,③右偏上,④右次上,⑤下中,⑥下右。有②并有⑤不取⑥,无②取⑥。

七、取足5码不另加结束键或空格键,不足5码按字形特点选形素 ◎之一作为结束键,字形特点不明显时选①即可。

以上规则与第一类单字编码相似,只是由于形素品种减少而作了相应调整,码长增加1位。

表5是第二类单字编码例。

2.形略语编码法

作为计算机的汉入输入用的形略码,其规则与第一类的形略码相同。

作为电话号码查询及转换用的形略码与第一类的形略码有所不同:不能用 、◎键,而且关键字的选取与电话户名的特点有关。

作为与电话号码对应的形略码,码长应略长于电话号码,以减 少重码。一般可加长1位。例如电话号为5位,则查号用的形略码取6位。电话号为6位,则对应的形略码取7位。当形略码取6位时关键字的选取与编码的规则如下:

一、户名中的专用称呼部分在四字以下者取其中二个关键字,每字取首尾两码(即上中偏左位置取一码,下偏右位置取一码),共四码。

二、户名中的专用称呼部分在四字以上者取其中四个关键字,每字取首码,共四码。

三、户名中的通用称呼部分一般取前后各一字作为关键字,每字取首码,共两码。

四、街道名称的专用称呼取两个关键字,通用部分原为一字者(街、路)取首尾两码,是二字者(如胡同、中路、南路)取两字的首码。

五、街道后面的牌号或弄号可直接跟在街道编码的后边。

六、当电话机或查询台发现有重码时将报警询问,用户再拨入专用名称的其次码位,直到电话机或查询台不发报警询问时为止。

七、有的街道地名在门牌号或弄号后还有户号,可在听到报警询问号后再拨入户号。

例:

海月桥河下356号 氵亅 氵丅

379635356

局营业部    匚乚尸艹亠

889842

浙江大学校长办公室 氵 人十

364544

省委党校办公室    八亻丷十丶

252441

淮海中路1211弄52号 氵丄氵亅 口

3537801211

表6给出了杭州市电话薄上百货商店对应的形略码例。从此例看出,重码率相当低(0%)而且编码方法简易,一学就会。

这种电话用形略码可用于电脑电话及电话查询台的用户自助查号。前者将形略码与电话号的对照表固化在电话机内,用户只需记住编码规则,拨入编码,电话机就会自动向电话局发出对应的电话号码。用户可不必死记电话号码。后者是在电话局问询台安装用户自助查号的计算机,用户向问询台用形略码拨号,问询台的计算机将此码转换为对应的电话号,并由计算机语音合成装置回答户名及电话号,用户认为正确,可通过拨0请自助查号的计算机转接到所要电话上。

3.集外字编码法,情况与第一类的集外字编码法相仿,所不同者,仅汉字部件的形素代码中包含的形素限于表4所列的10个形素。

本发明的积极意义在于:

1.采用独立于汉字笔划和部件之外的能反映汉字图形特点的形素进行编码,彻底避免了笔划或部件编码的繁琐或记忆量大等困难。且不会汉字的人也能进行汉字编码。

2.形素数量少,可以方便地安排在打字键盘、电话键盘(或拨盘)上。键面简洁醒目;不用元音键及空格键,实现了形音双轨制。

3.编码规则简易、自然、明确。无例外。

4.用途广。不仅可用于一般的计算机中文信息处理,还能用于电话查号、检索、字典等。

表2    第一类单字编码举例

表3    常用部件的形音代码例

表5    第二类单字编码举例

表6电话形略码例(杭州的百货商店编码)

大关百货商店    

中北百货商店    

半山百货商店    

艮江百货商店    

新春百货商店    

新晖百货商店    

创新百货商店    

向前百货商店    

杭师百货商店    

新峰百货商店    

环东百货商店    

向群百货商店    

华通百货商店    

兴昌百货商店    

崇光百货商店    

注:表中数字对应于形略码而不是电话号码本身。

高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈