首页 / 专利库 / 软件 / 电子设计自动化 / 一种智能音形码输入法及其应用

一种智能音形码输入法及其应用

阅读:964发布:2021-08-25

专利汇可以提供一种智能音形码输入法及其应用专利检索,专利查询,专利分析的服务。并且本 发明 属于计算机文字输入领域。可以在标准 键盘 上使用多种方式进行中文输入,也可以使用附加声韵母键盘进行中文输入。本发明还设计有专 门 供中文输入使用的电话码键盘,可以应用到各种计算机电话服务领域。本发明中另外还设计有智能输入方式,可以广泛应用于智能输入,文字校对,汉字识别,中文语音输入,以通讯地址字母邮政编码代替数字邮政编码和在英文数字BP机上实现汉显BP机功能等等许多计算机文字输入领域。,下面是一种智能音形码输入法及其应用专利的具体信息内容。

1.一种智能音形码输入法的输入方法及其应用,其特征为:智能音形码输入法 的单字输入方式是一种属于音形码的中文快速输入法,简称“音形码输入法”,音 形码输入法的每个汉字代码可以由音码和形码组成,也有只使用音码或形码的输入 法,音码和形码的选取方式颇具特色,与国内现行的各种汉字编码相比较,具有规 定的原则通俗、简便、易记、汉字编码较短等优点,使用者只需初具汉语拼音知识 和汉字结构知识就可在很短时间内掌握这种输入法,音形码输入法中共有五码型、 四码型、三码型、倒序型、形音型、四形码型、三形码型、新五笔字型和混合型等 等多种输入方法,使用者在输入过程中可根据情况任选一种,比如,遇到二级字库 中不知读音的汉字,就可以使用四形码型,三形码型或新五笔字型等输入法,音形 码输入法中的五码型方式特别重要,并且最为方便实用,它的汉字代码由三个音码 和两个形码组成,三个音码中的第一个音码是汉语拼音声母的首字母,后两个音码 是汉语拼音韵母的第一个和最后一个字母,其中,属于零声母的音节作为韵母来处 理,有人将以y[i-]和w[u-]开头的音节归入零声母,但本输入法中则将这两种情 况都作为声母来处理,而不归入零声母,如果韵母只有一个字母,五码型方式汉字 代码的韵母部分也只取一个字母,两个形码是将汉字按规定原则拆成多个部件后, 取第一个部件和最后一个部件名称的汉语拼音首字母组成;智能音形码输入法的整 句智能输入方式是在整句智能输入技术和辅助文字校对技术的基础上,对于单字输 入方式的各种编码方案或者只输入每个汉字基本音码的第一个或前几个代码等编码 方案,用尔可夫链模型方法求出满足各个条件的且出现可能性最大的中文句子作 为输出,同时给出一些可能性次最大的待选句子,并且对出错可能性较大的地方给 出标记,以便进一步校对修改,整句智能输入技术与字词一体化技术相结合,可以 增加输入,校对和识别的正确性,也可以提高识别计算的速度,增加实时性和实用 的智能功能,本发明中的智能音形码输入法还可以有逐字实时地显示汉字,自动记 忆,自学习,自适应地修改词库以适应用户的特点,自适应地选择用于校对的错误 类别,自适应地选择和校正识别汉字时使用的字模字库和自适应用户的专业特点等 等多种智能功能;本发明中还提出了一种适合中文输入的电话码键盘技术及其许多 应用;最后,本发明中还提出了智能音形码输入法在智能输入,文字校对,汉字识 别,中文语音输入,以通讯地址字母邮政编码代替数字邮政编码,以字母电话号码 代替数字电话号码和在英文数字BP机上实现汉显BP机功能等等许多计算机文字输入 领域的许多应用。
2.按照权利要求1所述的智能音形码输入法及应用中的中文输入电话码键盘, 电话码中文输入技术及其应用,其特征为:本发明在提出一种智能音形码中文输入 法的基础上,设计出了一个适合中文输入的电话码键盘和一系列使用电话码技术进 行电话码中文输入的方法,与英美现有的电话码英文输入技术相比,本发明中的电 话码中文输入技术更适合于使用中文的人来使用,特别是大陆和新加坡会使用汉语 拼音的人,在普通的12键电话键盘的1-9九个数字键上,每键依次地印上零个、三 个或者四个相应的字母或符号,总共印上26个英文字母和一些符号,例如:汉语拼 音中的元音“ü”和符号“.”,其中可以用汉语拼音中的元音ü代替字母v,或 者用ü代替符号“.”;输入中文时,先按汉语拼音决定汉字的音码,再按规定原 则决定形码,然后按这些代码进行输入,也可以只输入这些代码中的第一个代码或 前几个代码,如果使用本发明中的输入方法,可以大大地减少码长,并且降低重码 率,使用起来也非常简单方便、直观实用、易学易记,用电话码技术进行中文输入 时,先根据专规定的方法决定26个字母组成的字母代码,再按动相对应的数字键 输入对应的电话数字代码,最后由这些代码查找相应的汉字选项,遇到有重码时, 可以利用播放有关录音,请用户选择的交互方式选择或输入有关的汉字名称、词组 或者中文选项,为减少播放录音进行交互的总量,要使用重码率较少的输入方法, 因为汉字常用词组一般只有几万个,用电话码技术进行中文输入时又往往只使用其 中的部分汉语词组,所以可以按照一定的构词规则决定各个汉字前几个代码连接组 成的词组字母代码,再按动相对应的数字键,在相应的软件技术中,可以建立一个 数据库,其中每个数据有一个汉语词组待查询项和一个由1-9九个数字组合而成的 电话码四码词组代码项以及一些对应的信息项,每次使用电话语音卡及相应软件接 收到电话码输入后,可以使用数据库查询技术,查出所有输入码所指定的电话码四 码词组代码项,再经过播放录音进行重码选择后,可以确定地找出要找的数据项及 其相应的信息,最后就可以通过电话向用户播放这些信息,这样就可以利用上述的 中文输入电话码技术进行中文输入,数据库查询和交互选择等等多种应用,所以, 可以将上述的中文输入电话码技术广泛地应用到各种计算机电话服务领域;首先, 上述中文输入电话码技术可以应用到BP机自动留言服务方面,现在我国已有一些城 市开通了127台BP机自动寻呼业务,但是,127台只能自动寻呼,不能自动留言, 使用上面所述的电话码中文输入技术,可以在输入自动留言功能号和寻呼号后,再 以对应的电话码代码输入简短的留言信息,例如:呼叫人的姓氏、呼叫人的姓名、 简短留言、时间、地点等等;不需寻呼小姐守候的BP机自动寻呼台会自动识别输入 的信息,发出相应的信号并使信号在用户的BP机上显示出来,数字BP机,英文数字 BP机和汉显BP机均可使用此技术;第二,上述中文输入电话码技术可以应用到114 台查号无人值守自动管理系统,可以使用这种中文输入电话码技术在电话上输入被 查询电话号码的人名或单位名称,经过交互选择后,系统可以自动找出被查号码并 播放相应的录音向用户报出被查号码,这样就可以省去114台的查号人员,节省人 ,节约开销,提高自动化平,进一步地,可以应用上述的中文输入电话码技术 实现无人值守的用人名或单位名称自动转接电话的交换机系统,可以在我国大量的 带分机交换机系统中首先应用这一技术,建立一个应用上述电话码技术的用人名或 单位名称自动转接电话的带分机交换机系统,代替接线员,按原打电话的人所输入 的呼叫人名或单位名称自动接通电话,类似以通讯地址字母邮政编码代替数字邮政 编码的应用,可以在上述技术基础上,建立一种以字母电话号码来代替数字电话号 码,使用人名或单位名称自动转接电话的交换机系统,这样可以实现用户搬家或改 换电话号码时不用通知他人,而他人仍能拨通该用户的电话的先进功能,还可以实 现用户的电话号码保密,限时接通,更换热线电话号码,出差时留下热线电话号码 和语音信箱等等多种功能,也可以生产一种使用上述的中文输入电话码技术或者直 接使用汉语拼音字母键盘进行中文输入,直接输入字母电话号码,然后由电话内的 电子装置自动拨出字母电话号码对应的数字电话号码的电话,可以在这种电话上安 装一个小型显示屏,用户可以一边输入一边查看显示屏,随时地修改和校正错误, 最后经确认后,才正式拨出对应的数字电话号码,其中,数字电话号码对应的字母 电话号码也可以由用户自己输入决定,这种电话一定非常实用,并且能拥有一定的 市场,可以使用电话语音卡等技术在与计算机连接在一起的电话上实现这个功能, 也可以专门生产一种较为便宜的专用电话,可以首先使用一种利用中文输入电话码 键盘技术的字母电话码长途区号电话号码,这种新型字母电话码长途区号电话号码 可以分为两种,第一种是新型短码字母电话码长途区号电话号码,它可以由三个数 字组成,前两个数字是该长途电话所要区域汉语名称前两个字汉语拼音的首字母对 应的中文输入电话码数字,第三个数字是重码序号,这种短码字母电话码长途区号 电话号码可以应用于我国的几十个或几百个主要城市,如:按照图3.所示的(I)型 中文输入电话码键盘上规定的电话码规则,北京市的短码字母电话码长途区号电话 号码可以用251或者250来表示,内蒙古自治区呼和浩特市的短码字母电话码长途 区号电话号码则可以用33加上第三位重码序号数字来表示,这样使用起来和记忆起 来非常简单方便,第二种是新型长码字母电话码长途区号电话号码,一般应用于各 个大区域内的一些小区域地区,不能使用第一种号码的地区一般都能使用第二种号 码,它由五个或者六个数字组成,前两个数字是该长途电话所要小区域所在的省、 市、自治区等等大区域汉语名称前两个字汉语拼音的首字母对应的中文输入电话码 数字,第三个和第四个数字是该长途电话所要小区域汉语名称前两个字汉语拼音的 首字母对应的中文输入电话码数字,第五个或者第五个和第六个数字是重码序号, 重码较少并且少于10个时,可以使用五个数字组成的号码,重码较多并且多于10个 但少于100个时,可以使用六个数字组成的号码,一般重码不会多于10个,更不会 多于100个,一般地,可以按照各个地区安装电话的总数排列重码序号,安装电话 多的序号排在前面,例如:内蒙古自治区二连浩特市的长码字母电话码长途区号电 话号码可以用6635加上重码序号来表示,这样这种长途电话号码最长不超过六位数 字,是完全可以被接受的,只要各地方的电话普遍使用如图3.所示的(I)型中文输 入电话码键盘和相应的电话码技术,这种字母数字长途电话号码使用起来和记忆起 来会非常简单方便,它可以省去许多记忆的麻烦,建议人为地规定长途电话号码区 号对应的字母码和该地区字母邮政编码相同,只要二者的规定原则一致就可以做到 这一点,这样使用起来会更加方便实用;第三,上述电话码技术可以应用来帮助建 立一种贵重和易丢失物品的LR编码系统以及在这种编码和上述电话码技术基础上建 立的电话报失查询系统,可以建立一个或多个登记中心,任何贵重的和易丢失的物 品都可以在这些中心申请登记一个供丢失报告使用的LR号码,这样当这个物品丢失 时,知情人就可以通过电话向各地建立的电话报失查询系统报失,报告丢失物品的 LR号码及其它有关信息,在电话报失查询系统中,可以应用上述电话码技术建立无 人值守的自动管理系统,自动进行中文输入、数字输入和交互选择,在其他人收购 物品或通过其它途径怀疑某物品可能来路不正时,如果该物品印有、写有或刻有某 个LR号码,就可以打电话到电话报失查询系统查询该号码物品是否为报失状态,如 果是报失状态,可以采取相应措施,避免自己受到任何损失,也可以帮助丢失物品 的主人找到有关丢失物品的线索,并尽快找到犯罪者,如果不是报失状态,则可以 放心购买或不再进一步调查;第四,对于各种数据库查询系统,都可以使用上述的 电话码技术实现通过电话进行数据库查询的先进功能,与互联网技术相结合,可以 实现一种适合中国国情的、方便而便宜的、可以通过电话进行访问的互联网网络系 统;最后,可以使用上述的电话码技术用各种电话进行计算机的远端控制和远端操 作,并且操作起来方便实用,界面友好,适合中国人使用,进一步地,上述的电话 码技术与互联网技术结合起来,可以实现通过电话在互联网络上查询有关信息的功 能,可视电话技术等新的电话技术的进一步革命,将使电话成为可以联入各种网络 的一种方便的、便宜的和实用的终端设备。
3.按照权利要求1和2所述的智能音形码输入法及其应用中的整句智能输入技 术及其在智能输入、文字校对、汉字识别、中文语音输入、以通讯地址的字母邮政 编码代替数字邮政编码、以字母电话号码代替数字电话号码和在英文数字BP机上实 现汉显BP机功能等计算机文字输入领域中的许多应用,其特征为:这种整句智能输 入方式是在整句智能输入技术和辅助文字校对技术的基础上,对于单字输入方式的 各种编码方案或者只输入每个汉字基本音码的第一个或前几个代码等等编码方案, 用马尔可夫链模型方法求出满足各个条件的出现可能性最大的中文句子作为输出, 同时给出一些可能性次最大的待选句子,并且对出错可能性较大的地方给出标记, 以便进一步校对修改,整句智能输入技术与字词一体化技术相结合,可增加输入, 校对和识别的正确性,也可以提高计算速度,增加实时性和实用的智能功能,本发 明中的智能音形码输入法还可以有逐字实时地显示汉字,自动记忆,自学习,自适 应地修改词库以适应用户的特点,自适应地选择用于校对的错误类别,自适应地选 择和校正识别汉字时使用的字模字库和自适应用户的专业特点等等多种智能功能; 显然,整句智能输入方法的原理可以用来实现对同音字或易混易错的近音字进行辅 助文字校对的功能,汉语的一个重要特点就是同音字和易混易错的近音字特别多, 因此,这方面的辅助文字校对功能就特别重要,对于字词混淆错误,则可以建立每 个汉语字词容易错写成的所有字词组成的词库,在校对文章时,用前面所述的整句 智能输入原理求出被校对的原文句子出现的概率,该句子中少数几个汉字被前述词 库中的汉字替代后,所有可能中可能性最大的句子出现的概率和该句子中更多的但 不超过句子一半的几个汉字,被前述词库中的汉字替代后所有可能中可能性最大的 句子出现的概率,例如:前者替代汉字的限制为只替代一个字,后者替代汉字的限 制为替代多于一个字但不超过句子的一半;然后根据这些概率来决定该句子是否有 字词混淆错误,该技术还可以与字词一体化技术相结合,可以增加校对的正确性, 也可以提高计算速度,增加实时性和实时的智能功能,该方法还可以有自动记忆、 自学习、自适应用户要求和自适应地按照各种类型的错误区分类别分别单独处理等 多种智能功能;本发明在整句智能输入技术和辅助文字校对技术基础上提出一种可 以大大提高汉字识别率,特别是手写汉字识别率,使之迅速达到实用化水平的识别 方法,即整句智能校对识别方法,对一个句子中的每个汉字,如果按照目前通用的 识别方法可以准确地识别出所有汉字,则不用使用下面的辅助方法,反之,则对那 些无法准确识别出来的汉字,按照目前通用的识别方法确定其字形图像与原文中的 汉字近似的一组汉字,然后分别用这些汉字加上那些准确识别出来的汉字按照原文 顺序以任何一种可能组成句子,考虑两个因素,(1)这些句子出现的可能性,(2)各 个近似的汉字与原文中对应的被识别字体的字形图像相似程度的总和;用在这两个 因素基础上计算出来的综合指标,求出一个在所有可能中最佳的句子作为输出,并 且给出一些次最佳的待选句子,对出错可能较大的地方显示出某种标记,以便进一 步校对修改,这样就可以大大提高目前的手写汉字识别率,可以不断地适当调整上 述方法中的各种参数、相似字库和算法,使该方法的识别率更高,并可以综合照顾 到其它各种因素,此一技术还可以与字词一体化技术相结合,可以增加汉字识别的 正确性,也可以提高计算速度,增加实时性和实时的智能功能,该方法还可以有自 动记忆,自学习,自适应用户要求等等许多智能功能;利用上面所述的整句智能输 入技术和辅助文字校对技术,可以将所有的同音字和易混用的近音字建立成由语音 输入时要用到的待识别音作标志的一些同音近音字库,在语音输入时,先找出发音 人所说句子中每个发音对应的同音近音汉字字库,然后对于整个一句话,利用整句 智能输入技术和辅助文字校对技术等方法,求出各个字库中不同汉字任意组合中出 现可能性最大的一个中文句子作为输出,并给出一些次最佳的待选句子,对于出错 可能性较大之处给出标记,以便进一步使用播放录音由用户作交互选择的方法进行 校对修改,该技术还可以与字词一体化技术相结合,可以增加语音输入的正确性, 也可以提高识别计算的速度,增加实时性和实时的智能功能,该方法还可以有自动 记忆,自学习,自适应用户要求等等许多智能功能,这种语音输入技术还可以与前 面所述的电话码技术相结合,直接通过电话使用上述的语音输入技术向计算机输入 中文或其它文字,特别是输入中文,遇到要进行校对修改时,可以使用播放录音请 用户进行交互选择和校对修改的方式,这样可以应用这种技术来建立一种适合中国 国情的,方便而便宜的,可以通过电话进行访问的互联网网络系统;现在使用邮政 编码时,寄信人往往不知道或者不记得收信人的邮政编码,查找邮政编码也很不方 便,使用手写字母代码书写通信地址代替邮政编码就解决了这一难题,大大方便了 用户,如果使用本发明中的汉字输入方法书写地址,可以大大减少字母码长,并且 方便实用,易学易记,可以将上述技术与整句智能输入技术和地址常用词组字词一 体化技术结合使用,增加识别的正确性,改进识别计算速度,提高实时性,增加实 用的智能功能,并且可以有许多自动记忆,自学习和自适应用户的专业特点等等多 种智能功能;类似以通讯地址字母邮政编码代替数字邮政编码的应用,可以在上述 技术基础上,建立一种以字母电话号码代替数字电话号码,使用人名或单位名称自 动转接电话的交换机系统,这样可以实现用户搬家或者改换电话号码时不用通知他 人,而他人仍能拨通该用户的电话的先进功能,还可以实现用户的电话号码保密, 限时接通,更换热线电话号码,出差时留下热线电话号码和语音信箱等多种功能, 也可以生产一种使用上述的中文输入电话码技术或者直接使用汉语拼音字母键盘进 行中文输入,直接输入字母电话号码,然后由电话内的电子装置自动拨出字母电话 号码对应的数字电话号码的电话,可以在这种电话上安装一个小型显示屏,用户可 以一边输入一边查看显示屏,随时修改和校正错误,最后经过确认后,才正式拨出 对应的数字电话号码,其中,数字电话号码对应的字母电话号码也可以由用户自己 输入决定,这种电话一定非常实用,能拥有一定的市场,可以使用电话语音卡等技 术在与计算机连接在一起的电话上实现这个功能,也可以专门生产一种较为便宜的 专用电话,可以首先使用一种利用中文输入电话码键盘技术的字母电话码长途区号 电话号码,这种新型字母电话码长途区号电话号码可以分为两种:第一种是新型短 码字母电话码长途区号电话号码,它由三个数字组成,前两个数字是该长途电话所 要区域汉语名称前两个字汉语拼音的首字母对应的中文输入电话码数字,第三个数 字是重码序号,这种短码字母电话码长途区号电话号码可以应用于我国的几十个或 几百个主要城市,例如:按照图3.所示的(I)型中文输入电话码键盘上规定的电话 码规则,北京市的短码字母电话码长途区号电话号码可以用251或者250来表示, 内蒙古自治区呼和浩特市的短码字母电话码长途区号电话号码则可以用33加上第三 位重码序号数字来表示,这样使用起来和记忆起来都非常简单方便;第二种是新型 长码字母电话码长途区号电话号码,一般应用于各个大区域内的一些小区域地区, 不能使用第一种号码的地区一般都可以使用第二种号码,它由五个或者六个数字组 成,前两个数字是该长途电话所要小区域所在的省、市、自治区等等大区域汉语名 称前两个字汉语拼音的首字母对应的中文输入电话码数字,第三个和第四个数字是 该长途电话所要小区域汉语名称前两个字汉语拼音的首字母对应的中文输入电话码 数字,第五个或者第五个和第六个数字是重码序号,重码较少并且少于10个时,可 以使用五个数字组成的号码,重码较多并且多于10个但少于100个时,可以使用六 个数字组成的号码,一般重码不会多于10个,更不会多于100个,一般地,可以按 照各个地区安装电话的总数排列重码序号,安装电话多的序号排在前面,例如:内 蒙古自治区二连浩特市的长码字母电话码长途区号电话号码可以用6635加上重码序 号来表示,这样这种长途电话号码最长不超过六位数字,是完全可以被接受的,只 要各地方的电话普遍使用图3.所示的(I)型中文输入电话码键盘和相应的电话码技 术,这种字母数字长途电话号码使用起来和记忆起来会非常简单方便,它可以省去 许多记忆的麻烦,建议人为地规定长途电话号码区号对应的字母码和该地区字母邮 政编码相同,只要二者的规定原则一致就可以做到这一点,这样使用起来会更加方 便实用;利用本发明中智能音形码输入法的一些编码方案,对每个汉字只取其中前 一个或前几个码,对简短信息只按规定规则取整句话中的几个汉字进行编码,作出 在英文数字BP机上应用的编码方案,这样对英文数字BP机原有数字编码方案进行改 造,得到26个字母以及0-9十个数字组成的字母代码编码方案,可以使用比汉显BP 机便宜许多的英文数字BP机,用新的编码方案代替旧的编码方案,使用起来方便实 用,简单便宜,也可以实现汉显BP机的功能,使用英文数字BP机的用户不用增加设 备或作任何改变就可以使用此技术,这时,相应的汉语拼音代码显示在用户的英文 数字BP机上,用户经过简单的学习就可以从这些汉语拼音代码中得出对应的汉字信 息,而不用在编码本上查找或复台,这样就可以使英文数字BP机使用起来有类似汉 显BP机的许多功能,使二者几乎一样使用方便。
4.按照权利要求1、2和3所述的智能音形码输入法及其应用中的电话码中文输 入技术及其应用,其特征为:首先,权利要求2中的中文输入电话码技术可以应用 到BP机自动留言服务等方面,现在我国已有一些城市开通了127台BP机自动寻呼业 务,但是,127台只能自动寻呼,却不能自动留言,使用上面所述的电话码中文输 入技术,可以在输入自动留言功能号和寻呼号后,再以对应的电话码代码输入简短 的留言信息,例如:呼叫人的姓氏、呼叫人的姓名、简短留言、时间、地点等等; BP机寻呼台会自动识别输入的信息,发出相应的信号并使信号在用户的BP机上显示 出来,数字BP机、英文数字BP机和汉显BP机均可以使用此技术;第二,上述的中文 输入电话码技术可以应用到114台查号无人值守自动管理系统,可以使用上述的中 文输入电话码技术在电话上输入被查询电话号码的人名或单位名称,经过交互选择 后,系统可以自动找出被查号码并播放相应的录音向用户报出被查号码,这样就可 以省去114台的查号人员,节省人力,节约开销,提高自动化水平,进一步地,可 以应用上述的电话码技术实现无人值守的用人名或单位名称自动转接电话的交换机 系统,可以在我国大量的带分机交换机系统中首先应用这一技术,建立一个应用上 述电话码技术的用人名或单位名称自动转接电话的带分机的交换机系统,代替接线 员,按照打电话的人所输入的呼叫人名或单位名称自动接通电话;类似以通讯地址 字母邮政编码代替数字邮政编码的应用,可以在上述技术基础上,建立一种以字母 电话号码代替数字电话号码,使用人名或单位名称自动转接电话的交换机系统,这 样可以实现用户搬家或改换电话号码时不用通知他人,而他人仍能拨通该用户的电 话的先进功能,还可以实现用户的电话号码保密,限时接通,更换热线电话号码, 出差时留下热线电话号码和语音信箱等等多种功能,也可以生产一种使用上述的中 文输入电话码技术或者直接使用汉语拼音字母键盘进行中文输入,直接输入字母电 话号码,然后由电话内的电子装置自动拨出字母电话号码对应的数字电话号码的电 话,可以在这种电话上安装一个小型显示屏,用户可以一边输入一边查看显示屏, 随时修改和校正错误,最后经确认后,才正式拨出对应的数字电话号码,其中,数 字电话号码对应的字母电话号码也可以由用户自己输入决定,这种电话一定非常实 用,能拥有一定的市场,可以使用电话语音卡技术等计算机技术在与计算机连接在 一起的电话上实现这个功能,也可以专门生产一种较为便宜的专用电话,可以首先 使用一种利用中文输入电话码键盘技术的字母电话码长途区号电话号码,这种新型 字母电话码长途区号电话号码可以分为两种:第一种是新型短码字母电话码长途区 号电话号码,它由三个数字组成,前两个数字是该长途电话所要区域汉语名称前两 个字汉语拼音的首字母对应的中文输入电话码数字,第三个数字是重码序号,这种 短码字母电话码长途区号电话号码可以应用于我国的几十个或者几百个主要城市, 例如:按照图3.所示的(I)型中文输入电话码键盘上规定的电话码规则,北京市的 短码字母电话码长途区号电话号码可以用251或者250来表示,内蒙古自治区呼和 浩特市的短码字母电话码长途区号电话号码则可以用33加上第三位重码序号数字来 表示,这样使用起来和记忆起来都非常简单方便,第二种是新型长码字母电话码长 途区号电话号码,一般应用于各个大区域内的一些小区域地区,不能使用第一种号 码的地区一般都能使用第二种号码,它由五个或者六个数字组成,前两个数字是该 长途电话所要小区域所在的省,市,自治区等等大区域汉语名称前两个字汉语拼音 的首字母对应的中文输入电话码数字,第三个和第四个数字是该长途电话所要小区 域汉语名称前两个字汉语拼音的首字母对应的中文输入电话码数字,第五个或者第 五个和第六个数字是重码序号,重码较少并且少于10个时,可以使用五个数字组成 的号码,重码较多并且多于10个但少于100个时,可以使用六个数字组成的号码, 一般重码不会多子10个,更不会多于100个。一般地,可以按照各个地区安装电话 的总数排列重码序号,安装电话多的序号排在前面,例如:内蒙古自治区二连浩特 市的长码字母电话码长途区号电话号码可以用6635加上重码序号来表示,这样这种 长途电话号码最长不超过六位数字,是完全可以被接受的,只要各处的电话普遍使 用图3.所示的(I)型中文输入电话码键盘和相应的电话码技术,这种字母数字长途 电话号码使用起来和记忆起来会非常简单方便,它可以省去许多记忆的麻烦,建议 人为地规定长途电话号码区号对应的字母码和该地区字母邮政编码相同,只要二者 的规定原则一致就可以作到这一点,这样使用起来会更加方便实用;第三,上述电 话码技术可以应用来帮助建立一种贵重和易丢失物品的LR编码系统以及在这种编码 和上述电话码技术基础上建立起来的电话报失查询系统,可以建立一个或多个登记 中心,任何贵重的和易丢失的物品都可以在这些中心申请登记一个供丢失报告使用 的LR号码,这样当该物品丢失时,知情人就可以通过电话向各地建立的电话报失查 询系统报失,报告丢失物品的LR号码及其它有关信息,在电话报失查询系统中,可 以应用上述电话码技术建立无人值守的自动管理系统,自动进行中文输入,数字输 入和交互选择,在其他人收购物品或通过其它途径怀疑某物品可能来路不正时,如 果该物品上印有,写有或者刻有LR号码,就可以打电话到电话报失查询系统查询该 号码物品是否为报失状态,如果是报失状态,可以采取相应措施,避免自己受到任 何损失,也可以帮助丢失物品的主人找到有关丢失物品的线索,并且尽快找到犯罪 者,如果不是报失状态,则可以放心购买或不再进一步调查;第四,对于各种数据 库查询系统,均可以使用上述的电话码技术实现通过电话进行数据库查询的功能, 与互联网技术相结合,可以实现一种适合中国国情的,方便而便宜的,可以通过电 话进行访问的互联网网络系统;最后,可以使用上述的电话码技术用电话进行计算 机的远端控制和远端操作,并且操作起来非常方便实用,界面友好,适合中国人使 用,进一步地,上述的电话码技术与互联网技术结合起来,可以实现通过电话在互 联网络上查询有关信息的功能,可视电话等新的电话技术的进一步革命,将使电话 成为可以联入各种网络的一种方便的,便宜的,和实用的终端设备。
5.按照权利要求1,2,3和4所述的智能音形码输入法及其应用中的整句智能 输入技术及其在智能输入,文字校对,汉字识别和中文语音输入等等多种计算机文 字输入领域中的许多应用,其特征为:智能音形码输入法的整句智能输入方式是在 整句智能输入技术和辅助文字校对技术的基础上,对于单字输入方式的各种编码方 案或者只输入每个汉字基本音码的第一个或前几个代码等编码方案,用马尔可夫链 模型方法求出满足各个条件的出现可能最大的中文句子作为输出,同时给出一些可 能性次最大的待选句子,并且对出错可能性较大的地方给出标记,以便进一步校对 修改,整句智能输入技术与字词一体化技术相结合,可以增加输入,校对和识别的 正确性,也可以提高计算速度,增加实时性和实用的智能功能,本发明中的智能音 形码输入法还可以有逐字实时显示汉字,自动记忆,自学习,自适应地修改词库以 适应用户的特点,自适应地选择用于校对的错误类别,自适应地选择和校正识别汉 字时使用的字模字库和自适应用户的专业特点等等多种智能功能;显然,整句智能 输入方法的原理可以用来实现对同音字或易混易错的近音字进行辅助文字校对的功 能,汉语的一个重要特点就是同音的字和易混易错的近音字特别多,因此,这方面 的辅助文字校对功能就特别重要,对于字词混淆错误,则可以建立每个汉语字词容 易错写成的所有字词组成的词库,在校对文章时,用前面权利要求3中所述的整句 智能输入原理求出被校对的原文句子出现的概率,该句子中的少数几个汉字被前述 词库中的汉字所替代后所有可能中可能性最大的句子出现的概率和该句子中更多但 不超过句子一半的几个汉字被前述词库中的汉字替代后所有可能中可能性最大的句 子出现的概率,例如:前者替代汉字的限制为只替代一个字,后者替代汉字的限制 为替代多于一个字但不超过句子的一半;然后根据这些概率来决定该句子是否有字 词混淆错误,此一技术还可以与字词一体化技术相结合,可以增加校对的正确性, 也可以提高计算速度,增加实时性和实时的智能功能,该方法还可以有自动记忆, 自学习,自适应用户的要求和自适应地按照各种类型的错误区分类别分别单独处理 等等多种智能功能;本发明在整句智能输入技术和辅助文字校对技术基础上提出一 种可以大大提高汉字识别率,特别是手写汉字识别率,使之迅速达到实用化水平的 识别方法,即整句智能校对识别方法,对一个句子中的每个汉字,如果按照目前通 用的识别方法可以准确地识别出所有汉字,则可以不用使用下面的辅助方法,如果 反之,则对那些无法准确识别出来的汉字,按照目前通用的识别方法确定其字形图 像与原文中的汉字近似的一组汉字,然后分别用这些汉字加上那些准确识别出来的 汉字按照原文顺序以任何一种可能组成句子,考虑两个因素,(1)这些句子出现的 可能性,(2)各个近似的汉字与原文中对应的被识别字体的字形图像相似程度的总 和;用在这两个因素基础上计算出来的综合指标,求出一个在所有可能中最佳的中 文句子作为输出,并且给出一些次最佳的待选句子,对出错可能较大的地方显示出 某种标记,以便进一步校对修改,这样就可以大大提高目前的手写汉字识别率,可 以不断地适当调整上述方法中的各种参数,相似字库和算法,使该方法的识别率更 高,并可以综合照顾到其它各种因素,此一技术还可以与字词一体化技术相结合, 可以增加识别的正确性,也可以提高计算速度,增加实时性和实时的智能功能,该 方法还可以有自动记忆,自学习,自适应用户要求等等许多智能功能;利用上面所 述的整句智能输入技术和辅助文字校对技术,可以将所有的同音字和易混用的近音 字建立成由语音输入时要用到的待识别音作标志的一些同音近音字库,在语音输入 时,先找出发音人所说句子中每个发音对应的同音近音汉字字库,然后对于整个一 句话,利用整句智能输入技术和辅助文字校对技术等等方法,求出各个字库中不同 汉字任意组合中出现可能性最大的一个中文句子作为输出,并给出一些次最佳的待 选句子,对于出错可能性较大之处给出标记,以便进一步使用播放的录音由用户作 交互选择的方法进行校对修改,此一技术还可以与字词一体化技术相结合,可以增 加语音输入的正确性,也可以提高计算速度,增加实时性和实时的智能功能,该方 法还可以有自动记忆,自学习,自适应用户要求等等许多智能功能,这种语音输入 技术可以与第四章中所述的电话码技术相结合,直接通过电话用上述的语音输入技 术向计算机输入中文或其它文字,特别是输入中文,遇到要进行校对修改时,可以 使用播放录音请用户进行交互选择和校对修改的方式,这样可以应用这种技术建立 一种适合中国国情的,方便而便宜的,可以通过电话进行访问的互联网网络系统。
6.按照权利要求1,2,3,4和5所述的智能音形码输入法及其应用中的以通讯 地址字母邮政编码代替数字邮政编码和以字母电话号码代替数字电话号码等方面的 应用,其特征为:现在使用邮政编码时,寄信人往往不知道或不记得收信人的邮政 编码,查找邮政编码也很不方便,使用手写字母代码书写通信地址代替邮政编码就 解决了这一个难题,大大方便了用户,如果使用本发明中的汉字输入方法来书写地 址,可以大大减少字母码长,并且方便实用,易学易记,可以将上述技术与整句智 能输入技术和地址常用词组字词一体化技术结合使用,增加识别的正确性,改进识 别计算速度,提高实时性,增加实用的智能功能,并且可以有许多自动记忆,自学 习和自适应用户的要求和特点等等多种智能功能;类似以通讯地址字母邮政编码代 替数字邮政编码的应用,可以以字母电话号码代替数字电话号码,使用户改换电话 号码时不用通知他人,使用此一技术可以使他人直接利用人名或单位名称拨通该用 户的电话,权利要求2中所述的电话码技术,可以应用到114台查号无人值守自动 管理系统,可以使用电话码技术在电话上输入被查询电话号码的人名或单位名称, 经过交互选择后,系统可以自动找出被查号码并播放相应的录音向用户报出被查号 码,这样就可以省去114台的查号人员,节省人力,节约开销,提高自动化水平, 进一步地,可以应用上述电话码技术实现无人值守的用人名或单位名称自动转接电 话的交换机系统,可以在我国大量的带分机交换机系统中首先应用这一技术,建立 一个应用上述电话码技术的用人名或单位名称自动转接电话的带分机交换机系统, 代替接线员,按照打电话的人所输入的呼叫人名或单位名称自动接通电话,类似以 通讯地址字母邮政编码代替数字邮政编码的应用,可以在上述技术基础上,建立一 种以字母电话号码代替数字电话号码,使用人名或单位名称自动转接电话的交换机 系统,这样可以实现用户搬家或改换电话号码时不用通知他人,而他人仍能拨通该 用户的电话的先进功能,还可以实现用户的电话号码保密,限时接通,更换热线电 话号码,出差时留下热线电话号码和语音信箱等等多种功能,也可以生产一种使用 上述的中文输入电话码技术或者直接使用汉语拼音字母键盘进行中文输入,直接输 入字母电话号码,然后由电话内的电子装置自动拨出字母电话号码对应的数字电话 号码的电话,可以在这种电话上安装一个小型显示屏,用户可以一边输入一边查看 显示屏,随时修改和校正错误,最后经确认后,才正式拨出对应的数字电话号码, 其中,数字电话号码对应的字母电话号码也可以由用户自己输入决定,这种电话一 定非常实用,能拥有一定的市场,可以使用电话语音卡技术等计算机技术在与计算 机连接在一起的电话上实现这个功能,也可以专门生产一种较为便宜的专用电话; 可以首先使用一种利用中文输入电话码键盘技术的字母电话码长途区号电话号码, 这种新型字母电话码长途区号电话号码可以分为两种。第一种是新型短码字母电话 码长途区号电话号码,它由三个数字组成,前两个数字是该长途电话所要区域汉语 名称前两个字汉语拼音的首字母对应的中文输入电话码数字,第三个数字是重码序 号,这种短码字母电话码长途区号电话号码可以应用于我国的几十个或者几百个主 要城市,例如:按照图3.所示的(I)型中文输入电话码键盘上规定的电话码规则, 北京市的短码字母电话码长途区号电话号码可以用251或者250来表示,内蒙古自 治区呼和浩特市的短码字母电话码长途区号电话号码则可以用33加上第三位重码序 号数字来表示,这样使用起来和记忆起来都非常简单方便,第二种是新型长码字母 电话码长途区号电话号码,一般应用于各个大区域内的一些小区域地区,不能使用 第一种号码的地区一般都能使用第二种号码,它由五个或者六个数字组成,前两个 数字是该长途电话所要小区域所在的省,市,自治区等等大区域汉语名称前两个字 汉语拼音的首字母对应的中文输入电话码数字,第三个和第四个数字是该长途电话 所要小区域汉语名称前两个字汉语拼音的首字母对应的中文输入电话码数字,第五 个或者第五个和第六个数字是重码序号,重码较少并且少于10个时,可以使用五个 数字组成的号码,重码较多并且多于10个但少于100个时,可以使用六个数字组成 的号码,一般重码不会多于10个,更不会多于100个,一般地,可以按照各个地区 安装电话的总数排列重码序号,安装电话多的序号排在前面,例如:内蒙古自治区 二连浩特市的长码字母电话码长途区号电话号码可以用6635加上重码序号来表示, 这样这种长途电话号码最长不超过六位数字,是完全可以被接受的,只要各处的电 话普遍使用图3.所示的(I)型中文输入电话码键盘和相应的电话码技术,这种字母 数字长途电话号码使用起来和记忆起来会非常简单方便,它可以省去许多记忆的麻 烦,建议人为地规定长途电话号码区号对应的字母码和该地区字母邮政编码相同, 只要二者的规定原则一致就可以作到这一点,这样使用起来会更加方便实用。
7.按照权利要求1,2,3和5所述的智能音形码输入法及其应用中的在英文数 字BP机上实现汉显BP机功能等方面的许多应用,其特征为:利用本发明中智能音形 码输入法的一些编码方案,对每个汉字只取其中前一个或前几个码,对简短信息只 按照规定规则取整句话中的几个汉字进行编码,作出在英文数字BP机上应用的编码 方案,这样,对数字BP机原有数字编码方案进行改造,得到26个字母以及0-9十个 数字组成的字母代码编码方案,可以使用比汉显BP机便宜许多倍的英文数字BP机, 用新的编码方案代替旧的编码方案,使用起来方便实用,简单便宜,也可以实现汉 显BP机的功能,使用英文数字BP机的用户不用增加设备或作任何改变就可以使用此 技术,这时,相应的汉语拼音代码显示在用户的英文数字BP机上,用户经过简单的 学习就可以从这些汉语拼音代码中得出对应的汉字信息,而不用在编码本上查找或 复合,这样可以使英文数字BP机使用起来有类似汉显BP机的许多功能,使二者几乎 一样使用方便。
8.按照权利要求1,2和3所述的智能音形码输入法及其应用中的各种单字输 入方式以及一些扩充功能,其特征为:智能音形码输入法及其应用中的各种单字输 入方式的基本音码中的第一个音码是汉语拼音声母的首字母,后两个音码是汉语拼 音韵母的第一个字母和最后一个字母,其中,属于零声母的音节作为韵母处理,有 人将以y[i-]和w[u-]开头的音节归入零声母,本输入法则将这两种情况都作为声 母处理,而不归入零声母,智能音形码输入法及其应用中的各种单字输入方式的基 本形码是将汉字按规定原则拆开成多个部件后,取第一个部件和最后一个部件名称 的汉语拼音首字母组成,拆字的几种原则如下:
一.独字原则:当第一笔或最后一笔与相关的笔划构成独体字时,就取该独体 字汉语拼音的第一个字母作为形码,例如:“悲”字第一笔与相关的笔划构成独体 字“非”,其形码为f,最后一笔与相关笔划构成独体字“心”,其形码为x,这 样,“悲”字的基本形码就是fx;
二.偏旁原则:第一笔或最后一笔与相关笔划只构成偏旁的,就取偏旁名称汉 语拼音的第一个字母为形码,如:“江”的第一笔与相关笔划构成偏旁“氵”,其 汉语的名称叫“三点水”,取“三”的汉语拼音第一个字母s作形码,最后一笔与 相关笔划构成独体字“工”,用g作代码,“江”的形码为sg,又如:“打”第一 笔与相关笔划构成一个偏旁“扌”,叫“提手旁”,取“提”的汉语拼音第一个字 为td;
三.笔划原则:第一笔或最后一笔与相关笔划即不构成独体字,也不构成偏旁 的,就取该笔划的名称(点、横、竖、撇、捺、折等)汉语拼音第一个字母作形码, 如:“小”第一笔是竖勾,最后一笔是点,就用sd;“哀”第一笔是点,最后一笔 是捺,就用dn;
四.取大原则:音形码输入法拆字取部件的原则是取大的,不取小的;取通俗 的、常见的,不取古字和少见的,比如:“森”字的第一笔与相关笔划构成独体字 “木”,用m作代码,最后一笔既构成“木”,但也构成“林”(见一),按取大原 则,后一笔的形码只取“林”,不取“木”,则“森”的形码就用ml;
五.同音规避原则:如果有一个部件的形码和该字的音码第一个字母相同时, 这个形码所代表的部件就再往小拆以避免重码,例如:“搬”字,按取大的原则应 是“扌+般”,但是“般”和“搬”的音相同,因此,“搬”就拆为“扌+又”, “搬”的形码应为ty;
六.同形规避原则:当按上述方法所取出的第二形码与第一形码相同时,若可 拆成三个以上部件,则取第一部件和第二部件的两个形码,若只能拆两个部件,则 形码不变,如“班”可拆成“王+丶+丿+王”,按前五个原则,基本形码应为王王 的两个形码,即ww,但按原则六,应取前两个部件“王+丶”,其形码为wd,又如 “林”只能拆成两个部件“木+木”,其形码为mm;
五码型输入方式的汉字编码最长一般由三个音码加上两个形码组成,其中三个 音码为上述的基本音码,两个形码为上述的基本形码,计算机中的汉字字库分为一 级字库和二级字库,一级字库中的汉字是常用字,二级字库中的汉字是不常用的汉 字,一般地,二级字库多为笔划多而复杂且一般人很难确定其读音的汉字,根据这 一特点,五码型输入方式对二级字库中的汉字加入了另外一种四形码型输入方式, 两者任选其一都可以输入二级字库中的汉字,四形码型输入方式只使用四个形码, 不使用音码,以便不知汉字发音的人使用,四形码型输入方式的拆字方法如下:每 字都拆为四个部件,第一步完全按基本形码拆字原则先确定两个部件及其代码,然 后将大的部件即笔划多的部件再按前述原则拆开成两个部件,确定其代码,例如: “伽”字第一步拆成:“亻”+“加”(dj),第二步拆“加”为“力”+“口” (lk),“伽”的形码是djlk,如果第一次拆的两个部件大小相等,第二步就拆后 一部件;四码型输入方式的汉字编码一般最长为两个音码加上两个形码,若基本音 码少于两个,四码型输入方式的音码与基本音码相同,若基本音码多于两个,四码 型输入方式的音码为基本音码的前两个音码,其中的两个形码则为基本形码,上述 的四形码型输入方式同样适用于四码型输入方式;三码型输入方式的汉字编码一般 为一个音码加上两个形码,音码为基本音码的第一个音码,形码为基本形码,上述 的四形码型方式去掉第三个形码后的三个形码组成的三形码型输入方式适用于三码 型输入方式;倒序型输入方式的汉字编码由两个形码加上三个音码组成,主要适用 于运行在有逐渐提示功能的UCDOS和WINDOWS95系统中,其特点是:先输入两个形 码组成的基本形码,再输入三个音码组成的基本音码,即与五码型顺序相反,与五 码型相比,此方式输入速度更快,但不如五码型那样自然方便。上述的四形码型输 入方式同样适用于倒序型输入方式;形音型输入方式一般由一个音码加上三个形码 组成,音码是基本音码中第一个字母,三个形码的拆法如下:第一步完全按基本形 码的拆字原则,先确定两个部件及其代码,然后将其中的笔划多的部件再按其原则 拆成两个部件,只取其最后一个部件确定其代码,这样三个代码组成三个形码,如 果第一次所拆开的两个部件大小相等,就拆开后一个部件,例如:“例”可以拆为 “亻”和“列”,然后再将“列”拆开为“歹”和“刂”,只取“刂”,“例”的 代码为dll,同样,“郭”可以拆开为“享”和“阝”,再拆开“享”为“丶”和 “子”且只取“子”,其代码为xez,形音型输入方式的形码部分可以与上述的三 形码型输入方式类似,形音型输入方式对于二级字库中的汉字使用新五笔字型输入 方式,其拆法为先按五笔字型拆法拆出多个部件取其前三个部件和最后一个部件, 再按前述生成基本形码的方法生成新五笔字型输入法代码,如“剞”,音ji,五笔 字型方法的代码为dskj,其对应拆出的各个部件为“大丁口刂”,则新五笔字型输 入方式对应的代码为ddkl;音形码输入法中还有将上述几种类型中的几种或全部混 合使用的各种混合型方法,在这些混合型方法中,可以任选混合在其中的某几种方 法来进行汉字输入,都可以输出正确的汉字,这样可以适用于有各种不同需要的用 户使用,因为各种混合型方法较为复杂,形成的各种文件太多太杂,现在暂时没有 推荐使用的类型;在音形码输入法当中,共设计有多种容错功能。除WINDOWS95, WINDOWS3.1和UCDOS中的万能键或容错键等容错功能外,音形码输入法还具有自己 的多编码容错功能,当一个汉字有多种不同的自然拆法时,可任选一种拆法输入, 另外,音形码输入法还有自己的特殊容错键功能。因为字母i,u,v不能出现在 汉语拼音的首字母处,因此一定不能作为音形码输入法各种输入方式汉字编码的第 一音码和各个形码,当无法确定一个汉字的第一音码和拆字形码时,可以用由字母 i,u,v组成的特殊容错键,也称模糊键或中和键来代替该代码,特殊容错键共 有三个,第一个是字母“i”,表示那些无法确定类型的形码。第二个和第三个是 字母“u”和“v”,分别表示两类固定类型的形码;另外,音形码输入法中还有 数百个简码字可以用简化方式输入,每个简码字的输入方法为:只要输入该汉字基 本音码中的第一个音码和基本形码的第一个形码这两个字母码即可;
音形码输入法的扩充功能和智能功能有: 一.容错功能:当某个汉字有两种以上不同的自然拆法时,可任选一种拆法, 二.全拼功能:输入音码时也可按全拼方法输入音码, 三.构词功能:词组简化输入功能, 四.增加新词库功能:(略) 五.选择安装功能:(略) 六.音形码输入法具有WINDOWS95,WINDOWS3.1,和UCDOS下中文输入法所具有的
大部分先进功能;
智能音形码输入法的构词规则如下: 一.智能音形码输入法单字输入方式的基本构词规则为: (一)两字词:按P11+P21+P12+P22拼字,如“你好”拼为nhia, (二)三字词:三个字的头一个字母相加,如“共产党”拼为gcd, (三)四字以上词:前三字头字母加上最后一字头字母,如“一日千里”拼为yrql,
“马克思列宁主义”拼为mksy, 二.上述五码型输入方式的构词规则为扩充构词规则: (一)两字词:按P11+P12+P21+P22(可与基本构词法两字词法任选其一)拼字,如:
      “你好”拼为niha, (二)三字以上:同基本构词法, 三.上述三码型输入方式的构词规则为将基本构词法中的(一)、(二)、(三)中的第
三个代码去掉即可,其它输入法均采用基本构词规则。
9.按照权利要求1,2,3和4所述的智能音形码输入法及其应用中的电话码中 文输入技术和供丢失报告使用的LR编码系统以及在此基础上的电话报失查询系统及 其应用,其特征为:权利要求2中所述的电话码技术可以应用来帮助建立一种贵重 的和易丢失物品的LR编码系统以及在这种编码和上述电话码技术基础上建立的电话 报失查询系统,可以建立一个或多个登记中心,任何贵重的和易丢失的物品都可以 在这些中心申请登记一个供丢失报告使用的LR号码,这样当该物品丢失时,知情人 就可以通过电话向各地建立的电话报失查询系统报失,报告丢失物品的LR号码及其 它有关信息,在电话报失查询系统中,可以应用权利要求2中所述的电话码技术建 立无人值守的自动管理系统,自动进行中文输入,数字输入和交互选择,在其他人 收购物品或通过其它途径怀疑某物品可能来路不正时,如果该物品印有,写有或刻 有LR号码,就可以打电话到电话报失查询系统查询该号码物品是否为报失状态,如 果是报失状态,可以采取相应措施,避免自己受到任何损失,也可以帮助丢失物品 的主人找到有关丢失物品的线索,并尽快找到犯罪者,如果不是报失状态,则可以 放心购买或不再进一步调查。
10.按照权利要求1,2和3所述的智能音形码输入法及其应用中的附加声韵 母键盘以及相应的输入技术,其特征为:附加声韵母键盘如图1.,除标准键盘上的 各个汉语拼音单字母声母和零声母外,还有ch,sh,zh共三个声母不能用标准键盘 上的字母键直接表示。在汉语拼音韵母和零声母中,除标准键盘上可以表示的a, e,i,o,u,ü外,其中ü可用字母键u或v表示,还有ai,an,ang,ao, ei,en,eng,er,ia,ian,iang,iao,ie,in,ing,iong,iu,ong, ou,ua,uai,uan,üan,uang,üe,ui,un,uo,ün,等等许多个韵母或 者零声母不能用标准键盘上的字母键直接表示;有人将以y[i-]和w[u-]开头的音 节归入零声母,本输入法则将这两种情况都作为声母处理,而不归入零声母;对于 所有这些不能用标准键盘直接表示的声母,韵母和零声母,再加上汉语拼音中的元 音ü,制作出由相应的声韵母键组成的附加声韵母键盘,这时只要将标准键盘和附 加声韵母键盘都与计算机主机连接好后,可以在上面按键直接输入汉语拼音中的任 一个声母,韵母和零声母,每个汉字的汉语拼音最多只要敲两下键盘即可,这种键 盘使用起来简单方便,直观实用,易学易记,并且输入速度很快,因此这是一种实 用性很强的计算机中文输入设备。

说明书全文

发明属于计算机文字输入领域。在此领域中,人们发明了许多新的中文输入方法。其 中有一些音形码输入方法和智能输入方法。在非整句智能输入的单字输入方法中,有些方法 输入速度很快。例如:这方面有王璐先生和徐火辉先生发明的专利方法“简易音形码汉语输 入法”,(专利公告号为1081772,法律状态为授权,其输入速度为每字平均码长2.0左右。) 以及原益中先生发明的专利方法“音形笔画综合编码汉字高速输入法及所用键盘”等等。(专 利公告号为1039132,法律状态无,其输入速度为每字平均码长大约在1.3-1.8左右。)本发 明中的单字输入方式是一种输入速度较快并且方便实用,易学易记的音形码输入方法。

在英美等国,有一种常用的普通英文输入电话码键盘。(详见图2.。)并且以这种键盘 为基础的电话码英文输入技术已广泛应用于各种计算机电话服务领域。但是目前我国尚无 人提出用类似的电话码技术解决电话码中文输入问题。本发明在提出智能音形码中文输入 法的基础上,设计出了一种适合中文输入的电话码键盘(详见图3.和图4.)和一系列使用电 话码技术进行电话码中文输入的技术方法。本发明还提出该技术可以广泛应用于各种计算 机电话服务领域,并且具体指出了其中的许多应用方法。

目前,国内外已经提出了一些整句智能输入的技术(见《中文信息学报》,1996.2,“一 种基于语言理解的输入方法-智能拼音输入法”)和辅助文字校对的技术。并且已经有一些 应用整句智能输入技术和辅助文字校对技术的产品问世,例如:以北京隆光威尔新技术公 司的“自通输入”软件和黑公司的“黑马智能输入”软件以及“黑马校对”软件为代表 的一批应用整句智能输入技术和辅助文字校对技术的新产品。但是,目前国内尚无人提出将 整句智能输入技术和辅助文字校对技术的精华直接应用到包括文字校对,汉字识别,中文 语音输入,以通信地址字母邮政编码代替数字邮政编码,以字母电话号码代替数字电话号 码,以及在英文数字BP机上实现汉显BP机的功能等等许多计算机文字输入领域。本发明 则提出了在上述这些方面应用智能音形码输入法以及整句智能输入技术和辅助文字校对技 术的许多方法。

本发明的目的是提供一种方便实用,易学易记的智能音形码中文输入方法,同时提供 供中文输入使用的一种电话码键盘技术和一种附加声韵母键盘。在前述的中文输入法基础 上,可将各种先进的中文输入技术应用到广泛的领域。具体的说,可以将电话码技术应用到 各种计算机电话服务领域,也可以将智能音形码输入法应用到智能输入,文字校对,汉字识 别,中文语音输入,以通信地址字母邮政编码代替数字邮政编码,以字母电话号码代替数字 电话号码,以及在英文数字BP机上实现汉显BP机的功能等等许多计算机文字输入领域。

本发明的技术方案分为单字输入方式和整句智能输入方式两种方式。其中单字输入方 式是一种音形码输入方式。其编码由音码和形码组成。规定的原则通俗简便,易学易记,汉 字编码较短。共有五码型,四码型,三码型,倒序型,形音型,形码型,新五笔字型和混合型 等多种输入方式。其中五码型方式汉字代码由三个音码和两个形码组成。三个音码中的第 一个音码是汉语拼音声母的首字母,后两个音码是汉语拼音韵母的第一个和最后一个字母。 其中,属于零声母的音节作为韵母来处理。(注:有人将以y[i-]和w[u-]开头的音节归入零 声母。但本输入法则将这两种情况都作为声母来处理,而不归入零声母。)如果韵母只有一 个字母,则五码型方式汉字代码的韵母部分也只取一个字母。五码型方式汉字代码的两个形 码是将汉字按规定原则拆开成多个部件后,取第一部件和最后一个部件名称的汉语拼音首 字母。智能音形码输入法的整句智能输入方式是在整句智能理解技术和辅助文字校对技术 的基础上,对于单字输入方式的各种编码方案或者只输入其中每个汉字基本音码的第一个 或前几个代码等等多种编码方案,用马尔可夫链方法求出满足条件的出现可能性最大的中 文句子作为输出,同时给出一些可能性次最大的待选句子,并对出错可能性较大之处给出 标记。整句智能输入方式与字词一体技术相结合,可以增加输入,校对和识别的正确性,也 可以提高识别计算速度,增加实时性和实用的智能功能。整句智能输入方式还可以有逐字实 时显示汉字,自动记忆,自学习,自适应地修改词库以适应用户的特点,自适应地选择用于 校对的错误类别,自适应地选择和校正识别汉字时使用的字模字库和自适应用户的专业特 点等等多种智能功能。

本发明还提出了一种适合中文输入的电话码键盘技术以及相应的输入方法。并指出这 种键盘和相应的输入技术在各种计算机电话服务领域中的许多应用。本发明的整句智能输 入方式还可以应用到智能输入,文字校对,汉字识别,中文语音输入,以通信地址字母邮政 编码代替数字邮政编码,以字母电话号码代替数字电话号码,以及在英文数字BP机上实现 汉显BP机的功能等等许多计算机文字输入领域。

总体来看,已有的许多输入法只顾追求加快输入速度(即减少每字平均码长)以及降低 重码率,但往往忽视了方便实用,易学易记的要求。因此这些输入法虽然在上述两个性能指 标上可能超过或接近过去人们常用的五笔字形和自然码等方法,但在方便实用,易学易记 方面没有明显改进。这样由于习惯性因素,这些新的输入法往往无法被人们所接受,也无法 应用到实际之中。本发明克服了这个缺点。在保证输入速度和重码率指标与五笔字形和自 然码相差不多的前提下,本发明的单字输入方式在方便实用,易学易记方面比前述所有方 法都具有明显优势。几年前周志农先生发明的自然码方法之所以比五笔字形方法略占优势, 主要原因是他将音码方法和形码方法的优点结合了起来。自然码的音码是将汉语拼音按某 种记忆规则压缩成由两个字母组成的形式。自然码的形码是由汉字第一,第二部件汉语名称 拼音的首字母组成。这样每字平均码长一般小于4.0。本发明的单字输入方式也是将音码 方法和形码方法的优点结合起来的一种音形码方法。但是它的压缩汉语拼音的记忆规则比 自然码和其他方法更加方便实用,易学易记。因此在总体上,本发明具有许多其他方法所没 有的优点。

与英美现有的电话码英文输入技术相比,本发明中的电话码中文输入技术更适合于使 用中文的人使用,特别是大陆和新加坡会使用汉语拼音的人。该技术还可以与本发明中的整 句智能输入方式以及在中文语音输入方面的应用相结合,广泛地应用到各种计算机电话服 务领域。

与其他智能输入方式相比,在同样形式下智能音形码输入法的整句智能输入方式输入 速度更快。(例如:在全拼形式下,本发明的整句智能输入方式比智能拼音方法输入速度快 很多。它的每字平均码长可以比智能拼音方法减少1-2个码长。)本发明中的整句智能输入 技术与字词一体化技术相结合,可以增加输入,校对和识别的正确性,也可以提高计算速度, 增加实时性和实用的智能功能。本发明中的整句智能输入方式还可以有逐字实时显示汉字, 自动记忆,自学习,自适应地修改词库以适应用户的特点,自适应地选择用于校对的错误类 别,自适应地选择和校正识别汉字时使用的字模字库和自适应用户的专业特点等等多种智 能功能。本发明中的整句智能输入方式还可以广泛地应用到智能输入,文字校对,汉字识别, 中文语音输入,以通信地址字母邮政编码代替数字邮政编码,以字母电话号码代替数字电 话号码,以及在英文数字BP机上实现汉显BP机的功能等等许多计算机文字输入领域。

下面对本发明中的附图作一些简单的说明。

图1.是本发明智能音形码输入法中的附加声韵母键盘。

图2.是英美常用的普通英文输入电话码键盘。

图3.是本发明智能音形码输入法中的(I)型中文输入电话码键盘。

图4.是本发明智能音形码输入法中的(II)型中文输入电话码键盘。

智能音形码输入法的单字输入方式是一种属于音形码的汉字输入法,简称“音形码输入 法”。音形码输入法的每个汉字代码可以由音码和形码组成。(也有只使用音码或形码的输 入法。)音码和形码的选取方式颇具特色,与国内现行的各种汉字编码相比较,具有规定的 原则通俗,简便,易记,汉字编码较短等优点。使用者只需初具汉语拼音知识和汉字结构知 识就可在很短时间内掌握这种输入法。音形码输入法共有五码型,四码型,三码型,倒序型, 形音型,四形码型,三形码型,新五笔字型和混合型等等多种输入方法。使用者在输入过程 中可根据情况任选一种。比如,遇到二级字库中不知读音的字,就可以使用四形码型,三形 码型或新五笔字型等输入法。音形码输入法中的五码型方式特别重要,并且最为方便实用。 它的汉字代码由三个音码和两个形码组成。三个音码中的第一个音码是汉语拼音声母的首 字母,后两个音码是汉语拼音韵母的第一个和最后一个字母。其中,属于零声母的音节作为 韵母来处理。(注:有人将以y[i-]和w[u-]开头的音节归入零声母。但本输入法将这两种情 况都作为声母来处理,而不归入零声母。)如果韵母只有一个字母,则五码型方式汉字代码 的韵母部分也只取一个字母。五码型方式的两个形码是将汉字按规定原则拆开成多个部件 后,取第一个部件和最后一个部件名称的汉语拼音首字母组成。下面具体介绍基本音码,基 本形码,各种类型方法所使用的汉字代码,再介绍音形码输入法中的一些扩充功能和智能 功能,最后再对各种类型作性能分析。

音形码输入法的基本音码在汉语普通话拼音字母基础上产生。汉语拼音中的拼音u在 音形码各种类型的输入法中都可以用v表示。汉语拼音中的声母部分多由单个字母表示,只 有ch,sh,zh才是由两个字母组成的。音形码输入法基本音码的声母部分采用汉语拼音中由 单个字母表示的声母,而对ch,sh,zh这三个由两个字母组成的声母,则只取第一个字母表 示,即ch=c,sh=s,zh=z。汉语拼音的韵母部分一般由1-4个字母组成。音形码输入法基本 音码的韵母部分采用汉语拼音中由1-2个字母构成的韵母,如a,i,ao,in,ai,an,in等;由3-4个 字母构成的韵母,则只取第一个字母和最后一个字母作为音形码输入法基本音码。比如: iao=io,uai=ui,ang=ag,uang=ug,uan=un,ian=in等等。如果汉字的拼音只有韵母,没有声母, 音形码输入法的基本音码只有韵母部分,如:安an,爱ai。即属于零声母的音节作为韵母来 处理。(注:有人将以y[i-]和w[u-]开头的音节归入零声母。但本输入法将这两种情况都作 为声母来处理,而不归入零声母。)音形码输入法基本音码最短的仅仅有一个字母,最长的 也只有三个字母,例如:“双”shuang=sug,“标”piao=pio,“原”yuan=yun,“店” dian=din。(注:将c,s,z和ch,sh,zh这两组声母合并,用c,s,z一组字母表示。这一方面也 是为了方便某些方言区的人不会区分这两组声母。输入每个汉字时在音码后面还有形码作 区别,因此一般不会造成重码字。)

计算机里的汉字字库分为一级字库和二级字库。一级字库是常用汉字,二级字库是不常 用的汉字,一般多为笔划较多而复杂的汉字。根据这种特点,音形码输入法的基本形码由两 个形码组成,它是根据汉字的结构而设置的。汉字的结构可分析为独体字和合体字两种。独 体字是囫囵一个字,不能分析开。合体字由两个以上的成份组成。这些成分有些是独体字, 有些是不独立作字用的偏旁或笔划。无论是独体字还是合体字,音形码输入法将汉字拆为多 个部件。按汉字的书写笔顺(即从左到右,从上到下,从外到里,从中间到两边。)视第一笔 和最后一笔的情况来确定两个基本形码。

拆字有多种原则如下:

一.独字原则:当第一笔或最后一笔与相关的笔划构成独体字时,就取该独体字汉语拼 音的第一个字母作为形码。如:“悲”第一笔与相关的笔划构成独体字“非”,其形码为f, 最后一笔与相关笔划构成独体字“心”,其形码为x,这样,“悲”的基本形码就是fx。

二.偏旁原则:第一笔或最后一笔与相关笔划只构成偏旁的,就取偏旁名称汉语拼音的 第一个字母(详见附录二)为形码,如:“江”的第一笔与相关笔划构成偏旁“氵”,其汉语名 称叫“三点”,取“三”的汉语拼音第一个字母s作形码;最后一笔与相关笔划构成独体 字“工”,用g作代码。“江”的形码为sg。又如:“打”第一笔与相关笔划构成偏旁“扌”, 叫“提手旁”,取“提”的汉语拼音第一个字母t作形码;最后一笔与相关笔划构成独体字 “丁”,用d作代码。“打”的形码为td。

三.笔划原则:第一笔或最后一笔与相关笔划即不构成独体字,也不构成偏旁的,就取 该笔划的名称(点、横、竖、撇、捺、折等)汉语拼音第一个字母作形码。      如“小” 第一笔是竖勾,最后一笔是点,就用sd;“哀”第一笔是点,最后一笔是捺,就用dn;“川” 用竖竖ss。

四.取大原则:音形码输入法拆字取部件的原则是取大的,不取小的;取通俗的、常见 的,不取古字和少见的。比如:“森”的第一笔与相关笔划构成独体字“木”,用m作代码。 最后一笔既构成“木”,但也构成“林”(见一)。按取大原则,后一笔的形码只取“林”,不 取“木”,则“森”的形码就用ml。

五.同音规避原则:如果有一个部件的形码和该字的音码第一个字母相同时,这个形码 所代表的部件就再往小拆以避免重码。如“搬”,按取大的原则应是“扌+般”,但是“般” 和“搬”的音相同,因此“搬”就拆为“扌+又”,“搬”的形码应为ty。

六.同形规避原则:当按上述方法所取出的第二形码与第一形码相同时,若可拆成三个 以上部件,则取第一部件和第二部件的两个形码。若只能拆两个部件,则形码不变。如“班” 可拆成“王+丶+丿+王”,按前五个原则,基本形码应为王王的两个形码,即ww。但按原 则六,应取前两个部件“王+丶”,其形码为wd。又如“林”,只能拆成两个部件“木+木”, 其形码为mm。

五码型输入法的汉字编码一般由最长为三个音码加上两个形码组成。其中三个音码为 前面所述的基本音码,两个形码为前面所述的基本形码。

计算机中的汉字字库分为一级字库和二级字库。一级字库中的汉字是常用字。二级字 库中的汉字是不常用的汉字。一般地,二级字库多为笔划多而复杂且一般人很难确定其读 音的汉字。根据这一特点,五码型输入法对二级字库中的汉字加入了另外一种四形码型输 入法,两者任选其一都可以输入二级字库中的汉字。

四形码型输入法只使用四个形码,不使用音码,以便不知汉字发音的人使用。四形码型 输入法的拆字方法如下:

每字都拆为四个部件。第一步完全按基本形码拆字原则先确定两个部件及其代码,然 后将大的部件即笔划多的部件再按前述原则拆成两个部件,确定其代码。如:“伽”,第 一步是:“亻”+“加”(dj),第二步拆“加”为“”+“口”(lk),“伽”的形码 是djlk。如果第一次拆的两个部件大小相等,第二步就拆后一部件。

四码型输入法的汉字编码一般最长为两个音码加上两个形码。若基本音码少于两个,四 码型输入法的音码与基本音码相同,若基本音码多于两个,四码型输入法的音码为基本音 码的前两个音码,其中的两个形码则为基本形码。前面所述的四形码型输入法同样适用于本 节。

三码型输入法的汉字编码一般为一个音码加上两个形码。音码为基本音码的第一个音 码,形码为基本形码。前面所述的四形码型方法去掉第三个形码后的三个形码组成的三形码 型输入法。

倒序型输入法由两个形码加上三个音码组成。主要适用于有逐渐提示功能的UCDOS 和WINDOWS95中。其特点是:先输入两个形码组成的基本形码,再输入三个音码组成的 基本音码,即与五码型顺序相反。与五码型相比,此法输入速度更快,但不如五码型那样自 然方便。§2.4节中的四形码型输入法同样适用于本节。

形音型输入法一般由一个音码加上三个形码组成。音码是基本音码中第一个字母。三 个形码的拆法如下:第一步完全按基本形码的拆字原则,先确定两个部件及其代码,然后将 其中的笔划多的部件再按其原则拆成两个部件,只取其最后一个部件确定其代码,这样三 个代码组成三个形码。(如果第一次所拆的两个部件大小相等,就拆后一个部件)。例如:“例” 可拆为“亻”和“列”,然后再将“列”拆为“歹”和“刂”,只取“刂”,因此,“例” 的代码为dll。同样,“郭”可拆开为“享”和“阝”,再拆开“享”为“丶”和“子”且 只取“子”,其代码为xez。(注:形音型输入法的形码部分可以与前面所述的三形码型输 入法类似。)

形音型输入法对于二级字库中的汉字使用新五笔字型输入法,其拆法为先按五笔字型 拆法拆出多个部件取其前三个部件和最后一个部件,再按前面所述生成基本形码的方法生 成新五码字型输入法代码。如“剞”(音ji),五笔字型方法的代码为dskj,其对应拆出的各个 部件为“大丁口刂”,则新五笔字型输入法对应的代码为ddkl。

音形码输入法中还有将上述五种类型中的几种或全部混合使用的各种混合型方法。在 这些混合型方法中,可以任选混合在其中的某几种方法来进行汉字输入,都可以输出正确 的汉字。这样可以适用于有各种不同需要的用户使用。因为各种混合型方法较为复杂,形成 的各种文件太多太杂,现在暂时没有推荐使用的类型。

在音形码输入法中,设计有多种容错功能。除WINDOWS95,WINDOWS3.1和UCDOS 中的万能键或容错键等容错功能外,音形码输入法还具有自己的多编码容错功能。当一个汉 字有多种不同的自然拆法时,可以任选一种拆法输入。另外,音形码输入法还有自己的特殊 容错键功能。因为字母i,u,v不能出现在汉语拼音的首字母处,因此一定不能作为音形码 输入法汉字编码的第一音码和各个形码。当您无法确定一个汉字的第一音码和拆字形码时, 可以用由字母i,u,v组成的容错键(也称模糊键或中和键)代替该代码。特殊容错键共有 三个。第一个是字母“i”,表示那些无法确定类型的形码。第二个和第三个是字母“u” 和“v”,分别表示两类固定类型的形码。

另外,音形码输入法中还有数百个简码字可以用简化方式输入。每个简码字的输入方法 为:只要输入该汉字基本音码中的第一个音码和基本形码的第一个形码这两个字母码即可。

一.容错功能:当某个汉字有两种以上不同的自然拆法时,可任选一种拆法。

二.全拼功能:输入音码时也可按全拼方法输入音码。

三.构词功能:词组简化输入功能。

四.增加新词库功能:(略。)

五.选择安装功能:(略。)

六.音形码输入法具有WINDOWS95,WINDOWS3.1,和UCDOS下中文输入法所具 有的大部分先进功能。

一.智能音形码输入法单字输入方式的基本构词规则为:

(一)两字词:按P11+P21+P12+P22拼字。如“你好”拼为nhia。

(二)三字词:三个字的头一个字母相加。如“共产党”拼为gcd。

(三)四字以上词:前三字头字母加上最后一字头字母。如“一日千里”拼为yrqd, “马克思列宁主义”拼为mksy。

二.前面所述的五码型输入法的构词规则为扩充构词规则:

(一)两字词:按P11+P12+P21+P22(可与基本构词法两字词法任选其一)。如“你好” 拼为niha。

(二)三字以上的词同基本构词法。

三.前面所述的三码型输入法构词规则为将基本构词法中的(一)、(二)、(三)中的第

三个代码去掉即可。其它输入法均采用基本构词规则。

音形码输入法中的五码型输入方式又称方便型,是最为方便实用的音形码输入法,它 最为简便易学,很易于推广,实用性强。但码长为3,4,5,最大码长为5,码长比三码型(码 长为3),四码型(码长为4)都略长。它比倒序型效率略低,但更自然方便。它的字库重码 率约为8%,它比形音型(字库重码率可低至约为1%)要高,但比三码型(字库重码率高达 20%--50%)要低一些,是性能适中,适合于广大用户特别是初学者的一种方法。

三码型码长最短,事实上已几乎达到极限,无法给出改进型的更短码的输入法。而它重 码率并不太高,>=50%的字可以不用选择。另外,其它的字,绝大部分重码字<=10个,特别 是一级国标字库中的重码字<=10%,一级二级加起来绝大部分也<=10%。这样,绝大部分常 用字不用翻页直接作一次选择即可,特别适合于计算机应用,可以用屏幕交互快速输入汉 字,每字一般最多打四下键盘,且大量情况只要<=3下键盘。敲键最少而输入最快。

四码型码长一般最长为4,与五笔字型最大码长相同,较为简便易学,音码为五码型音 码的前两个码,形码与五码型一样,重码率比五码型增加不多,方便程度也相似。但最大码 长较短,性能略有改进。是方便程度,最大码长及重码率等重要指标介于五码型和三码之间 的一种方法,性能适中,适合推广,可在市场中经受考验。

倒序型是将五码型的音码和形码输入顺序倒过来,先输入两个基本形码,再输入三个 基本音码。因为五码型先输入音码,由音码逐渐提示时,如用选择键可以不输入形码,可避 免用形码拆字较为困难的情况。若用倒序型先输入形码,必须用形码拆字,因此较为困难且 不自然,这方面方便程度不如五码型。但由于形码分割效率比后两个音码效率高,因此往往 输入倒序型前四个编码后,同码字库就只有唯一一个单字了。这时可以敲空格键或回车键输 入该字。这样,输字平均码长大大缩短,小于等于四,五个码长,因此倒序法也有一定的独 特优点。

音形码输入法中的形音型输入方式码长为2,3,4,一般最大码长为4,码长居中,在三码 型(码长为3)和五码型(码长为5)之间。它性能适中,码长与部分用户惯用的著名的五 笔字型法一样。且重码率很低约为1%,而且比五笔字型方便易学,只需学会几条简单规则 即可,是一种性能优良的输入法。但它要输入三个形码,拆字较三码型,四码型,五码型和 倒序型等更难且时间更长,是一种更偏重于形码的音形码输入法。因此,它比三码型,四码 型,五码型和倒序型等更难学,较难推广。

首先,对于汉语拼音中的元音ü,在它单独使用或者与其他字母组合使用时,既可以 用u表示也可以用v表示。也可以设计出只能用u表示或只能用v表示的方案。这样,汉 语拼音元音ü的表示方案就可以有许多种。其中最好的方案是既可以用u表示也可以用v 表示的方案。

另外,因为字母i,u,v不能出现在汉语拼音的首字母处,因此一定不能作为汉字编码 的第一音码和各个形码。这样,可以使用字母键i,u,v作为第一音码和各个形码的特别容 错键。(详见§2.11。)其中i可以表示无法确定类型的代码,u可以表示第一类型的代码,v 可以表示第二类型的代码。

附加声韵母键盘如图1.。除标准键盘上的各个汉语拼音单字母声母和零声母外,还有ch, sh,zh共三个声母不能用标准键盘上的字母键直接表示。在汉语拼音的韵母和零声母中,除 标准键盘上可以表示的a,e,i,o,u,ü外,(其中ü可以用字母键u或v表示,)还有ai, an,ang,ao,ei,en,eng,er,ia,ian,iang,iao,ie,in,ing,iong,iu,ong,ou,ua,uai,uan,üan, uang,üe,ui,un,ün,uo等等许多个韵母或者零声母不能用标准键盘上的字母键直接表 示。(注:有人将以y[i-]和w[u-]开头的音节归入零声母,本输入法则将这两种情况都作为 声母处理,而不归入零声母。)

对于所有这些不能用标准键盘直接表示的声母,韵母和零声母,再加上汉语拼音中的 元音ü,制作出由相应的声韵母键组成的附加声韵母键盘。(详见图1.。)这时,只要将标 准键盘和附加声韵母键盘都与计算机主机连接好后,可以在上面按键直接输入汉语拼音中 的任一个声母,韵母和零声母,每个汉字的汉语拼音最多只要敲两下键盘即可。这种键盘使 用起来简单方便,直观实用,易学易记,并且输入速度很快。因此这是一种实用性很强的计 算机中文输入设备。

在英美等国,有一种常用的普通英文输入电话码键盘。(详见图2.。)并且以这种键盘 为基础的电话码英文输入技术已广泛应用于各种计算机电话服务领域。但是目前我国尚无 人提出用类似的电话码技术解决电话码中文输入问题。本发明在提出智能音形码中文输入 法的基础上,设计出了一个适合中文输入的电话码键盘和一系列使用电话码技术进行电话 码中文输入的方法。本发明还提出该技术可以广泛应用于各种计算机电话服务领域,并且具 体指出了其中的许多应用方法。

与英美现有的电话码英文输入技术相比,本发明中的电话码中文输入技术更适合于使 用中文的人使用,特别是大陆和新加坡会使用汉语拼音的人。该技术还可以与本发明中的整 句智能输入方式及在语音输入方面的应用相结合,广泛地应用到各种计算机电话服务领域。

如图3.和图4.所示,在普通的12键电话键盘上,在1-9九个数字键上,每键依次印上零 个,三个或者四个相对应的字母或符号。总共要印上26个英文字母和一些符号,例如:汉语 拼音中的元音符号“ü”和符号“.”等等。其中,可以用汉语拼音中的元音ü代替字母v, 或者用ü代替符号“.”。这种中文输入电话码键盘可以有很多种形式,图3.和图4.列出了 对于中文输入较为实用的两种形式。图3.为(I)型中文输入电话码键盘,图4.为(II)型中文输 入电话码键盘。

输入中文时,先按汉语拼音决定汉字的音码,再按规定原则决定形码,然后按这些代码 进行输入。也可以只输入这些代码中的第一个代码或前几个代码。如果使用本发明中的输 入方法,可以大大减少码长,并且降低重码率。使用起来也非常简单方便,直观实用,易学 易记。用电话码技术进行中文输入时,先根据专规定的方法决定26个字母组成的字母代 码,再按动相对应的数字键输入对应的电话数字代码,最后由这些代码查找相应汉字选项。 遇到有重码时,可以利用播放有关录音,请用户选择的交互方式选择或输入有关的汉字名 称,词组或中文选项。为减少播放录音进行交互的总量,要使用重码率较少的输入方法。因 为汉字常用词组一般只有几万个,用电话码技术进行中文输入时又往往只使用其中的部分 汉语词组。所以可以按照§2.12中所述的构词规则决定各个汉字前几个代码连接组成的词 组字母代码,再按动相对应的数字键。当数据库的待查询项只使用部分汉字词组时,例如使 用少于30000个词组时,使用上述的四码词组代码,共有大约10000种可能,重码个数一 般少于10个。这样,进行播放录音交互选择的总量是可以接受的。如果使用的是小型数据 库(许多实用的应用属于此类),所使用的汉字词组只相当于几千的量级或者更少,使用上 述方法(即四码词组代码)则可以做到几乎无重码,也就几乎不用播放录音进行交互选择 了。在相应的软件技术中,可以建立一个数据库。其中每个数据有一个汉语词组待查询项和 一个由1-9九个数字组合而成的电话码四码词组代码项以及一些对应的信息项。每次使用 电话语音卡及相应软件接收到电话码输入后,可以使用数据库查询技术,查出所有输入码 指定的电话码四码词组代码项,再经过播放录音进行重码选择后,可以确定地找出所要找 的数据项及其相应的信息,最后就可以通过电话向用户播放这些信息。这样就可以利用上述 的中文输入电话码技术进行中文输入,数据库查询和交互选择等等多种应用。所以可以将上 述的中文输入电话码技术广泛应用到各种计算机电话服务领域。

首先,上面所述的中文输入电话码技术可以应用到BP机自动留言服务方面。现在我国 已有一些城市开通了127台BP机自动寻呼业务。但是,127台只能自动寻呼,不能自动留 言。使用上面所述的中文输入电话码技术,可以在输入自动留言功能号和寻呼号以后,再以 对应的电话码代码输入简短的留言信息。(例如:呼叫人的姓氏,呼叫人的姓名,简短留言, 时间,地点等等。详细编码可以参见最后面的编码方案。)BP机寻呼台会自动识别输入的信 息,发出相应的信号并使信号在用户的BP机上显示出来。数字BP机,数字英文BP机和汉 显BP机均可以使用此技术。这一技术的应用可以大大提高BP机行业的自动化服务水平。

第二,上面所述的中文输入电话码技术可以应用到114台查号无人值守自动管理系统。 可以使用这种中文输入电话码技术在电话上输入被查询电话号码的人名(或单位名称),经 过交互选择后,系统可以自动找出被查号码并播放相应的录音向用户报出被查号码。这样就 可以省去114台的查号人员,节省人力,节约开销,提高自动化水平。进一步地,可以应用 上述电话码技术实现无人值守的用人名或单位名称自动转接电话的交换机系统。可以在我 国大量的带分机交换机系统中首先应用这一技术,建立一个应用上述的中文输入电话码技 术的用人名或单位名称自动转接电话的带分机交换机系统,代替接线员,按照打电话的人 所输入的呼叫人名或单位名称自动接通电话。例如:要叫通首二车间的电话,可以先拨通 首钢总机,然后用上述电话码技术输入“二车间”三字的电话码代码,系统就可以将电话自 动接通到首钢二车间。

类似以通讯地址字母邮政编码代替数字邮政编码的应用,可以在上述技术基础上,建 立一种以字母电话号码代替数字电话号码,使用人名(或单位名称)自动转接电话的交换机 系统。这样可以实现用户搬家或改换电话号码时不用通知他人,而他人仍能拨通该用户的电 话的先进功能。还可以实现用户的电话号码保密,限时接通,更换热线电话号码,出差时留 下热线电话号码和语音信箱等等多种功能。也可以生产一种使用上述的中文输入电话码技 术或者直接使用汉语拼音字母键盘进行中文输入,直接输入字母电话号码,然后由电话内 的电子装置自动拨出字母电话号码对应的数字电话号码的电话。可以在这种电话上安装一 个小型显示屏,用户可以一边输入一边查看显示屏,随时修改和校正错误。最后经确认后, 才正式拨出对应的数字电话号码。其中,数字电话号码对应的字母电话号码可以由用户自己 输入决定。这种电话一定非常实用,能拥有一定的市场。可以使用电话语音卡技术等计算机 技术在与计算机连接在一起的电话上实现这个功能,也可以专门生产一种较为便宜的专用 电话。

可以首先使用一种利用中文输入电话码键盘技术的字母电话码长途区号电话号码。这 种新型字母电话码长途区号电话号码可以分为两种。第一种是新型短码字母电话码长途区 号电话号码,它由三个数字组成,前两个数字是该长途电话所要区域汉语名称前两个字汉 语拼音的首字母对应的中文输入电话码数字,第三个数字是重码序号。这种短码字母电话码 长途区号电话号码可以应用于我国的几十个或者几百个主要城市。例如:按照图3.所示的(I) 型中文输入电话码键盘上规定的电话码规则,北京市的短码字母电话码长途区号电话号码 可以用251或者250来表示,内蒙古自治区呼和浩特市的短码字母电话码长途区号电话号 码则可以用33加上第三位重码序号数字来表示。这样使用起来和记忆起来都非常简单方便。 第二种是新型长码字母电话码长途区号电话号码,一般应用于各个大区域内的一些小区域 地区。不能使用第一种号码的地区一般都能使用第二种号码。它由五个或者六个数字组成, 前两个数字是该长途电话所要小区域所在的省,市,自治区等等大区域汉语名称前两个字 汉语拼音的首字母对应的中文输入电话码数字,第三个和第四个数字是该长途电话所要小 区域汉语名称前两个字汉语拼音的首字母对应的中文输入电话码数字,第五个或者第五个 和第六个数字是重码序号。重码较少并且少于10个时,可以使用五个数字组成的号码。重 码较多并且多于10个但少于100个时,可以使用六个数字组成的号码。一般重码不会多于 10个,更不会多于100个。一般地,可以按照各个地区安装电话的总数排列重码序号,安装 电话多的序号排在前面。例如:内蒙古自治区二连浩特市的长码字母电话码长途区号电话号 码可以用6635加上重码序号来表示。这样这种长途电话号码最长不超过六位数字,是完全 可以被接受的。只要各处的电话普遍使用图3.所示的(I)型中文输入电话码键盘和相应的电 话码技术,这种字母数字长途电话号码使用起来和记忆起来会非常简单方便。它可以省去许 多记忆的麻烦。

建议人为地规定长途电话号码区号对应的字母码和该地区字母邮政编码相同。只要二 者的规定原则一致就可以作到这一点。这样使用起来会更加方便实用。

第三,上述电话码技术可以应用来帮助建立一种贵重和易丢失物品的LR编码系统以及 在这种编码和上述电话码技术基础上建立的电话报失查询系统。可以建立一个或多个登记 中心,任何贵重的和易丢失的物品都可以在这些中心申请登记一个供丢失报告使用的LR号 码。登记中心要建立相应的数据档案库,对所有的申请登记者依次分配LR号码,记录下所 有批准的LR号码,对应的申请人,物品主人等有关信息,并保证每个物品只使用一个LR号 码,任何两个不同的物品都不能重号。然后登记中心或物品主人要委托专门机构在物品上印 上,写上或刻上相应的LR号码。这样当该物品丢失时,知情人就可以通过电话向各地建立 的电话报失查询系统报失,报告丢失物品的LR号码及其它有关信息。在电话报失查询系统 中,可以应用上述电话码技术建立无人值守的自动管理系统,自动进行中文输入,数字输入 和交互选择。同时建立一个数据档案库,记录下所有当前正处于报失状态的LR号码。每次 有人报失时都在库中增加一个记录,记录相应的LR号码。物品找到或取消报失后,可以取 消对应的记录。在其他人收购物品或通过其它途径怀疑某物品可能来路不正时,如果该物品 印有,写有或刻有LR号码,就可以打电话到电话报失查询系统查询该号码物品是否为报失 状态。如果是报失状态,可以采取相应措施,避免自己受到任何损失,也可以帮助丢失物品 的主人找到有关丢失物品的线索,并尽快找到犯罪者。如果不是报失状态,则可以放心购买 或不再进一步调查。这样可以保护大众的利益,特别是丢失物品的主人和收购物品的商人的 利益。这可以使大众产生更大的安全感,安定社会,抑制犯罪,服务大众,是一项利国利民 的大好事。

第四,对于各种数据库查询系统,均可以使用上述的电话码技术实现通过电话进行数 据库查询的功能。与互联网技术相结合,可以实现一种适合中国国情的,方便而便宜的,可 以通过电话进行访问的互联网网络系统。

最后,可以使用上述的电话码技术用电话进行计算机的远端控制和远端操作。并且操作 起来方便实用,界面友好,适合中国人使用。进一步地,上述的电话码技术与互联网技术结 合起来,可以实现通过电话在互联网络上查询有关信息的功能。可视电话技术等新的电话技 术的进一步革命,将使电话成为可以联入各种网络的一种方便的,便宜的,和实用的终端设 备。

下面介绍一种基于“语句”理解的快速汉字输入方法。这种方法利用了上下文的相关 性,实现汉字的简短编码到汉字的自动转换。使用者只需输入相应的汉字简短编码,不用手 工选择汉字,系统便根据上下文自动将相应的汉字给出,并在整个语句的范围内根据输入 内容的变化对结果动态调整,随时保证语句的正确。这种方法减少了击键次数,并基本上可 以实现盲打,极大地提高了汉字输入的速度,并且几乎不用学习训练就能掌握。(详见参考 文献[7.]。)

把汉字输入到计算机中是一个“老大难”问题,尽管目前国内外已经提出近千种汉字输 入方法(编码方案),但都还没有做到既能快速输入汉字又能很容易地掌握。现有的方法可 大致分为两类:一类是围绕汉字笔划编码,另一类是各种基于读音(拼音)的编码。两类方 法各有特点,前一类方法基于“拆字”,典型的有五笔字形码等。这种方法的特点是重码少, 输入速度快,可以实现盲打,因此适合专业录入人员使用。但又因它要记忆的东西很多(以 五笔为例,有227个字元和很多输入规则),需要花很长的时间训练才能使用,使得一般人 难以掌握。即使学会了,如果一段时间不用,就很容易生疏,再加上使用这些输入方法时, 要考虑如何拆字,不符合人们使用语言的习惯,实际上无法做到脱稿输入。后一类方法只要 会拼音就能掌握,而会拼音的人很多。更由于语音是人类相互之间传递信息最自然,最方便 和最有效的形式,因此基于读音的输入方法符合人们使用语言的习惯,容易做到脱稿输入。 所以,尽管目前这类方法速度很慢,仍有许多人在使用它。但正是由于它的输入速度太慢, 它不适合输入长篇的文章。

有人认为现有的拼音输入方法速度慢,主要是因为击键次数多,其实不然。对大量语料 的统计结果表明,以国家汉语拼音方案编码的全拼平均每个音只有3.06个字母,在重码排 序时考虑到字频后,输入一个汉字平均击键次数在五次以下,而如果使用通行的简拼方法 每个读音平均字母长度为2.11(以WPS为准),输入一个汉字击键次数在3.5次以下,这个 速度即使达不到五笔等方法的速度,也基本上相当,不会太慢。而事实上,目前各种拼音输 入方法能提供的速度与前一类方法不在同一量级上。造成这种结果的原因在于现有的拼音 输入方法在输入一个字的读音后,还必须从众多同音字中手工地选出所要的字,这时用户 要扫视整个提示行,甚至还要翻页,这就大大影响了输入速度。而当注意力放在提示行时, 是无法实现盲打的。因此,提高拼音输入方法的效率关键在于变手工选字为自动选字。

汉语有一音多字的特性,换句话说重码很多。以新华字典收录的汉语读音为准,共有 412个(不考虑声调),而二级国标汉字在考虑一字多音后,相当于有7536个字,平均每种 读音对应18.29个国标汉字。因此,解决一音多字决非易事。

目前也有基于词的拼音输入方法,如联想编码和双拼双音输入法等采用按词录入或给 出提示,比以前进了一步,在一定成度上解决了选字的问题,但离盲打的目标仍然甚远,主 要表现在:

1.在实际的汉语文本中要大量遇到的是一字词,如:“是”,“和”,“的”等等,这些 仍需要手工选择汉字。

2.对三字以上词基本上无法处理。

3.即使是能较好处理的二字词,也存在同音词问题,需手工选择。

4.用户实际上不知道哪些词已被收录,可以直接按词输入,而哪些则不可以。因此,常 会出现按词输入拼音后,发现词库中没有该词,无端多按了许多键。

尽管两类方法都在不断改进以提高速度和使用的方便性,但从编码研究的度看,它 们有一个共同的不足之处,就是忽视了自然语言上下文相关性对编码的影响。整句智能输入 方法的研究方法与以往的编码研究方法不同。它们是将信息论用于汉字编码,把一句话作为 一个整体来进行研究,利用句子的上下文相关性来减少编码长度,具体说是通过句子理解 实现拼音串或者汉字简短编码串到汉字串的自动转换,从而省去手工选字的过程。本节提出 的整句智能输入方法克服了前述输入方法的不足之处,是一种能够盲打,符合人们的语言 习惯,容易掌握的高速输入方法。用户只需输入汉字简短编码而不需要手工选字,就能输入 文章,输入速度可以接近甚至超过五笔字形等快速输入方法。

从信息论的角度看,输入汉字的过程实际上是人向计算机提供信息的过程。只要提供足 够的信息,就能唯一确定一个汉字。因此研究编码首先要了解在一篇文章中确定一个汉字最 少需要多少信息量,在信息论中,它等同于每个汉字平均包含的信息量。

如果把一篇文章中的汉字看成是独立等概率的,由于二级国标汉字共有6724个,平均 需用12.7bit表示一个汉字,我们把它称为一个汉字所包含的平均信息量。如果用26个字母 编码,每个字母信息量为4.7bit,因此平均最短编码为2.7个字母。而如果考虑到实际上不 同汉字在文章中出现的频度不同以及自然语言上下文的相关性,区分每个汉字所需的比特 数要下降很多。当考虑了各汉字频度上的差异后,区分一个汉字平均只需9.6bit(见[1.])。 当考虑了上下文相关性后,这个值还要下降,尽管目前对于汉语尚不知道降为多少,但从英 语研究的情况以及有关语音理解的情况看,比特数至少可再降低1/3(见[2,3,4]),即在6 比特左右。最短编码平均在1.3个字母左右。

上面给出的是理论值,在实际编码时,由于要考虑使用的方便性,平均编码长度大于这 个值。研究汉字编码的目的在于提供一种便于使用的,平均击键次数少的编码。从上面的分 析可以看出,减少长度可以从两个方面着手,第一,研究每个字的结构或发音,减少对每个 字的编码长度;第二,利用上下文的相关性,减少编码的冗余度。以往的研究几乎走的都是 第一条,个别的考虑了组词。目前各种基于“拆字”的方法已经接近了2.7键的极限,彼此 只能在减少零点几次甚至是零点零几次击键上作文章。如果不利用上下文的相关性,即使考 虑了字频,最多也只能做到大约2键一字。而且这样得到的编码是很难记忆的。

这里提出的输入方法是采用上面第二途径,即利用上下文的相关性来减少击键次数。目 前的拼音输入方法需要向计算机提供两种信息才能输入一个汉字:第一,音节信息,用全拼 或简拼输入音节分别需击键平均3.5次和2.1次(对于全拼编码,由于一个拼音串可能是另 一个的子串,因此需在这种串输入结束时加一个空格予以区别,便平均多出0.4次击键); 第二,一个音对应的众多同音汉字中第几个字的信息,目前是通过数字键输入,提供这个信 息平均需击键1.4次(考虑频度)。因此,拼音输入方法每输入一个字平均击键在3.5-4.9 次之间,它与理论上的1.3次的极限相比有很大的冗余,说明其中有些信息是可省略的。经 研究发现,上面提到的第二类信息是可省略的。事实表明,人在听到一句话的读音后就能知 道其内容,而不会发生二义性,这说明如果已知一句话的读音,它所含的汉字是可以唯一确 定的。尽管孤立地看,一个读音对应很多汉字,但在特定上下文环境中,只有一种选择,也 就是说,如果考察的上下文足够多,就能把汉语的读音序列(拼音串序列)和汉字一一对应 起来。这种方法正是鉴于这一点,将一个句子作为一个整体进行考虑,由上下文来唯一确定 每个拼音对应的汉字,而省去了手工选字这一环节。这样一方面击键次数可减少,更重要的 是由于真正做到了用拼音盲打输入汉字,输入的速度就快得多了。上述方法的核心技术是拼 音到汉字的自动转换。可以使用基于语料库统计的句子理解方法完成此转换。拼音到汉字 的转换可以被看成一个对应问题,就是已知一个句子S的读音S=(S1,S2,…,SN)找出应 该对应什么样的汉字词串W=(W1,W2,…,WN),(一句话总可以分成若干个词,包括一字 词),根据最大后验概率准则: W = ArgMaxP ( W ( j ) / S ) j - - - - - ( 1 ) W(j)为所输入句子的若干候选句子(词序列)。根据Bayes公式,以及P(S)和J的无关性,有: W = ArgMa x j { P ( S / W ( j ) ) P ( W ( j ) ) } = ArgM a j x { P ( S 1 , S 2 , , S N / W 1 , W 2 , W M ) P ( W 1 , W 2 , , W M ) } - - - ( 2 ) 根据马尔可夫假设和独立输出假设,有: P ( W 1 , W 2 , , W M ) = i = 1 M P ( W i / W i - 1 ) P(S1,S2,…,SN/W1,W2,…,WM) = P ( S 1 , , S n 1 / W 1 ) P ( S n 1 + 1 , , S n 2 / W 2 ) P ( S n m - 1 + 1 , , S N / W M ) - - - ( 3 ) 其中, 对应Wk+1的读音,在不引起混淆时,为了书写方便,候 选序号J被省略了。当把多音的汉字看成几个不同的字以后: P ( S n k + 1 , S n k + 2 , S n k + 1 / W k + 1 ) = { 0 , S n k + 1 , S n k + 2 , , S n k + 1 , is the spelling of W k + 1 1 , S n k + 1 , S n k + 2 , , S n k + 1 , is the speling of W K + 1 - - - - ( 4 )

因此,计算式(1)的问题只剩下求式(P(Wi|Wi-1)了,它是通过对已有的大量文章(语 料库)的统计得到的。在实现时,事先统计出式(P(Wi|Wi-1)[5,6],然后对输入的拼 音串算出一个最可能的汉字句子,计算过程是由计算机自动完成的。由于这种方法选择汉字 是以概率为依据,因此不免有一定的错误,但错误率不会超过5%。如果在输入拼音后加上 声调选择,错误率不超过2%。对自动理解不对的字也可以进行手工干预。同时,这种方法 允许用户自定义词汇,使用自定义的词汇后,错误率还可以降低。以上错误率以输入报纸上 的各种文章为准,测试语料总字数超过150万字。智能拼音输入方法利用自然语言上下文 的相关性,实现了拼音到汉字的自动转换,实现了用拼音盲打输入汉字。智能全拼输入方法 输入一个汉字平均击键次数为3.5,接近目前各种快速输入方法;智能简拼平均击键次数仅 为2.11,比目前各种输入方法都快。这种方法符合人们使用语言文字的习惯,不需记忆繁琐 的码表,易于掌握。在使用时,不必考虑拆字,可实现脱稿输入。本发明中智能音形码输入 法的整句智能输入方式则更前进了一步,它的平均击键次数比智能全拼输入方法要少1.0- 2.0次,而它使用起来的方便程度又比智能简拼好很多,几乎与智能全拼差不多。因此,综合 来说它是更好的输入方法。整句智能输入方法由于是建立在自然语言理解的基础上,因此在 一定程度上可以避免输入错别字。这方面的工作还有很多。就智能拼音和智能音形码的整 句智能输入方式来说,目前是假设输入的编码完全正确,今后也可以改进为在允许一定的错 误输入时,仍能输出正确的汉字。

本发明所述的智能音形码输入法中的整句智能输入方式是在整句智能理解技术和辅助 校对技术的基础上,对于单字输入方式的各种编码方案或者只输入每个汉字基本音码的第 一个或前几个代码等等多种编码方案,用前面介绍的马尔可夫链模型和整句智能输入原理 求出满足各个条件的并且出现可能性大的中文句子作为输出,同时给出一些可能性次最大 的待选句子,并对出错可能较大的地方给出各种标记,以便进一步校对修改。智能音形码的 整句智能输入方式可以在用户输入句子各个汉字的过程中将汉字语词实时地显示出来。用 户不必等输完整个句子的拼音,就可以看到输入的汉字。万一敲错键或拼音错误,也能及时 发现,容易修改。用户也不必专门去建立自己的词库,在输入汉字的同时,系统可以自动建 立和自动维护词库,自适应用户的专业特点。整句智能输入技术和字词一体化技术相结合, 可以增加输入,校对和识别的正确性,也可以提高识别计算速度,增加实时性和实用的智能 功能。这一智能输入方法还可以有自动记忆,自学习,自适应地修改词库以适应用户的特点, 自适应地选择用于校对的错误类别,自适应地选择和校正识别汉字时使用的字模字库和自 适应用户的专业特点等等多种智能功能。这样该系统的智能测度将越来越高。上述整句智 能输入方法在智能输入,文字校对,汉字识别,中文语音输入,以通信地址字母邮政编码代 替数字邮政编码,以字母电话号码代替数字电话号码,以及在英文数字BP机上实现汉显BP 机的功能等等许多计算机文字输入领域还有许许多多广泛的应用。(详见参考文献[7.]。)

显然,整句智能输入方法的原理可以用来实现对同音字或易混易错的近音字进行辅助 文字校对的功能。汉语的一个重要特点就是同音的字和易混易错的近音字特别多。因此,这 方面的辅助文字校对功能就特别重要。

另外,在文字校对中发现的文字错误有字词混淆错误,语法错误和其它错误。其中,语 法错误可以用语法规则来检查校对,标出出错可能较大的地方,并给出供参考用的正确句 子。现在,语法错误部分还没有找到有效的应用整句智能输入原理的方法,只能用语法规则 来校对。对于字词混淆错误,则可以建立每个汉语字词容易错写成的所有字词组成的词库。 在校对文章时,用前两节所述的整句智能输入原理求出被校对的原文句子出现的概率,该 句子中的少数几个汉字被前述词库中的汉字替代后(例如:替代汉字的限制为只替代一个 字)所有可能中可能性最大的句子出现的概率和该句子中更多但不超过句子一半的几个汉 字被前述词库中的汉字替代后(例如:替代汉字的限制为替代多于一个字但不超过句子的 一半)所有可能中可能性最大的句子出现的概率。如果第一个概率比第二个和第三个概率都 大,则认为该句子没有字词混淆错误。如果第一个概率比第二个和第三个概率都小很多, (例如:比二者的0.8倍都小,)则认为该句子有字词混淆错误。这时,可以对该句子中被替 代的字词或部分作出标记,并且将替代后出现可能性最大的句子作为供参考用的正确句子。 如果情况介于二者之间,则不作判断。如果第一个概率比第二个概率大但比第三个概率小, 则考虑第一个概率与第三个概率的比值。如果这一比值很小,(例如:这一比值小于估计限 0.5,)则认为该句子有字词混淆错误。这时,可以同上面有字词混淆错误时同样处理。反之, 则认为该句子没有字词混淆错误。可以不断地适当调整这个估计限以及计算第二个概率和 第三个概率时原文句子中替代汉字的限制,使这一校对方法正确率更高,并且更好地照顾 到其它各方面因素。例如:对“任民万岁!”进行校对时,用上述方法进行计算,可以得到 第一个概率比第二个概率小的结果。因此,系统认为此句子有字词混淆错误,并且对其中的 “任”字进行标记,同时给出供参考用的正确句子“人民万岁!”。该方法与字词一体化技 术相结合,可以提高计算速度,增加实时性和实时的智能功能。该方法还可以有自动记忆, 自学习,自适应用户要求,自适应地选择用于校对的错误类别以分别情况进行处理和自适 应用户的专业特点等等多种智能功能。

上述方法中的错误类别词库可以有同音易错词库,近音易错词库,方言易错词库,字形 相近易错词库,非标准汉字词库,全拼输入法易错词库,双拼输入法易错词库,五笔字形输 入法易错词库,自然码输入法易错词库,罗码输入法易错词库,本发明中的智能音形码输入 法易错词库,各种汉字识别软件易错词库,上述各种词库的各种集成词库,……等等多种词 库。这些不同错误类别的词库可以应用来对使用听打,看打,想打的方式,和使用全拼输入 法,双拼输入法,五笔字形输入法,自然码输入法,罗码输入法,本发明中的智能音形码输 入法等输入方法,以及使用不同的汉字识别软件进行汉字识别生成的输出文件和无法确定 输入方法或者使用的汉字识别软件,……等等多种情况进行校对。对于各种不同情况,可以先 研究确定一个基本词库和相应的校对参数。以后根据实际校对时发生的情况,不断地由系统 进行自学习。如果系统找对了一个错误,就得到一个正子样。如果系统找错了一个错误,就 得到一个反子样。如果系统漏掉了一个错误,也相当于找错一个错误,也得到一个反子样。 这时系统可以自动地增加,减少或修改相应的错误类别词库和校对参数,以使校对软件在 自学习的过程中不断增加可靠性和智能测度。总之,本发明中整句智能输入方法在文字校对 等等许多计算机文字输入领域有许多重要应用。汉字识别,特别是手写汉字识别,是计算机 文字输入领域中的重大课题。目前,它遇到的最大困难即所谓瓶颈问题是如何进一步提高手 写体汉字识别的成功率和可靠性,以达到实用化的目的。目前,对于规范的手写体汉字,识 别率尚能达到60%-95%,但对于不规范的手写体汉字,识别率仍然很低。现在的总体水平 还没有达到完全实用化的目的。为此,本发明在整句智能输入技术和辅助文字校对技术基础 上提出一种可以大大提高手写汉字识别率,使之迅速达到实用化水平的识别方法,即整句 智能校对识别方法。对一个句子中的每个汉字,如果按照目前通用的识别方法可以准确地识 别出所有汉字,则不用使用下面的辅助方法。如果反之,则对那些无法准确识别出来的汉字, 按照目前通用的识别方法确定其字形图像与原文中的汉字近似的一组汉字,然后分别用这 些汉字加上那些准确识别出来的汉字按照原文顺序以任何一种可能组成句子。考虑两个因 素,(1)这些句子出现的可能性,(2)各个近似的汉字与原文中对应的被识别字体的字形图像 相似程度的总和。用在这两个因素基础上计算出来的综合指标,求出一个在所有可能中最佳 的句子作为输出,并且给出一些次最佳的待选句子,对出错可能较大的地方显示出某种标 记,以便进一步校对修改。这样就可以大大提高目前的手写汉字识别率。可以不断地适当调 整上述方法中的各种参数,相似字库和算法,使这一方法的识别率更高,并可以综合照顾到 其它各种因素。例如:在使用现有的识别方法时,“人民万岁”有可能被计算机错误识别成 “入民万岁”。但使用本发明中的识别方法时,计算机自动找出第一个汉字可能可以被识别 成两个字,分别为“人”和“入”,然后综合考虑前述的两个因素(1)和(2),发现识别为 “人”字时对应的句子出现可能性大得多,并且字形相差不多。因此,识别为“人”被作为 最佳选择,输出“人民万岁”,并且给出一些次最佳的待选句子,如:“入民万岁”,对于“人” 字和“入”字,将给出适当的标记。这样将改进识别率和识别方法。此一技术还可以与字词 一体化技术相结合,可以提高计算速度,增加实时性和实时的智能功能。该方法还可以有自 动记忆,自学习,自适应用户的要求,自适应地选择用于校对用的错误类别,自适应地选择 和校正识别汉字时使用的字模字库和自适应用户的专业特点等等许多智能功能。在联机手 写汉字识别方面的应用中,该方法还可以有逐字实时显示汉字,并且不断地利用上下文信 息实时修改校正等等多种智能功能。

上述方法实际上只是汉字识别软件的一种应用整句智能理解技术和辅助文字校对技术 的后处理技术。可以将经过上述方法校正后与原来识别出的不相同的汉字和原来识别出的 汉字都记录下来。最后自动校对完成后,再经过人工校对编辑,确定正确的文本文件。从中 可以找出原来识别正确但后处理校对反而错误的汉字,作为反子样进行学习。同时找出原来 识别错误但后处理校对正确的汉字,作为正子样进行学习。在这种自学习过程中,可以不断 增加,减少或者修改后处理校对时要用到的相似字字库中的相应汉字并且不断修正各种后 处理校对参数。这样可以不断提高这种软件的可靠性和智能测度。也可以研制一种不依赖 于具体的汉字识别软件,而对所有的或者一部分汉字识别软件适用的后处理校对软件。还可 以研制一种不使用各种汉字识别软件的内部信息,而只要直接对各种汉字识别软件的输出 文件进行校对的后处理校对软件。实际上这是前面所述的校对软件的一个特别的例子。这 种软件较易研制。

显然,本发明中的整句智能输入技术也可以应用到其他汉字识别领域。总之,本发明中 的整句智能输入技术在汉字识别,特别是手写汉字识别,等等许多计算机文字输入领域有 许多重要的应用。

语音输入是计算机文字输入领域中的一个重大课题。现在中文语音输入领域中的一个 主要难题是汉语中有大量的同音字和易混用的近音字,仅用语音输入方法无法确定出要输 入的是哪一个汉字。因此,中文语音输入技术长期无法达到实用化的水平。

现在,利用前几节所述的整句智能输入技术和辅助文字校对技术,可以将所有的同音 字和易混用的近音字建立成由语音输入时要用到的待识别音作标志的一些同音近音字库。 在语音输入时,先找出发音人所说句子中每个发音对应的同音近音汉字字库。然后对于整句 话,利用整句智能输入技术和辅助文字校对技术等方法,求出各个字库中不同汉字任意组 合中出现可能性最大的一个中文句子作为输出,并给出一些次最佳的待选句子,对于出错 可能较大之处给出标记,以便进一步使用播放录音由用户作交互选择的方法进行校对修改。 此一技术还可以与字词一体化技术相结合,可以提高计算速度,增加实时性和实时的智能 功能。该方法还可以有自动记忆,自学习,自适应用户要求等等许多智能功能。

这种语音输入技术可以与第四章中所述的电话码技术相结合,直接通过电话用上述的 语音输入技术向计算机输入文字,特别是输入中文。遇到要进行校对修改时,可以使用播放 录音请用户进行交互选择和校对修改的方式。这样可以应用这种技术建立一种前面所述的 适合中国国情的,方便而便宜的,可以通过电话进行访问的互联网网络系统。

总之,本发明中的整句智能输入方法在中文语音输入等等许多计算机文字输入领域有 许多重要应用。上述这些技术将为许多计算机文字输入领域和计算机电话服务领域带来一 系列革命性的进步。

因为识别手写数字代码要区分0-9十个数字,识别手写字母代码要区分26个字母。因 此,二者的识别难度,识别率和识别可靠性相差不多,至少处于同一数量级上。目前,我国 的各个邮局已经使用计算机自动识别用手写数字代码书写的邮政编码,同时用计算机进行 信件自动分检。使用这种技术得到的手写数字代码识别率和识别可靠性已经能够满足要求。 现在,随着计算机文字识别技术的飞速发展,手写字母代码的识别率和识别可靠性等技术 指标也能基本满足要求了。对于手写字母代码,也能做到在邮局中使用计算机进行自动识别 和信件自动分检,并且识别率和识别可靠性相差不多。这样就有可能用手写字母代码代替邮 政编码。现在使用邮政编码时,寄信人往往不知道或不记得收信人的邮政编码。查找邮政编 码也很不方便,而且也不大可能使所有地址的数字邮政编码都能在邮局或者某个单位查找 到。使用手写字母代码书写通信地址代替邮政编码就解决了这一难题,大大方便了用户。如 果使用本发明中的汉字输入方法书写地址,可以大大减少字母码长,并且方便实用,易学易 记。可以将上述技术与整句智能输入技术和地址常用词组字词一体化技术结合使用,可以增 加识别的正确性,改进识别计算速度,提高实时性,增加实用的智能功能。并且可以有自动 记忆,自学习和自适应用户特点等等许多智能功能。当寄信人知道或者愿意去打听收信人的 数字邮政编码时,仍可以使用原来的数字邮政编码。原来所有的关于数字邮政编码的做法仍 然保持不变。只是邮局增加一些为用户服务的项目。例如:寄信人不知道收信人的数字邮政 编码时也能寄信,只是要使用收费较高的特制信封。可以出售两种信封。一种较为便宜,但 要求用户不怕麻烦,必须使用一种类似在电影院出售的电影票上印出放映时间的旋转数字 代码字模的旋转字母数字字模作成的印制器。用户可以到邮局使用邮局中用旋转字母数字 字模作成的印制器或者自己购买上述的印制器。如果经常这样寄信,购买上述的印制器在经 济上也是可以接收的。在用户使用这种较为便宜的信封时,可以使用上述的印制器在信封上 印出需要的字母邮政编码。这样,印出的字体就是标准印刷体字母和数字,而且只有一种标 准字体。这样识别起来难度比较低,识别率和识别可靠性都比较高。比识别手写数字代码的 可靠性还要高很多。这样即完全解决了识别的难度问题,又解决了用户的困难。另外一种可 以收费较高。用户可以买回去,在信封上用笔手写字母邮政编码。这样即方便了用户,又有 经济效益。对这种信封收费较高,可以确保增加的服务项目有较高收益,并且可以将多余收 益的一部分用来增加设备和改进技术,使这种技术可以逐步地从一两个试点城市发展到全 国通用。这样可以自己养自己,不用国家花太多的钱。用户为了能寄信,又不愿花费时间或 精力去查找数字邮政编码,可以多费些精力到邮局去使用旋转字母代码字模,或者多花些 钱购买一个旋转字母代码字模,或者多花些钱使用第二种信封寄信。可以在两种特制信封的 特别位置上标有不同的印刷体标记。例如:Y-印刷体和S-手写体。计算机自动分检识别时,首 先检查标记。如果无标记,先在数字邮政编码框内识别数字邮政编码,如果无数字邮政编码 或者数字邮政编码不对,再按手写体或者印刷体识别字母邮政编码。如果识别出来,可以予 以投递。但为了保证收益,无标记时,可以判断为非特制信封。如果这时无数字邮政编码或 者数字邮政编码不对,可以拒识,由人来识别和判断。如果是非特制信封,可以投递,也可 以不投递,退回原处。由于不保证投递没有数字邮政编码的非特制信封,用户一般又不愿冒 信件被退回的险,因此用户被鼓励购买特制信封。如果标记为Y,则按照印刷体来识别。 如果用户在标记为Y的特制信封上没有使用印刷体来印出字母邮政编码,则要冒信件被误 识和误投的风险,责任由用户自负。如果标记为S,则按照手写体来识别。可以适当地调高 拒识限,提高可靠性。拒识的信件可以用人工方法识别,提高可靠性。因为这种特制信封收 费较高,这样的人工服务需要而且也值得。这种信封可以买回家,用户可以用笔手写字母邮 政编码,并且从住处附近的邮筒寄出信件。这时,不用写数字邮政编码而用手写字母邮政编 码代替,也可以寄信。如果这时不用标S的特制信封,信件可能被退回。如果使用标S的 特制信封,则信件可以保证寄到。上述的字母邮政编码可以使用根据本输入法中最简单方式 简化而得出的一种方式来进行编码。它可以由地址中的大区域(即省,市,自治区等)汉语 名称前两个字汉语拼音的首字母加上一个重码序号数字再加上小区域(或者地址和单位) 汉语全称各个汉字汉语拼音的首字母以及最后的重码序号数字组成。其中,大区域名称中的 重码很少,而且记住很有必要。同一地区的其它地址也要用到它们。例如:省,直辖市和自 治区一级基本上无重码,只有山西省和陕西省,可以用SX1和SX2表示,河北省和湖北省, 可以用HB1和HB2者HEB和HUB表示,河南省和湖南省,可以用HN1和HN2或者 HEN和HUN表示。在小区域或者更小的三级小地址单位上可能会有一些重码,但一般不 会超过10个,最多也不会超过100个,这样最多需要两位重码序号数字。只要记住上述的 三组大区域名重码和一些小区域地址名重码,就可以使用这种字母邮政编码了。对于大部分 无重码部分,直接书写即可,无需查找和记忆。对于有重码的部分,则要查找和记忆。但一 般只要记住重码序号,即只要记住1-3位数字即可。这样可以减少不少记忆量。例如:地址 “山西省太原市自来水厂”可以用“SX1TYSZLSC”来表示,而地址“北京市朝阳区永安 里”可以用“BJ1CYQYAL”来表示。其中,重码序号按照使用频率从0或1开始排列。 这方面比较困难的事情是事先很难知道是否有重码,重码序号是多少。一般在各种广告上都 要写上数字邮政编码和带有重码序号的字母邮政编码。如果没写字母邮政编码,用户可以认 为是无重码。信件如果因为有重码而耽误时间,责任由登广告的厂家自负。如果用户不放心, 可以使用第四章中介绍的中文输入电话码技术向有关的邮政编码电话自动查询系统进行查 询。只要在选择了相应的功能号后,输入用户与要写在信封上的字母邮政编码对应的中文输 入电话码,电话中会自动报出所有同码的地址,数字邮政编码和字母邮政编码。用户可以检 查自己输入的字母邮政编码是否正确。既可以使用单个数字表示一个字母的电话码技术,也 可以使用两个数字表示一个字母的电话码技术,当然也可以二者一起使用。电话中可以将数 字邮政编码和字母邮政编码一起报出。用户一般可以使用数字邮政编码,但用户如果记不住 数字邮政编码,或者对只使用一种邮政编码不放心,则可以使用字母邮政编码。这样就解决 了难以查找任意地址的邮政编码这一困难。在用户不愿意用电话查找邮政编码时或者在这 种系统实际使用之前,对于地址中大区域和中区域名称的重码情况,用户可以购买一个记 录所有这些重码情况的小册子来解决这个问题。这样的重码情况最多只会有几百个左右,小 册子不会太厚,一定可以装下。用户也可以到邮局查找小册子或者用有关的计算机软件进行 查询,还可以利用前述的邮政编码电话自动查询系统来进行查询。这样,地址中的大区域和 中区域名称的重码问题可以基本解决。识别系统如果遇到地址中的大区域和中区域名称的 歧义情况,一般予以拒识。再由人工方法进行识别或者退回原处。对于其它的重码情况,由 于情况太多,编成手册则太厚。不可能让大量用户都拥有,查找也很不方便。因此遇到重码 情况系统将拒识,由人工方法补充处理。这样,因为使用字母邮政编码的情况比使用数字邮 政编码的情况要少得多,总的人工工作量不会增加多少。处理每封字母邮政编码信件的平均 人工工作量最多也只会比处理每封数字邮政编码信件的平均人工工作量增加几倍。因为前 者收费较高,这样做还是值得的。

总之,上述技术可以大大改进我国邮政行业的自动化水平和服务水平,并且可以有希 望开通使用电话查询任意地址的邮政编码的系统。可以改善服务,方便广大用户和人民群 众。此技术还可以广泛应用于各种问卷调查,产品调查,保修单和各种表格的填写和计算机 数据录入等等许多方面。

类似地,也可以用字母电话码电话号码代替数字电话号码,实现一种用户改换电话号 码时不用通知他人,而他人仍能拨通该用户的电话的交换机系统。从而不用经常记忆电话号 码,改换电话号码时也可以不用通知他人。这样,该系统使用起来将非常方便实用。

前面所述的电话码技术可以应用到114台查号无人值守自动管理系统。可以使用电话 码技术在电话上输入被查询电话号码的人名(或单位名称),经过交互选择后,系统可以自 动找出被查号码并播放相应录音向用户报出被查号码。这样就可以省去114台的查号人员, 节省人力,节约开销,提高自动化水平。进一步地,可以应用上述电话码技术实现无人值守 的用人名或单位名称自动转接电话的交换机系统。可以在我国大量的带分机交换机系统中 首先应用这一技术,建立一个应用上述电话码技术的用人名或单位名称自动转接电话的带 分机交换机系统,代替接线员,按照打电话的人所输入的呼叫人名或单位名称自动接通电 话。例如:要叫通首钢二车间的电话,可以先拨通首钢总机,然后用上述电话码技术输入“二 车间”三字的电话码代码,系统就可以将电话自动接通到首钢二车间。在这种技术基础上, 可以建立一种以字母电话号码代替数字电话号码,使用人名(或单位名称)自动转接电话的 交换机系统。这样可以实现用户搬家或者改换电话号码时不用通知他人,而他人仍能拨通该 用户的电话的先进功能。还可以实现用户的电话号码保密,限时接通,更换热线电话号码, 出差时留下热线电话号码和语音信箱等等多种功能。也可以生产一种可以使用上述的电话 码技术或者直接使用汉语拼音字母键盘进行中文输入,直接输入字母电话号码,然后由电 话内的电子装置自动拨出字母电话号码对应的数字电话号码的电话。可以在这种电话上安 装一个小型显示屏,用户可以一边输入一边查看显示屏,随时修改和校正错误。最后经确认 后,才正式拨出对应的数字电话号码。其中,数字电话号码对应的字母电话号码可以由用户 自己输入决定。这种电话一定非常实用,并且能拥有一定的市场。可以使用电话语音卡技术 等计算机技术在与计算机连接在一起的电话上实现这个功能,也可以专门生产一种较为便 宜的专用电话。

可以首先使用一种利用中文输入电话码键盘技术的字母电话码长途区号电话号码。这 种新型字母电话码长途区号电话号码可以分为两种。第一种是新型短码字母电话码长途区 号电话号码,它由三个数字组成,前两个数字是该长途电话所要区域汉语名称前两个字汉 语拼音的首字母对应的中文输入电话码数字,第三个数字是重码序号。这种短码字母电话码 长途区号电话号码可以应用于我国的几十个或者几百个主要城市。例如:按照图3.所示的(I) 型中文输入电话码键盘上规定的电话码规则,北京市的短码字母电话码长途区号电话号码 可以用251或者250来表示,内蒙古自治区呼和浩特市的短码字母电话码长途区号电话号 码则可以用33加上第三位重码序号数字来表示。这样使用起来和记忆起来都非常简单方便。 第一种是新型长码字母电话码长途区号电话号码,一般应用于各个大区域内的一些小区域 地区。不能使用第一种号码的地区一般都能使用第二种号码。它由五个或者六个数字组成, 前两个数字是该长途电话所要小区域所在的省,市,自治区等等大区域汉语名称前两个字 汉语拼音的首字母对应的中文输入电话码数字,第三个和第四个数字是该长途电话所要小 区域汉语名称前两个字汉语拼音的首字母对应的中文输入电话码数字,第五个或者第五个 和第六个数字是重码序号。重码较少并且少于10个时,可以使用五个数字组成的号码。重 码较多并且多于10个但少于100个时,可以使用六个数字组成的号码。一般重码不会多于 10个,更不会多于100个。一般地,可以按照各个地区安装电话的总数排列重码序号,安装 电话多的序号排在前面。例如:内蒙古自治区二连浩特市的长码字母电话码长途区号电话号 码可以用6635加上重码序号来表示。这样这种长途电话号码最长不超过六位数字,是完全 可以被接受的。只要各处的电话普遍使用图3.所示的(I)型中文输入电话码键盘和相应的电 话码技术,这种字母数字长途电话号码使用起来和记忆起来会非常简单方便。它可以省去许 多记忆的麻烦。

建议人为地规定长途电话号码区号对应的字母码和该地区字母邮政编码相同。只要二 者的规定原则一致就可以作到这一点。这样使用起来会更加方便实用。

在英文数字BP机上实现汉显BP机的功能等方面的应用主要是利用本发明中智能音形 码输入法的一些编码方案,对每个汉字只取其中前一个或前几个码,对简短信息只按规定 规则取整句话中的几个汉字进行编码,作出在英文数字BP机上应用的编码方案。(详细编 码方案可以参见最后面的说明。)这样,对数字BP机原有的数字编码方案进行改造,得到 26个字母以及0-9十个数字组成的字母代码编码方案。可以使用比汉显BP机便宜许多倍 的英文数字BP机,用新的编码方案代替旧的编码方案,使用起来非常方便实用,简单便宜, 也可以实现汉显BP机的功能。特别地,在使用英文数字BP机传送呼叫人姓氏,姓名,简短 留言和时间地点等信息时,均可以使用这个编码方案。各个BP机台站只要将原来发送数字 代码的信号改为发送对应的汉语拼音字母和数字混合代码的信号即可。使用英文数字BP机 的用户不用增加设备或作任何改变就可以使用此技术。这时,相应的汉语拼音代码显示在用 户的英文数字BP机上。用户经过简单的学习就可以从这些汉语拼音代码中得出对应的汉字 信息,而不用在编码本上查找或复台。这样可以使英文数字BP机使用起来有类似汉显BP 机的许多功能,使二者几乎一样使用方便。这一技术方便便宜,简单实用,易学易记,将为 改进英文数字BP机的服务水平等等许多方面提供极大的帮助。此处的编码方案也可以应用 于前面所述的BP机自动留言服务等方面。这时,各种BP机(包括汉显BP机,数字BP机以 及英文数字BP机)都可以使用这些编码方案。(详见前面所述的编码方案。)

智能音形码输入法的英文数字BP机编码方案是一个服务于可以实现汉显BP机功能的 英文数字BP机系统的编码方案。它有多种编码方式。各个BP机台站和广大BP机用户可 以根据自己的喜好来决定使用何种编码方式。对于姓氏代码,本方案提供有2-码编码方案和 3-码编码方案两种方案。我推荐您使用3-码编码方案。对于其他的简短用语,主要地名,主 要单位和娱乐场所,饭店、商场、旅馆,各种相关的公用业务,各个机关和外省市驻本市机 构,体育场馆和其他,……等等,本方案共提供有多码分类方案,多码方案,4-码分类方案,4-码 方案,3-码分类方案,3-码方案等多种方案。其中分类方案将上述各类使用场合分为十类如 下:0-用于本BP机台通知用户时传送的通报用语和相关的系统通报信息,1-用于各种祝贺用 语、礼貌用语及其相关的信息,2-用于请求用语及相关的信息,3-用于情况通报、时间地点等 各类名词、及其他信息,4-用于主要地名等相关信息,5-用于主要单位和娱乐场所等相关信息, 6-用于饭店、商场、旅馆等相关信息,7-用于各种相关的公用业务等相关信息,8-用于各机关 和外省市驻本市机构等相关信息,9-用于体育场馆和其他相关信息。(此处还可以使用字母i, u,v或全部26个字母作为分类标志。)我推荐您使用多码分类方案。(详细使用说明可以 详见下面所述的各种编码方案的具体说明。) 如: ai:爱,an:安,ao:敖。 ba:巴,白柏,班,包鲍宝,be:贝,bi:毕,别,边卞,宾,bo:伯薄,bu:卜步。 ca:仓苍,昌常畅,柴,蔡,曹,晁,ce:车,程成,陈谌,ci:池迟,cog:崇,从丛, cu:崔,楚储。 da:达,党,戴,丹,de:邓,di:狄邸,丁,刁,do:董东,窦斗,du:杜堵,段,顿,多。 e:鄂。fa:方房,范樊,fe:冯封风丰,费,fu:付富福符伏。 ga:盖,甘干,高皋郜,ge:葛戈,耿庚,go:宫龚巩公贡,勾苟, gu:古谷顾,桂,关管,郭国过。 ha:哈,杭,海,韩,郝,he:何贺和,黑,ho:红弘洪,候厚,hu:胡扈虎,华花,黄,霍火。 ji:姬吉籍纪计季冀,贾,节,姜江蒋,荆景井,简,金靳晋,焦,jv(orju):居鞠。 ka:康亢扛,凯,阚,ke:柯,ko:孔空,寇,ku:邝匡况旷,蒯。 la:郎,来赖,兰,老劳,le:冷,雷,li:李黎栗利厉,梁,凌,廉练连,林蔺,廖,刘柳, lo:龙隆,楼娄,lu:鲁卢路陆鹿,栾,罗骆,lv(or lu):吕律。 ma:马麻,莽,麦买,满,毛茅,me:孟蒙,梅,mi:米糜,明,闵,苗缪,mo:莫,牟, mu:穆牧。 na:那,南,ne:能,ni:倪,聂,宁,年,钮,nog:农。ou:欧区。 pa:庞,潘,pe:彭蓬,裴,pi:皮邳,pu:蒲浦普扑。 qi:齐戚祁,强,卿,钱,秦琴芹钦,乔桥,邱秋丘裘仇,qu:全权,qv(or qu):屈曲瞿。 ra:冉,re:任,ro:荣容融戎,ru:阮,芮。 sa:萨,沙,桑,商尚赏,赛,山单,韶邵,se:佘,盛生绳,森,沈申慎,si:石史时施师, 司斯,so:宋松,寿首,su:苏宿粟,舒,双,帅,隋,水税,孙,索。 ta:唐汤,谭谈,陶桃,te:腾,ti:,田,to:佟童,tu:涂屠。 wa:王汪,万宛完,we:翁,卫魏蔚韦危,文闻温,wu:吴伍武邬巫乌。 xi:席习奚郗,夏,谢解,向项相,邢幸,羡洗,辛,萧肖, xu :薛,宣,荀,xv(or xu):许徐须胥。 ya:杨羊阳,严阎岩颜燕宴,姚耀幺,ye:叶,yi:易益伊,应,尹印阴殷, yo:雍勇,尤游有,yu:月岳越乐,袁苑原远,恽,yv(or yu):于余俞郁。 za:藏,张章,宰载,翟,詹展占湛,赵召,ze:曾,郑,甄, zi:资,支,zo:宗,钟仲,邹,周,zu:祖,朱祝诸竺,庄,左,卓。 复姓:cy:单于,dm:端木,df:东方,dg:东郭,gs:公孙, gl:公良,各梁(唯一的复姓重码),hf(or hp):皇甫,ng:南宫, nm:南门,oy:欧阳,sg:上官,sk:司空,sm:司马,st:司徒, xh:夏侯,xm:西门,zl:钟离,zs:仲孙,zg:诸葛。 其他:qt:其他姓氏,wz:外族人,wg:外国人。 又如: ai:爱艾,an:安,ao:敖。 ba:巴,bai:白柏,ban:班,bao:包鲍宝,bei:贝,bi:毕,bie:别,bin:边卞,宾,bo:伯薄,bu:卜步。 cag:仓苍,昌常畅,cai:柴,蔡,cao:曹,晁,ce:车,ceg:程成,cen:陈谌,ci:池迟, cog:崇,从丛,cui:崔,cu:楚储。 da:达,dag:党,dai:戴,dan:丹,deg:邓,di:狄邸,dig:丁,dio:刁, dog:董东,dou:窦斗,du:杜堵,dun:段,顿,duo:多。 e:鄂。fag:方房,fan:范樊,feg:冯封风丰,fei:费,fu:付富福符伏。 gai:盖,gao:甘干,gao:高皋郜,ge:葛戈,geg:耿庚,gog:宫龚巩公贡, gou:勾苟,gu:古谷顾,gui:桂,gun:关管,guo:郭国过。 ha:哈,hag:杭,hai:海,han:韩,hao:郝,he:何贺和,hei:黑, hog:红弘洪,hou:候厚,hu:胡扈虎,hua:华花,hug:黄,huo:霍火。 ji:姬吉籍纪计季冀,jia:贾,jie:节,jig:姜江蒋,荆景井,jin:简,金靳晋,jio:焦,jv(orju):居鞠。 kag:康亢扛,kai:凯,kan:阚,ke:柯,kog:孔空,kou:寇,kug:邝匡况旷,kui:蒯。 lag:郎,lai:来赖,lan:兰,lao:老劳,leg:冷,lei:雷,li:李黎栗利厉,lig:梁,凌,lin:廉练连,林蔺, lio:廖,liu:刘柳,log:龙隆,lou:楼娄,lu:鲁卢路陆鹿,lun:栾,luo:罗骆,lv(or lu):吕律。 ma:马麻,mag:莽,mai:麦买,man:满,mao:毛茅,meg:孟蒙,mei:梅, mi:米糜,mig:明,min:闵,mio:苗缪,mo:莫,mou:牟,mu:穆牧。 na:那,nan:南,neg:能,ni:倪,nie:聂,nig:宁,nin:年,niu:牛钮,nog:农。 ou:欧区。pag:庞,pan:潘,peg:彭蓬,pei:裴,pi:皮邳,pu:蒲浦普扑。 qi:齐戚祁,qig:强,卿,qin:钱,秦琴芹钦,qio:乔桥,qiu:邱秋丘裘仇, qun:全权,qv(or qu):屈曲瞿。 ran:冉,ren:任,rog:荣容融戎,run:阮,rui:芮。 sa:萨,沙,sag:桑,商尚赏,sai:赛,san:山单,sao:韶邵,se:佘, seg:盛生绳,sen:森,沈申慎,si:石史时施师,司斯,sog:宋松,sou:寿首, su:苏宿粟,舒,sug:双,sui:帅,隋,水税,sun:孙,suo:索。 tag:唐汤,tan:谭谈,tao:陶桃,teg:腾,tie:铁,tin:田,tog:佟童,tu:涂屠。 wag:王汪,wan:万宛完,weg:翁,wei:卫魏蔚韦危,wen:文闻温,wu:吴伍武邬巫乌。 xi:席习奚郗,xia:夏,xie:谢解,xig:向项相,邢幸,xin:羡洗,辛,xio:萧肖,xue:薛, xun:宣,荀,xv(or xu):许徐须胥。 yag:杨羊阳,yan:严阎岩颜燕宴,yao:姚耀幺,ye:叶,yi:易益伊,yig:应,yin:尹银印阴殷, yog:雍勇,you:尤游有,yue:月岳越乐,yun:袁苑原远,云恽,yv(or yu):于余俞郁。 zag:藏,张章,zai:宰载,翟,zan:詹展占湛,zao:赵召,zeg:曾,郑,zen:甄,zi:资,支, zog:宗,钟仲,zou:邹,周,zu:祖,朱祝诸竺,zug:庄,zuo:左,卓。 复姓:cy:单于,dm:端木,df:东方,dg:东郭,gs:公孙, gl:公良,各梁(唯一的复姓重码),hf(or hp):皇甫,ng:南宫, nm:南门,oy:欧阳,sg:上官,sk:司空,sm:司马,st:司徒, xh:夏侯,xm:西门,zl:钟离,zs:仲孙,zg:诸葛。 其他:qtx:其他姓氏,wzr:外族人,wgr:外国人。 几种简短用语编码方案: 万事如意1wsry 请回办公室2qhbgs

……

(此处暂略。)

…… 又如: 新年好1xnh 请复台0qft 万事如意wsry 请回办公室qhbgs

……

(此处暂略。)

…… 新年好xnh 请复台qft

参考文献: [1.]冯志伟,汉字的熵,现代汉语定量分析,上海教育出版社,pp.267-278. [2.]P.F.Brown,et.al.,An Estimate of an Upper Bound for the Entropy of

English,Computational Linguists,Vol.XX.,pp.31-40. [3]C.Shannon,Prediction and Entropy of Printed English,Bell Systems

Technical Journal,Vol.30,pp.50-64. [4.]吴军,基于拼音的汉语语音理解方法的研究和实现,清华大学硕士论文,导师:王

作英,1993.6. [5.]吴军等,用统计的方法进行汉语语音理解和音字转换,第三届全国人机语音通信学

术会议,1994年10月。 [6.]8.F.Jelinek,Self-Organized Language Modeling for Speech Recognition,

ICASSP′91,pp.450-506,1992. [7.]吴军等,一种基于语言理解的输入方法----智能拼音输入方法,中文信息学报,

Vol.10,No.2,1992年第二期。

高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈