首页 / 专利库 / 人工智能 / 人工智能 / 通用人工智能 / 全信息汉语拼音编码方法

全信息汉语拼音编码方法

阅读:789发布:2020-10-31

专利汇可以提供全信息汉语拼音编码方法专利检索,专利查询,专利分析的服务。并且全信息汉语拼音编码方法使用英文字母与阿拉伯数字的组合表示每个汉字或汉语词组的读音、声调、字型、含义、词性和在句子中的语法成分。由于它包含了语言的全部成分,故可作为一种通用的语言交流媒介,也可作为驱动自动发声设备和自动翻译设备的数据源,它将在汉语语言的规范化、计算机数据传送、信息交流、 人工智能 等领域起到重要作用。,下面是全信息汉语拼音编码方法专利的具体信息内容。

1.一种汉语语言文字的表示方法或编码方法,其特征是:使用英文字母、阿拉伯数字、单撇号′和双撇号″的组合表示汉字和汉字词组所包含的全部信息;
2.权利要求1所提到的全部信息指的是汉字或汉语词组的读音、声调、字型、含义和在句子中的语法关系;
3.利用权利要求1的方法作为信息交流的媒介和手段;
4.利用权利要求1的方法通过计算机程序将编码转化为声音;
5.利用权利要求1的方法做媒介将汉语利用翻译设备翻译成其他语言。

说明书全文

全信息汉语拼音编码方法

发明属于一种汉语语言文字的表示方法。

世界上约占四分之一的人口使用汉语。汉字是汉语的基本元素,每个汉字包含了形、音、意三种信息。汉语拼音是汉语在国际间进行语言交流的一种手段,而目前采用的汉语拼音表示方法不能准确地反映汉字的形、音、意。其主要缺点包括如下几个方面:1、不能区别同音字,从而不能准确表达汉字的含义。例如:“八”与“巴”其汉语拼音均为“bā”,不能区分其含义。

2、标志声调的表示方法不便于计算机信息交流,不能用ASCII码表示阴平、阳平、上声和去声。

3、同一个汉字常常具有多种含义,现行的汉语拼音表示法不能区分这些不同的含义。

由于以上原因使得汉语拼音不能作为国际间语言交流的可靠手段。

本发明的目的在于创造一种新的汉语拼音表示方法,能够准确地表示汉字包含的全部信息,并且便于使用计算机进行信息交流,使其能够作为一种国际间语言交流的可靠手段。

实现上述目的的具体技术方案是:1、用英文字母表示汉语拼音的声母和韵母,除去掉字母上方的声调标志,用V代替ü,其余与目前所沿用的方法相同。该字母的组合称为拼音码。

2、在拼音码的后方用阿拉伯数字1、2、3、4和5表示声调,它们分别代表阴平、阳平、上声、去声和轻声。该数字被称为声调码。

3、在声调码的后面用阿拉伯数字表示相同拼音码和相同声调码的汉字在标准字典中出现的顺序。该数字称为顺序码。第一个出现的汉字其顺序码为1,以后依次编码。

4、在顺序码之后以单撇号′加阿拉伯数字表示该汉字的含义,其中阿拉伯数字表示标准字典中对该汉字的多种含义进行解释的顺序,第一项解释其编码为1,以后依次编码。该英文字母与阿拉伯数字的组合称为含义码。

5、对于含义不容易混淆的汉字以及常用词组中的汉字可省略含义码;组成词组的全信息汉语拼音编码之间不留空格。

6、在组成句子的某些关键字和词组的含义码之后或顺序码之后(当含义码省略时)以双撇号″加两位阿拉伯数字表示该字或词组在句子中的语法关系,该阿拉伯数字的组合称为语法码,其中前一位阿拉伯数字代表词类,由1至9表示,按顺序分别代表名词、代词、形容词、数词、动词、副词、介词、连词和感叹词;后一位数字代表该字或词组在句子中的成分,由1至6表示,分别代表主语、谓语、宾语、定语、状语和补语。在不影响对句子发生理解困难时语法码可以省略。

7、全信息汉语拼音编码由拼音码、声调码、顺序码、含义码和语法码组成,其间不含有空格和标点符号;各句子成分之间以空格或标点符号分割;标点符号采用英语标点符号。

8、专用名词、人名和地名的拼音码用大写英文字母表示;不含有声调码和顺序码的英文字母或单独的数字不代表汉字。

本发明的优点是:1、通过全信息汉语拼音编码技术可以利用英文字母和阿拉伯数字的组合完整准确地表达汉语所包含的全部信息,这样有利于计算机对于汉字进行文字处理、声音处理和自动翻译成多种文字。例如:将每个汉字的全信息汉语拼音编码以及对应的图形对象(简体字、繁体字、甲骨文等)、声音对象、中文和英文的解释文本输入计算机的数据库,当输入全信息汉语拼音编码时便可通过连接这些对象得到所需要的信息(如声音、图形、文字等)。

2、全信息汉语拼音编码的使用有利于汉语从象形文字向拼音文字的过渡、有利于学习和普及普通话、有利于国际间语言交流、有利于汉语的更准确和更清楚的表达。由于目前世界绝大多数人口习惯学习和使用拼音文字,为了在语言交流方面与国际接轨,克服人们学习象形文字的困难,故此提倡使用全信息汉语拼音编码作为语言交流的手段。

下面结合实施例对本发明做进一步说明:实施例1:以汉字“方”和“芳”为例,其普通汉语拼音均为fāng不能区分其不同字和含义而且在向计算机输入时必须使用汉字区位码,以新华字典为标准字典采用全信息汉语拼音编码它们分别表示为fang11和fang13,不需要使用汉字操作系统便可对其进行计算机输入输出。

实施例2:以字“便”为例,它既有“顺利,没有阻碍”的含义又有“排泄大小便”的含义,字型及其读音均无区别,只能依靠在句中的前后文意思判断,而采用全信息汉语拼音编码用bian410′1和bian410′5严格区别其不同含义,不需要联系前后文进行判断,这样有利于用计算机将汉语不需要经过复杂的逻辑判断便可翻译成为其他语言(如英语)。

实施例3:以“我爱我的爱人。”这句话为例,其中出现俩个“我”和两个“爱”,若直接用计算机将其翻译成英语需要复杂的逻辑判断,采用全信息汉语拼音编码可表示为wo31″21  ai46′1″52  wo31de52″24ai46ren21″13其中wo31″21表示“我”在句子中用代词作主语,可直接翻译成英语I;wo31de52″24表示“我的”一词在句子中用代词作定语,可直接翻译为my; ai46′1″52表示“爱”在句子中用动词作谓语,可翻译直接翻译为love;ai46ren21″13表示“爱人”一词在句子中用名词作宾语,可直接翻译为darling。由于在句子中加入了语法码使得将汉语翻译成其他语言成为一种容易实现自动化的事情。

实施例4:在计算机数据库中将每种拼音码和声调码的组合与标准的声音对象相联系,当计算机读取全信息汉语拼音编码的拼音码和声调码时便可调用相应的声音对象驱动发声设备自动发出声音,实现将文字准确地转化为声音这一目的。

高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈