首页 / 专利库 / 人工智能 / 词性标注 / 一种汉语到盲文的自动翻译转换方法

一种汉语到盲文的自动翻译转换方法

阅读:244发布:2021-10-11

专利汇可以提供一种汉语到盲文的自动翻译转换方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种汉盲自动翻译转换方法,该方法包括如下步骤:(1)输入汉语字符串;(2)将字符串分割;(3)判断分割后的字符串是否是标点符号、ASCII码字符等特殊符号,如果是,将其直接转换为盲文点字,转入步骤(9);如果否,转入步骤(4);(4)对汉语字符串进行分词处理;(5)对分词后的词 块 进行 词性标注 ;(6)按照盲文分词连写规则组合连写词块;(7)利用连写统计词库对组合后的词块进行二次组合连写;(8)根据盲文的拼法和标调规则将组合后的词块转换为盲文点字;(9)将生成的盲文点字对外输出。本方法采用独有的分词 算法 ,分词准确率高,词性歧义少;应用分词连写统计词库进行二次组合连写,大大提高了汉字转换为盲文的正确率。,下面是一种汉语到盲文的自动翻译转换方法专利的具体信息内容。

1.一种汉语到盲文的自动翻译转换方法,其特征在于包括如下步骤:
(1)输入汉语字符串;
(2)将字符串分割;
(3)判断分割后的字符串是否是标点符号、ASCII码字符等特殊符号, 如果是,根据特殊符号与盲文的对照表将其直接转换为相应类型的盲文点 字,转入步骤(9);如果否,转入步骤(4);
(4)对汉语字符串进行分词处理;
(5)对分词后的词进行词性标注
(6)按照盲文分词连写规则组合连写词块;
(7)利用连写统计词库对组合后的词块进行二次组合连写;
(8)根据盲文的拼法和标调规则将组合后的词块转换为盲文点字;
(9)将生成的盲文点字对外输出。
2.如权利要求1所述的汉语到盲文的自动翻译转换方法,其特征在 于:
所述步骤(4)包括如下子步骤:
a.参照词典,利用正向最大匹配算法对语句进行拆分;
b.利用组合歧义词库进行歧义判断;
c.根据歧义规则,通过推理消除歧义;
d.输出分词结果。
3.如权利要求1所述的汉语到盲文的自动翻译转换方法,其特征在 于:
所述步骤(6)中,对所述分词连写规则进行统一形式化描述。
4.如权利要求1所述的汉语到盲文的自动翻译转换方法,其特征在 于:
所述步骤(7)中,所述连写统计词库分为基础词库、专业词库和用户词 库。
5.如权利要求4所述的汉语到盲文的自动翻译转换方法,其特征在 于:
所述步骤(7)中,所述连写统计词库中包含连写词块及其相应的拼音、 盲文点字。
6.如权利要求1所述的汉语到盲文的自动翻译转换方法,其特征在 于:
所述步骤(8)中,所述盲文的拼法和标调规则为现行盲文、双拼盲文、 国语点字盲文、粤语盲文的拼法和标调规则中的一种。

说明书全文

技术领域

发明涉及一种实现汉语到盲文的自动翻译转换方法,特别涉及一种采 用连写统计词库来提高转换效率的汉盲自动翻译转换方法,属于计算机文字 处理技术领域。

背景技术

我国是世界上盲人最多的国家。广大盲人需要借助盲文这一工具来吸收 人类社会的优秀文明成果。但是长期以来,盲文书籍的出版工作仍然面临效 率低下、出版周期过长、工作量大等困难,难以满足广大盲人日益增长的需 求。如何能够更加有效地实现汉语与盲文之间的转换,将更多的文明成果呈 献给盲人朋友,一直是人们致解决的课题。
盲文是一种以六个凸凹点为基本结构,按照一定的规则排列,由盲人通 过触觉感受的文字。由于六个凸凹点的组合可以表达出26=64种不同的信 息,对于一般的拼音文字而言,这么多的组合完全够用,而汉语则不同,仅 常用的汉字就多达数千个,因此现有的汉语盲文采用拼音文字的方案,根据 汉字的读音进行编码,用六个凸凹点代表汉语拼音的声母、韵母和音调。国 标GB/T15720-1995所定义的盲文编码表就是这样的一种汉语盲文编码方 案,在其中定义了汉语声母、韵母和音调、标点符号、数字符号对应的盲文 点字,从而实现拼音、符号到盲文编码的转换。下面就是该盲文编码表中一 些常见拼音和符号的实际例子:
声母:zh   韵母:ong 声调:阴平
句号:  逗号:    数字3:
人们很早就尝试利用计算机完成自然语言与盲文之间的转换,但这方面 的工作在国内开展得比较晚,汉语与汉语盲文之间进行转换的技术还不成 熟。中国发明专利01118675.5公开了一种中文汉语到盲文的自动转换方法。 该方法的特点是:首先对非汉语符号进行预切分处理,读入一段连续的汉字 串,根据词汇表分别用MM法和RMM法进行分词;比较MM和RMM分词结果 是否相同,相同,记录分词结果;分词结果不相同,构造歧义字段的歧义树, 搜索最优分词结果,记录分词结果;判断文本分词是否完毕,若是,按照盲 文分词连写规则对分词结果进行修改,生成与分词结果对应的盲文点字。与 此相类似的技术还有一些,但这些技术仍然存在分词连写的正确率不高,不 能满足专业排版系统的需要;只适用于现行盲文或双拼盲文,不能处理国语 点字盲文和粤语盲文等方面的缺陷,仍有进一步改进的必要。

发明内容

本发明的目的在于提供一种新的汉语到盲文的自动翻译转换方法。
为实现上述的发明目的,本发明采用下述的技术方案:
一种汉语到盲文的自动翻译转换方法,其特征在于包括如下步骤:
(1)输入汉语字符串;
(2)将字符串分割;
(3)判断分割后的字符串是否是标点符号、ASCII码字符等特殊符号,如 果是,根据特殊符号与盲文的对照表将其直接转换为相应类型的盲文点字, 转入步骤(9);如果否,转入步骤(4);
(4)对汉语字符串进行分词处理;
(5)对分词后的词进行词性标注
(6)按照盲文分词连写规则组合连写词块;
(7)利用连写统计词库对组合后的词块进行二次组合连写;
(8)根据盲文的拼法和标调规则将组合后的词块转换为盲文点字;
(9)将生成的盲文点字对外输出。
所述步骤(4)包括如下子步骤:
a.参照词典,利用正向最大匹配算法对语句进行拆分;
b.利用组合歧义词库进行歧义判断;
c.根据歧义规则,通过推理消除歧义;
d.输出分词结果。
所述步骤(6)中,对所述分词连写规则进行统一形式化描述。
所述步骤(7)中,所述连写统计词库分为基础词库、专业词库和用户词库。
所述步骤(7)中,所述连写统计词库中包含连写词块及其相应的拼音、相 应类型的盲文点字。
所述步骤(8)中,所述盲文的拼法和标调规则为现行盲文、双拼盲文、国 语点字盲文、粤语盲文的拼法和标调规则中的一种。
本发明所述的汉语到盲文的自动翻译转换方法与现有技术相比,由于采 用了本申请人独有的分词算法,分词准确率高,词性歧义少。它还根据连写 统计词库对初次组合后的词块进行二次组合连写,可以保证较快的转换速度 和较高的转换正确率。
附图说明
下面结合附图和具体实施方式对本发明作进一步的说明。
图1为本发明中使用的分词算法的流程图
图2为实施本发明所述汉盲自动翻译转换方法的效果示意图。
图3为本汉盲自动翻译转换方法的流程示意图。

具体实施方式

在对本发明所述的汉盲自动翻译转换方法进行具体说明之前,先对实现 本发明所依赖的分词算法加以简单说明。
分词是指将汉语语句拆分为独立的词。这是机器翻译中最基础的一项工 作。本发明中使用的分词算法在本申请人的另一项发明专利“一种全自动汉 字分词系统”(专利号:ZL96100831.8,申请日:1996年1月30日,授权日: 2003年4月30日)中有详细的说明,其基本内容如图1所示,包括如下步 骤:
(1)输入汉字语句;
(2)参照词典,利用正向最大匹配算法对语句进行拆分;
(3)利用组合歧义词库进行歧义判断;
(4)根据歧义规则,通过推理消除歧义;
(5)输出分词结果。
上面所述的词典中建有词典索引和最大词长信息域、词的词性特征,以 识别以某字开头的词在词典中的最大长度,并完成高速度查询请求,标注出 分词结果的词性。
上述正向最大匹配算法是这样的:结合词典最大词长信息和在句中的最 大可能边长,确定一个最优最大边长N,在词典中查找。若词典中有这样的 一个N字词,则匹配成功,匹配字段作为一个词被切分出来;如果词典中找 不到这样的一个N字词,则匹配失败。匹配字段去掉最后一个汉字,剩下的 N-1个字符作为新的匹配字段,进行新的匹配,如此进行下去,直至切分到 成功为止。即完成一轮匹配切分出一个词,然后再按上面的步骤进行下去, 直到切分出所有词为止。
在求解的过程中,还要进行歧义判断。所谓歧义判断是由于汉语本身在 组合上复杂多样,同样的文字组合由于断句不同,含义上有很大差别,例如 “我看到你那年才六岁”,可以理解为“那年”“我”六岁,也可理解为“你” 六岁。类似这样的歧义现象可以概括分为交叉歧义和组合歧义两种。交叉歧 义是形如字串AXB,其中AX构成一个词,同时XB也构成一个词,这类歧义 现象即为交叉歧义。其中,A、X、B的长度大于等于一个字长。如“有时间”、 “不同情况”、“大脑袋”等。组合歧义是形如AB的词串,其中A,B分别独 立成词。如“个人”、“阵”。交叉歧义是根据其特征来判断的。组合歧义 的判断则根据组合歧义词库。该词库统计了本算法所用词典数据下几乎所有 的组合歧义词,并按有效结构进行组织和查询。
通过推理消除歧义是解决歧义问题的另一手段。推理是根据歧义规则库 进行的。歧义规则库包含了在某些特定词、词类或属性情况下的歧义切分规 则,如:NP(将来),NP(PLA)→DWD(A),该规则表示当词“将来”的后面 跟一个表示地点的名词时,该词要切分开。
在利用上述分词算法完成分词工作之后,后续的工作是根据上述词典标 注出每个词的词性特征,如将名词标注为NP,形容词标注为AP,动词标注 为VP等。
上述分词过程完成之后,虽然可以利用计算机将各个单个的词转换为盲 人所使用的点字。但这样形成的点字只是一些孤立的语素,并不能直接形成 盲人实际使用的盲文。因此,还需要使用本发明提供的分词连写方法对分词 结果进行组合连写,并根据盲文的拼法和标调规则将组合后的分词转换为正 确的盲文码输出。
盲人使用的汉语盲文与我们通常使用的汉语在使用上存在一些差别。盲 人阅读盲文时,首先要靠触觉触摸到六个点字,根据这六个点字拼出发音, 再根据自己的知识、经验和语言能力判断出语义,是一个“触觉→发音→语 义”的过程。为了让盲人比普通人更容易、准确和清晰地理解盲文,以及使 盲人文字更加精密化、科学化,汉语盲文中采用分词连写规则。该分词连写 规则是汉语盲文所特有的规则,它规定了盲文词在什么情况下分开写,什么 情况下组合在一起。所谓分词即是上面所述的按照汉语语法把一个一个的词 分开来写;所谓连写,即按照盲文的特殊性,为避免音节结构过于松散、便 于摸读,将一部分音节较少,在意义上结合较为紧密的短词组连写在一起, 以减少一些零散的单音节形式。如:
汉语句子
“伟大的中国共产党带领全国人民推翻了封建阶级的统治,建立了社会 主义新中国”
按照现代汉语的分词规范,分为:
“伟大 的 中国 共产党 带领 全国 人民 推翻 了 封建 阶级 的 统 治,建立 了 社会主义 新 中国”
按照汉语盲文分词连写规则,部分词需要组合在一起,采用分词连写后 为(采用‘|’隔开):
“伟大|的|中国|共产党|带领|全国|人民|推翻了|封 建阶级|的|统治,建立了|社会主义|新中国|”。
分词连写规则一定要符合汉语语法和语言的逻辑性、习惯性,并且要考 虑音节长短适度,适当减少一些零散的单音节词。为此,国家颁布了国标GB/T 15720-1995,在其中规定了分词连写的一般规则:
普通话基本上以词为单位拼写,每个词的各个词素或音节连写;
表示一个整体概念,由多音节词组成的固定词组,按词分开写;
表示一个整体概念的双音节和三音节结构,已经词化的,连写;
表示一个整体概念,其音节在四个以上的名称,按词(或语节)分 写,不能按词划分时,均应连写;
为了便于摸读和理解,使词意迅速地形成概念,将一部分音节较好, 在意义上结合得较为紧密的短语词组连写在一起,以减少一些零散 的单音节形式。
在此基础上,根据词类还派生出100多条具体的规则。这些规则的具体 内容可以参照上述国家标准,在此就不重复了
本发明为方便计算机的处理,保证分词连写的准确性,对各类词和词组 的具体分词连写规则进行分析和统一形式化描述,如上述国家标准中一个形 容词的分词连写规则为:形容词重叠式中间插入否定副词“不”,不论单音 节重叠式还是双音节不完全重叠式,都连写;双音节完全重叠式中间插入的 “不”,跟前面的词分开,跟后面的词连写。如:
好不好  明不明白  热不热闹  漂亮|不漂亮  清楚|不清楚
本发明将其形式化为下面两条规则:
AP(1,1,same)+(’不’;)+AP(1,1,same)->CONNECT(CH)  好不好
AP(1,1,same)+(’不’;)+AP(2,1,same)->CONNECT(CH)  漂不漂亮
AP(2,1,same)+(’不’;)+AP(2,1,same)->AP+CONNECT(CH)  漂亮| 不漂亮
类似的形式化规则还有很多。这种形式化规则是为了计算机处理的需要, 在此不一一详细说明。
本发明所述的汉盲自动翻译转换方法在完成分词和词性标注的工作之 后,下一步要解决的技术问题就是将分割后的单个语素组合成符合盲文要求 的词块。这部分工作虽然可以参照上述的国家标准GB/T15720-1995来进行, 但仅仅套用该标准显然是不够的。为此,本发明提出了采用分词连写统计词 库进行二次组合连写的解决方案,即首先运用上述的分词连写规则完成第一 步的词素组合,然后利用连写统计词库,对第一步组合后的词再进行第二次 组合连写,从而得到分词连写的最后结果,最后根据盲文的拼法和标调规则 把组合后的分词转换为正确的盲文码输出。
这里的连写统计词库是利用计算机大量统计盲文书籍中分词连写后的 词和词组而得到的,包含各个连写词块及其相应的拼音、相应类型的盲文点 字。该连写统计词库可以分为基础词库和专业词库、用户词库。本翻译转换 方法采用词库动态扩展的技术思路,除了基础词库必须安装之外,专业词库 可以根据用户的需要随时挂接。用户词库可以根据用户的使用习惯随时进行 动态扩充,即用户一旦把连写的分词加入到用户词库中,该方法便按照用户 定义的分词进行连写,从而保证分词连写符合用户的要求。
为便于盲人读准音调,从而准确理解词意,本发明采用了标准的盲文标 调规则。该规则对现行盲文的标调规定如下:
1)对生疏的词语、成语标调;
2)对古汉语实词标调;
3)在文内首次出现的专有名词(极普通的除外)应标调;
4)为了区别同音、同形字,应对一些词标调;
5)以两个单字母组成的词语,前者为声母,后者为韵母,其间必须标 调;
6)单音节词一般要标调,经常使用的单音节词可不标调;
7)双音节词和多音节词须标调时首先考虑在第一字上标调;有时为了 区别同形字,则其他字也应标调;
8)带词、副词、时态助词、结构助词、介词、连词、叹词、象声词一 般不标调;
9)外国专有名词一般不标调。
按照上述规则标调后的盲文便于盲人识别和理解。在标调工作完成之 后,后续的工作就是通过计算机将转换成功的盲文对外输出,如图2所示的 那样。
在汉盲翻译转换的过程中,有一种情况必须要预先考虑到,就是实际的 汉语文章中不仅仅是汉语词句,有时还会包含标点符号和ASCII码字符,这 些是可以直接转换为盲文点字对外输出的。因此,本汉盲自动翻译转换方法 首先要对输入的汉语字符串进行分割,并判断分割后的字符串是否是标点符 号、ASCII码字符等特殊符号,如果是,将其按照盲文编码表直接转化为盲 文编码对外输出。
概括上述对本汉盲自动翻译转换方法的说明,本汉盲自动翻译转换方法 如图3所示,可以归结为如下步骤:
(1)输入汉语字符串;
(2)将字符串分割;
(3)判断分割后的字符串是否是标点符号、ASCII码字符等特殊符号,如 果是,根据特殊符号与盲文的对照表将其直接转换为相应类型的盲文点字, 转入步骤(9);如果否,转入步骤(4);
(4)对汉语字符串进行分词处理;
(5)对分词后的词块进行词性标注;
(6)按照盲文分词连写规则组合连写词块;
(7)利用连写统计词库对组合后的词块进行二次组合连写;
(8)根据盲文的拼法和标调规则将组合后的词块转换为盲文点字;
(9)将生成的盲文点字对外输出。
使用本汉盲自动翻译转换方法,不仅可以将汉语转换为现行盲文,还可 以将其转换为双拼盲文,台湾地区使用的国语点字盲文以及港澳地区使用的 粤语盲文。在转换为双拼盲文,国语点字盲文或粤语盲文时,所采取的步骤 与上述的方法步骤完全一样,所不同的仅仅是拼法和标调规则的不同。对此, 将实现本发明方法的计算机程序中预设的拼法和标调规则进行修改即可达 到目的。
上面对本发明所述的汉语到盲文的自动翻译转换方法进行了详细的说 明,但显然本发明的具体实现形式并不局限于此。对于本技术领域的一般技 术人员来说,在不背离本发明所述方法的精神和权利要求范围的情况下对 它进行的各种显而易见的改变都在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈