首页 / 专利库 / 人工智能 / 计算语言学 / 从汉语文本到手语机译方法

从汉语文本到手语机译方法

阅读:267发布:2020-05-26

专利汇可以提供从汉语文本到手语机译方法专利检索,专利查询,专利分析的服务。并且“从汉语文本到手语机译方法”是 计算语言学 领域的技术应用。手语分为文法手语和自然手语,文法手语与汉语语序相同,汉语 基础 差的聋人看不懂,汉语基础好的聋人也不愿接受;自然手语是聋人生活中自然习得的一种语言,是他们的母语。本方法首先对汉语文本进行分词、 词性标注 和句法分析,并对这几步分别消歧,然后用对应手语语法规则,翻译为聋人自然手语文本。最后对应事先录制好的单词视频,经过头位识别、脑袋对位、手位识别、手位补差之后合成聋人很容易接受的自然手语视频,从而使聋人能够轻松理解第二语言汉语。,下面是从汉语文本到手语机译方法专利的具体信息内容。

1.一种从汉语文本到手语机译方法,该方法是将汉语文本翻译为手语视频的过程,其特点是在汉语分词、词性标注、句法分析等环节分别采用了自主研发的算法,该算法以静态知识库、词典、语法知识库、常识、动态知识库、上下文信息和概率等作为主要依据,对各环节进行综合方式消除歧义。
2.根据权利要求1所属的方法其主要特点在于知识库、词典、语法信息作为主要消歧手段,配合以概率为辅助消歧手段的综合消歧方法。
3.本方法是先基于文本进行翻译,然后采用视频词汇进行合成的,最终得到的是自然手语的视频表现。
4.在视频合成过程中进行了头位识别、脑袋对位、手位识别、前词尾到后词头手位差补等过程。

说明书全文

技术领域

发明属于计算语言学领域的应用技术,具体的说涉及到中文信息处理、汉语语言学、计算语言学、手语语言学、翻译学等多个领域以及计算机编程技术实现。

背景技术

1、灵感来源
曾经一夜之间红遍大江南北的舞蹈节目《千手观音》震撼了无数人的心灵,梦幻般的完美艺术表现深深的感染了我,当得知他们是一群失聪的聋人时,更加敬佩他们,因此也开始关注聋人。后来了解到,由于沟通不畅,很多聋人不愿与听人进行交流,手语翻译人才也奇缺,不能很好的融入社会。造成了聋人就业率低,犯罪率高等一系列社会问题。我自感有责任有义务也应该尽自己的绵薄之力去帮助他们。
2、手语简介
手语分为文法手语和自然手语,文法手语是以汉语语序为基础的一种手语,听人容易学习使用,但是汉语基础差的聋人根本看不懂,汉语基础好的的聋人也不愿接受;自然手语是聋人生活中自然习得的一种语言,是他们的母语,但是自然手语中虚词较少,语序与汉语也有很大不同,常常省略掉很多句子成分,听人学习起来较为困难。因此聋人如果想与听人交流,就要学好汉语语法知识。作为以汉语为第二语言的人深知汉语的复杂性,根据以上情况有必要发明一种使聋人也能和听人一样轻松理解汉语的计算机翻译方法,也为聋人学习汉语提供辅助性的手段。
3、同类技术背景
中科院计算机技术研究所开发了一套“中国手语合成系统”,该系统能够将汉语文本翻译为文法手语,其手语表现采用虚拟现实技术,用三维模型来演示手语最终实现翻译过程。
中科院计算机技术研究多开发的“中国手语合成系统”,技术上具有一定的先进性,但是该系统仅对汉语文本进行了分同处理,之后逐词对应手语单词,而没有进行深入的汉语解析。
“中国手语合成系统”由于没有深入的对汉语进行解析,所以也未能根据手语规则进行自然手语翻译,和中央电视台的手语新闻同样是文法手语。
面部表情是手语不可或缺的有机组成部分,“中国手语合成系统”将翻译结果采用虚拟现实的三维模型来演示,由于三维模型在虚拟现实中的表情处理度较大,未能对三维模型进行表情处理。
中央电视台新闻节目所配手语,虽然是人工手语翻译所打,但也均为文法手语。有情况表明这种新闻节目很大一部分聋人看不太明白。事实表明没有扎实的汉语基础的聋人看不懂文法手语,更不愿接受没有表情的文法手语。为了聋人这个弱势群体能够更好的融入和谐社会,我对计算机手语翻译技术进行了研发,期望得到一个完关的真正的自然手语翻译系统。

发明内容

本发明旨在解决聋人与听人之间的沟通,以及降低聋人接受知识的难度。具体表现为将汉语文本翻译为中国自然手语视频,克服文法手语不能够被聋人广泛接受的难题,避开了三维模型难以表现人物表情这一难点,造福于聋人这一弱势群体。
现对本发明的基本原理做如下描述:
计算机作为翻译的色,必然需要懂两种语言的语法,本发明针对汉语和手语分别构建知识库,并对汉语进行深入的解析,使得计算机翻译手语成为可能。
1、汉语分词及分词消歧
先将汉语文本进行分词处理,具体的方法是首先构建一个汉语词典,然后将汉语句子逐字到汉语词典中查询,得出所有可能构成词的词。
分词之后,会有大量的歧义存在,那么,我们先根据静态知识库、汉语词典、汉语语法规则库、常识、动态知识库、上下文信息语法知识库等多个知识库中的知识,将不可能搭配的词间关系过滤掉,如果得到的结果还有歧义存在,那么将分词歧义保留。
2、词性标注及词性消歧
将分词后的汉语文本进行再次汉语词典查询,获取每个词的所有可能的词性。对有多个词性的词语,进入静态知识库、汉语语法规则库、常识、动态知识库、上下文信息语法知识库等多个知识库中,逐一查询,去除不合语法规则的词性。如果结果中还有词性的歧义存在,那么将歧义保留。
3、句法分析及句法消歧
根据汉语语法知识库对所有词和词性,进行相邻的词进行搭配,得到所有的词间关系,逐层进行语法分析,最终得到语法分析树。分词和词性标注两个步骤都有可能留有歧义,句法分析步骤也可能会有歧义,因此句法分析之后的结果可能是多个的,排除结果中没有完全覆盖所有词的句树,得到真正的歧义句树。
这些歧义句树仍然可能是多个的,错误的歧义必须在这个步骤完全消解,那么我们再次复查搭配结果,逐一进入静态知识库、汉语词典、常识、动态知识库、上下文信息语法知识库等几个知识库中,进行对照,消除常识性错误、上下文信息对应语法错误等。
这时如果仍然有歧义存在,那么我们再次查询汉语词典,获取词汇的使用频率,再次查询汉语语法规则库,获取搭配频率,最后根据各个频率进行一定算法运算评估,评估出可能性最高的句树作为最终结果。
4、手语语法规则
计算机毕竟是机器,它无论如何也不能真正读懂语义。我们已经对手语的规则进行总结,形成了一个手语语法知识库,这个知识库与汉语知识库一一对应。手语规则分为三类,第一类为剪除规则,在自然手语中几乎没有虚词,所以,在剪除规则中虚词占有较大的比例;第二类为交换位置规则,在自然手语中,倒置现象较多,符合倒置规则的相关短语或词汇,相互颠倒位置;第三位为后置规则,在自然手语中,有一部分句子成分,需要放到句子末尾,尤其是疑问词和表示意愿的能愿动词,通常都是后置的。
有了手语的语法和规则,分析好的句树转换为手语文本就非常容易了,无非先将符合交换位置的规则进行交换,将符合后置的规则的放置到句尾,得到手语文本。
5、剪枝处理和补充成分
自然手语中,通常省略很多句子成分。除手语规则中的剪除规则外,还要根据当前所处的环境进行分析,对一部分当前环境中不言自明的一些句子成分进行省略。对场景中的事物用方向指代,对场景中的人物的人称代词用指向替代,充分显示手语的间接性。
自然手语是聋人手语,我们不能否认自然手语的成熟性不足,事实上手语远不能和汉语英语等语言完全对等,因此一些抽象的复杂的事物用手语来表达起来不那么容易。根据手语的特点,通常会对手语文本结果对事物描述不清的句子进行句于成分补充,以便聋人能够更好的理解翻译结果。
6、视频合成处理
首先对手语文本进行对应手语单词视频,对每一个单词的头位进行识别,根据对每个词识别的结果,计算出脑袋的中间位置,每一个词中脑袋位置都对准中间位置。然后对相邻的连个词中前词的最后一和后词的第一帧中双手的位置进行识别,得到手位后,如果位置差别较远,那么进行补帧处理,以得到手的连贯动作。最后进行视频的平滑编码合成,输出到播放器。
根据以上对发明的原理描述可以看出,本翻译方法克服了计算机对汉语理解的难点——歧义,并且不过分依赖概率去简单解决问题,大大增加了总体翻译结果的准确性。本发明还对翻译结果进行视频表现方面的创新,实现翻译结果的人性化。
中国有两千多万聋人,解决聋人的沟通问题,关注聋人,让聋人融入和谐社会,不是一句空的口号。聋人虽然是非常小的群体,但中国人口基数较大,聋人总量甚至大于一些小国家的人口总量。中国对聋人乃至残疾人的关注程度远远不能与西方发达国家相比,我们有义务有责任帮助他们。
本发明中的翻译方法,不仅存在着较好的社会价值,也存在一定程度上的经济价值。覆盖率按聋人的1%计算,每套软件按一百元的价格计算,那么市场价值为两千万。除此之外,公共场所、社会团体、各大电视台、网络视频媒体、出版厂商、手机厂商等都需要此类技术。
附图说明
图1翻译原理图
本发明的基本原理和示例,表现了汉语文本输入,经过分词标注和句法分析等步骤,最终得到合成视频的整个翻译的过程。
图2脑袋对位图
本发明中,翻译结果中的每个视频词汇的脑袋位置不尽相同,识别位置后进行调整,最终得到一个稳定的视频图像。

具体实施方式

本方法是计算机编程方式实现的,因此在实施方式上有很多种,下边举几个实际应用示例来说明:
1、电视翻译伴侣
掌上电脑或类似微型电脑产品,配以中文语音输入法,嵌入本翻译方法,构成电视翻译伴侣,放置在电视旁边。
电视机声音被语音输入法识别为汉语文字,本翻译方法对文本进行翻译,翻译后的视频结果显示在小屏幕上,聋人就可以看懂电视了。
2、聋人手机
对聋人手机中嵌入本翻译方法,当聋人手机接收到短信息后,自动翻译为手语视频,聋人将轻松看懂短信内容。
3、阅读助手软件
扫描设备可以将书本上的文字扫描到电脑中以文本形式保存,再采用本方法进行翻译,聋人也可以看懂中文书籍。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈