首页 / 专利库 / 人机工程学 / 无障碍技术 / 手语翻译方法、基于MR的手语-语音交互方法及系统

手语翻译方法、基于MR的手语-语音交互方法及系统

阅读:138发布:2020-05-19

专利汇可以提供手语翻译方法、基于MR的手语-语音交互方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种手语翻译方法、基于MR的手语-语音交互方法及系统,采集手语使用者手语的RGB-D图像进行翻译,虚拟场景中手语使用者的虚拟人物模型将手语释义朗读为音频,语音使用者的虚拟人物模型将语音释义对应的手语动作进行演示。本发明对手语动作实现实时翻译,并可使用该翻译方法与语音使用者进行交互,可应用在多种场景,尤其在医患交流场景中,能够实现医患使用自己熟悉的语言方式进行无障碍交流,提高了诊疗效率,增强了双方的体验,MR技术展现手语翻译之后的医患交流场景,达到聋哑患者医患交流的完美效果。且利用 深度学习 技术训练模型可使得手语翻译系统更加精确。,下面是手语翻译方法、基于MR的手语-语音交互方法及系统专利的具体信息内容。

1.一种手语翻译方法,其特征在于,包括如下步骤:
(1)获取手语动作的RGB-D图像;
(2)提取出RGB-D图像中的手势特征信息,所述手势特征信息为手部各关节点在各时刻的特征旋转矩阵;
(3)将手势特征信息与预设的手势特征翻译模型进行匹配;
(4)将手势特征翻译模型匹配的手语释义按照时间序列组合作为翻译结果。
2.根据权利要求1所述的手语翻译方法,其特征在于,步骤(3)中所述预设的手势特征翻译模型通过如下方法建立:
(3.1)获取大量手语的RGB-D图像样本;
(3.2)提取出RGB-D图像样本中的手势特征信息;
(3.3)标定手势特征信息对应的手语释义;
(3.4)使用深度学习算法训练手势特征信息与手语释义对应的手势特征翻译模型。
3.一种基于MR的手语-语音交互方法,其特征在于,包括:
采集手语使用者手语的RGB-D图像,使用权利要求1或2的手语翻译方法进行翻译;
采集语音使用者的语音并翻译为文本信息;
构建虚拟场景,建立手语使用者及语音使用者的虚拟人物模型;
虚拟场景中手语使用者的虚拟人物模型将手语释义朗读为音频,语音使用者的虚拟人物模型将语音释义对应的手语动作进行演示。
4.根据权利要求3所述的基于MR的手语-语音交互方法,其特征在于,所述建立手语使用者及语音使用者的虚拟人物模型的方法为:
采集使用者的RGB-D图像,建立使用者的彩色点模型;
使用TSDF方法进行模型表面重建和平滑,完成虚拟人物的建立。
5.根据权利要求3所述的基于MR的手语-语音交互方法,其特征在于,所述构建虚拟场景为构建平面虚拟场景或构建3D虚拟场景;构建3D虚拟场景的方法为:采集选定场景的RGB-D图像,获取R GB-D图像的3D点云信息,利用3D点云信息建立各使用者视的MR虚拟场景。
6.根据权利要求3所述的基于MR的手语-语音交互方法,其特征在于,所述语音使用者的虚拟人物模型将语音释义对应的手语动作进行演示的方法为:
制作各会话语句对应手语动作的视频模型;
获取虚拟人物模型的头像模型并将其设置在手语动作的视频模型中。
7.根据权利要求3所述的基于MR的手语-语音交互方法,其特征在于,语音使用者可选择是否键入文字以校正由语音翻译的文本信息;语音使用者可选择是否直接键入文字以替代语音翻译。
8.根据权利要求3所述的基于MR的手语-语音交互方法,其特征在于,还包括:采集交互过程中手语翻译得到的手语释义信息和语音翻译得到的文本信息,标记各信息的发出者,并按照时间顺序形成纪录存储。
9.一种基于MR的手语-语音交互系统,其特征在于,包括处理终端以及与之通信连接的手语使用者客户端及语音使用者客户端;
所述手语使用者客户端包括用于获取手语动作的RGB-D图像的3D体感摄像头、用于显示的显示器;
语音使用者客户端包括用于采集语音的麦克、用于播放语音的扬声器、用于显示的显示器;
所述处理模用于构建虚拟场景,建立手语使用者及语音使用者的虚拟人物模型、翻译手语使用者客户端的手语动作并传输至语音使用者客户端播放翻译后朗读的音频、采集语音使用者的语音并翻译为文本信息、生成语音使用者虚拟人物模型将语音释义对应的手语动作进行演示的画面并传输至语音使用者客户端显示。
10.根据权利要求9所述的基于MR的手语-语音交互系统,其特征在于,还包括3D场景摄像头,用于为构建虚拟场景采集选定场景的RGB-D图像。

说明书全文

手语翻译方法、基于MR的手语-语音交互方法及系统

技术领域

[0001] 本发明涉及MR技术,尤其是一种手语翻译方法、基于MR的手语-语音交互方法及系统。

背景技术

[0002] 手语作为一种可视化语言,它主要靠手及手臂的运动姿态辅以适当的表情和口型来表达语意,是聋哑患者与外界交流的重要途径。据最新资料统计,我国聋哑患者数量达到2057万人,占人口总数的1.67%,而我国医院配置的手语医护人员非常稀缺,因此聋哑患者就医不便,常常耽误病情诊断。如何提升聋哑患者的生活品质,使他们更好的融入社会,是国家重点研究的一个课题。
[0003] 随着MR技术及深度学习技术的进一步发展,特别是3DCamera对三维手势的捕捉,使用手语翻译更加精确和流畅,利用MR技术构造面对面的交互系统,利用深度学习训练手语的医患翻译系统,实现聋哑患者正常的医患交流。

发明内容

[0004] 发明目的:针对上述现有技术存在的缺陷,本发明旨在提供一种基于MR的手语医患交互系统。
[0005] 技术方案:一种手语翻译方法,包括如下步骤:
[0006] (1)获取手语动作的RGB-D图像;
[0007] (2)提取出RGB-D图像中的手势特征信息,所述手势特征信息为手部各关节点在各时刻的特征旋转矩阵;
[0008] (3)将手势特征信息与预设的手势特征翻译模型进行匹配;
[0009] (4)将手势特征翻译模型匹配的手语释义按照时间序列组合作为翻译结果。
[0010] 进一步的,步骤(3)中所述预设的手势特征翻译模型通过如下方法建立:
[0011] (3.1)获取大量手语的RGB-D图像样本;
[0012] (3.2)提取出RGB-D图像样本中的手势特征信息;
[0013] (3.3)标定手势特征信息对应的手语释义;
[0014] (3.4)使用深度学习算法训练手势特征信息与手语释义对应的手势特征翻译模型。
[0015] 一种基于MR的手语-语音交互方法,包括:
[0016] 采集手语使用者手语的RGB-D图像,使用前述手语翻译方法进行翻译;
[0017] 采集语音使用者的语音并翻译为文本信息;
[0018] 构建虚拟场景,建立手语使用者及语音使用者的虚拟人物模型;
[0019] 虚拟场景中手语使用者的虚拟人物模型将手语释义朗读为音频,语音使用者的虚拟人物模型将语音释义对应的手语动作进行演示。
[0020] 进一步的,所述建立手语使用者及语音使用者的虚拟人物模型的方法为:
[0021] 采集使用者的RGB-D图像,建立使用者的彩色点模型;
[0022] 使用TSDF方法进行模型表面重建和平滑,完成虚拟人物的建立。
[0023] 进一步的,所述构建虚拟场景为构建平面虚拟场景或构建3D虚拟场景;构建3D虚拟场景的方法为:采集选定场景的RGB-D图像,获取R GB-D图像的3D点云信息,利用3D点云信息建立各使用者视的MR虚拟场景。
[0024] 进一步的,所述语音使用者的虚拟人物模型将语音释义对应的手语动作进行演示的方法为:
[0025] 制作各会话语句对应手语动作的视频模型;手语动作的视频模型可通过录制视频或绘制三维模型动画的方式制作;
[0026] 获取虚拟人物模型的头像模型并将其设置在手语动作的视频模型中。
[0027] 进一步的,语音使用者可选择是否键入文字以校正由语音翻译的文本信息;语音使用者可选择是否直接键入文字以替代语音翻译。
[0028] 进一步的,还包括:采集交互过程中手语翻译得到的手语释义信息和语音翻译得到的文本信息,标记各信息的发出者,并按照时间顺序形成纪录存储。
[0029] 一种基于MR的手语-语音交互系统,包括处理终端以及与之通信连接的手语使用者客户端及语音使用者客户端;
[0030] 所述手语使用者客户端包括用于获取手语动作的RGB-D图像的3D体感摄像头、用于显示的显示器;
[0031] 语音使用者客户端包括用于采集语音的麦克、用于播放语音的扬声器、用于显示的显示器;
[0032] 所述处理模用于构建虚拟场景,建立手语使用者及语音使用者的虚拟人物模型、翻译手语使用者客户端的手语动作并传输至语音使用者客户端播放翻译后朗读的音频、采集语音使用者的语音并翻译为文本信息、生成语音使用者虚拟人物模型将语音释义对应的手语动作进行演示的画面并传输至语音使用者客户端显示。
[0033] 进一步的,还包括3D场景摄像头,用于为构建虚拟场景采集选定场景的RGB-D图像。
[0034] 有益效果:本发明对手语动作实现实时翻译,并可使用该翻译方法与语音使用者进行交互,可应用在多种场景,尤其在医患交流场景中,能够实现医患使用自己熟悉的语言方式进行无障碍交流,提高了诊疗效率,增强了双方的体验,MR技术展现手语翻译之后的医患交流场景,达到聋哑患者医患交流的完美效果。且利用深度学习技术训练模型可使得手语翻译系统更加精确。附图说明
[0035] 图1是本发明的结构示意图。

具体实施方式

[0036] 下面通过一个最佳实施例并结合附图对本技术方案进行详细说明。
[0037] 一种手语翻译方法,包括如下步骤:
[0038] (1)获取手语动作的RGB-D图像,RGB-D图像即为彩色(RGB)+深度(Depth Map)图像,可由TOF、RGB双目、结构光等方案实现,可由3D体感摄像头等深度相机拍摄得到;拍摄后对彩色图像和RGB-D图像实施配准和同步,配准算法使得深度相机和彩色相机采集的是完全相同的场景,可以进行彩色图像和深度的像素映射,同步功能可以保证彩色和深度的同步输出;
[0039] (2)提取出RGB-D图像中的手势特征信息,所述手势特征信息为手部各关节点在各时刻的特征旋转矩阵;
[0040] (3)将手势特征信息与预设的手势特征翻译模型进行匹配;预设的手势特征翻译模型通过如下方法建立:
[0041] (3.1)获取手语的RGB-D图像样本;手语的RGB-D图像样本是大量的,此处的“大量”没有具体对数量的限定,按照本领域的常识,选用常规建模的样本量即可,且多多益善。之后对手语的RGB-D图像进行预处理,预处理包括图像平滑、去噪等。
[0042] (3.2)提取出RGB-D图像样本中的手势特征信息;
[0043] (3.3)标定手势特征信息对应的手语释义;
[0044] (3.4)使用深度学习算法训练手势特征信息与手语释义对应的手势特征翻译模型。
[0045] (4)将手势特征翻译模型匹配的手语释义按照时间序列组合作为翻译结果。
[0046] 如图1所示,一种基于MR的手语-语音交互系统及方法,其系统包括处理终端以及与之通信连接的手语使用者客户端及语音使用者客户端;
[0047] 所述手语使用者客户端包括用于获取手语动作的RGB-D图像的3D体感摄像头、用于显示的显示器;
[0048] 语音使用者客户端包括用于采集语音的麦克风、用于播放语音的扬声器、用于显示的显示器、用于键入文字的文字输入设备;
[0049] 所述处理模块用于构建虚拟场景,建立手语使用者及语音使用者的虚拟人物模型、翻译手语使用者客户端的手语动作并传输至语音使用者客户端播放翻译后朗读的音频、采集语音使用者的语音并翻译为文本信息、生成语音使用者虚拟人物模型将语音释义对应的手语动作进行演示的画面并传输至语音使用者客户端显示。
[0050] 处理模块还与3D场景摄像头通信连接,3D场景摄像头用于为构建虚拟场景采集选定场景的RGB-D图像,也可以与手语使用者客户端的3D体感摄像头选用同款产品,也可以共用一个。采用本司A100和A100M等产品即可实现3D体感摄像头的功能,拍摄RGB-D图像。
[0051] 该系统工作的方法为:
[0052] 采集手语使用者手语的RGB-D图像,使用上述手语翻译方法进行翻译;
[0053] 采集语音使用者的语音并翻译为文本信息;
[0054] 构建虚拟场景,建立手语使用者及语音使用者的虚拟人物模型;该步骤可由本司的MR芯片完成,也可参考现有技术:增强现实的应用技术研究-范苑竹-浙江大学、基于深度摄像机的增强现实系统研究与实现-黄志恒-电子科技大学、一种显示混合现实场景的方法及系统-201710748651.2。
[0055] 本实施例中,建立手语使用者及语音使用者的虚拟人物模型的方法为:
[0056] 采集使用者的RGB-D图像,建立使用者的彩色点云模型;
[0057] 使用TSDF(Truncated Signed Distance Function)方法进行模型表面重建和平滑,完成虚拟人物的建立。
[0058] 构建虚拟场景可构建平面虚拟场景或构建3D虚拟场景,本实施例中构建3D虚拟场景,方法为:采集选定场景的RGB-D图像,获取RGB-D图像的3D点云信息,利用3D点云信息建立各使用者视角的MR虚拟场景。
[0059] 虚拟场景中手语使用者的虚拟人物模型将手语释义朗读为音频,语音使用者的虚拟人物模型将语音释义对应的手语动作进行演示。
[0060] 本实施例中语音使用者的虚拟人物模型将语音释义对应的手语动作进行演示的方法为:
[0061] 制作各会话语句对应手语动作的视频模型;手语动作的视频模型可通过录制视频或绘制三维模型动画的方式制作;
[0062] 获取虚拟人物模型的头像模型并将其设置在手语动作的视频模型中。
[0063] 此外,也可以通过之前“用深度学习算法训练手势特征信息与手语释义对应的手势特征翻译模型”将手势特征信息赋值给虚拟的人物模型,实现虚拟人物模型按照手势特征信息运动。
[0064] 为了防止语音翻译结果不准确造成手语演示的误差增大,语音使用者可选择是否键入文字以校正由语音翻译的文本信息;语音使用者可选择是否直接键入文字以替代语音翻译。
[0065] 为了方面医患双方查看病例,需对交互过程留存下便于查阅的记录,因此,本实施例采集交互过程中手语翻译得到的手语释义信息和语音翻译得到的文本信息,标记各信息的发出者,并按照时间顺序形成纪录存储,且信息纪录为医用文档形式。
[0066] 并且,采集语音使用者的语音并翻译为文本信息可采用本领域现有的语音识别模块、方法实现,也可以采用如下方法:
[0067] 采集语音使用者的语音输入信息,对语音信号进行平滑、去噪处理;
[0068] 从语音输入信息中提取出语音特征信息;
[0069] 匹配医患常用语音特征模型,识别出语音信息;
[0070] 其中,语音特征模型通过如下方法建立:
[0071] 采集大量医患常用语音信号样本,对语音信号进行平滑、去噪处理;
[0072] 从语音输入信息中提取出语音特征信息;
[0073] 根据医患交流常用语音特征,标定语音特征对应的语音释义;
[0074] 使用深度学习算法训练语音特征信息与语音释义对应的语音特征模型。
[0075] 以上仅是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈