基于虚拟现实及多模态信息的孤独症辅助干预系统及方法专利检索-眼球追踪摄像头视听技术与设备专利检索查询-专利查询网

基于 虚拟现实及多模态信息的孤独症辅助干预系统及方法

阅读：224发布：2020-05-12

专利汇可以提供基于虚拟现实及多模态信息的孤独症辅助干预系统及方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于虚拟现实及多模态信息的孤独症辅助干预系统及方法，该系统包括：场景定制模块、真实形象采集模块、真实形象融入模块、行为数据采集模块、行为特征提取模块、训练模块、预测模块、交互模块、课程评价模块。本发明使用虚拟现实设备提供孤独症辅助干预教学，使得干预学习在不同场合普及；使用定制化场景及人物形象进行教学，将干预课程学习场景迁移到真实生活，加强干预效果；使用图像融入技术，将真实人和物的图像形象融入到定制化场景中，使教程对用户更亲切；使用声音融入技术将真实人和物的声音形象融入到定制化场景中，使人和物形象更立体；采集多种用户行为数据进行分析，全面及时获取用户行为特征，有利于获得教学反馈。，下面是基于虚拟现实及多模态信息的孤独症辅助干预系统及方法专利的具体信息内容。

权利要求

1.一种基于虚拟现实及多模态信息的孤独症辅助干预系统，其特征在于，包括：
教程定制模块，用于制作输出声音信息、图像信息的虚拟现实场景及教学内容；
档案模块，用于根据病历或评测结果初始化建立用户个人档案和训练计划，记录用户训练数据，训练计划可由人为修改系统生成的结果；
真实形象采集模块，用于采集被融入人或者物的的声音和图像资料；
真实形象融入模块，用于学习所述真实形象采集模块所采集的被融入人或者物的的声音和图像形象，将被融入人或者物的声音和图像特征进行提取，将所提取的声音和图像特征与教程定制模块所制作的虚拟现实场景进行融合，得到具有被融入人或者物的声音和图像形象的虚拟现实被融入人或者物形象，虚拟现实被融入人形象能够使用原被融入人的音色进行说话、使用原被融入人的图像形象做出不同的神态、表情、动作，虚拟现实被融入物形象发出原被融入物的声音、展现原被融入物的等比立体图像；
行为数据采集模块，用于采集干预试验过程中用户的多模态行为数据；
行为特征提取模块，用于提取行为数据采集模块所采集的试验多模态行为数据中的用户脸部朝向、眼神、手势、位置、情感、语言的行为特征；
训练模块，用于通过机器学习算法对所述行为特征提取模块所提取的行为特征的数据进行训练，获取与场景符合的评价模型；
预测模块，用于通过所述训练模块所得训练好的评价模型对用户的行为特征进行分析，从而获得用户表现描述；
交互模块，用于根据所述预测模块所得用户表现描述进行信息交流，并通过场景中输出声音信息、图像信息和光学信息，直接提醒暗示或提醒用户进行正确的行为回应；
课程评价模块,用于根据干预试验全程用户课程表现、课程学习进度，对用户学习进行总体评价，提出相关建议。
2.根据权利要求1所述的的孤独症辅助干预系统，其特征在于，所述教程定制模块通过参考结构化社交行为干预模式、行为疗法、关键反应训练、言语行为训练法、关系发展干预疗法、早期丹佛模式、结构化教学法、地板时间疗法进行教程定制。
3.根据权利要求1所述的孤独症辅助干预系统，其特征在于，所述真实形象采集模块包括：
声音采集单元，用于采集人说话语音数据以及动物或其他物品配合干预课程场景的声音；
图像采集单元，用于采集用户的多角度平面或深度图像数据，以获得用户的二维或三维模型图像形象。
4.根据权利要求1所述的孤独症辅助干预系统，其特征在于，所述真实形象融入模块将真实生活中的人或物的形象融入定制化场景的课程中，实现真人融入头、脸、声音，真物融入等比例图像、声音的效果，使被融入的人和物形象更立体，具体包括：
特定人语音合成单元，用于根据提供的音频数据提取音色的声音信息，利用多说话人语音合成技术合成融入虚拟现实场景的人物语音；
图像合成单元，根据提供的人物数据提取头部和动作的图像信息，合成融入虚拟现实场景的人物活动图像；根据提供的物品数据提取形状和尺寸的图像信息，合成融入虚拟现实场景的可移动旋转物品图像。
5.根据权利要求1所述的孤独症辅助干预系统，其特征在于，所述行为数据采集模块使用内置眼动仪、传感器、陀螺仪、麦克风、腔内摄像头、腔外摄像头、手柄、手套的虚拟现实设备采集数据，
使用传感器以及陀螺仪获得头部和身体的朝向和移动数据，使用内置眼动仪获得眼睛运动数据，使用腔内摄像头获得眼周肌肉与皮肤的运动数据，使用麦克风获得语音数据，使用腔外摄像头拍摄下半张脸获得下巴及两颊的肌肉运动数据，使用手柄获得手部运动数据及课程学习操作数据。
6.根据权利要求1所述的孤独症辅助干预系统，其特征在于，所述行为特征提取模块包括：
头部朝向提取单元，使用自带的传感器或陀螺仪根据物体的x、y、z三个直角坐标轴方向的移动自由度和绕这三个坐标轴的转动自由度，计算头部的运动；
脸部表情提取单元，使用VR头盔腔内摄像头和腔外摄像头分别获取到的用户的左右双眼部分的数据和嘴部的数据进行联合，计算联合表情特征分类向量；
目光焦点提取单元，使用眼动仪对眼球运动进行追踪的数据，计算眼动的方向和焦点；
手部运动提取单元，使用手柄或手套、传感器、按钮获得的数据，获得用户对场景提问做出的选项，计算用户在场景中配合进行的动方式和幅度；
语音特征提取单元，使用麦克风获得的用户说话数据，语音识别获得用户说话的语音内容，提取并分析用语的关键词和理解释义，情感识别获得用户互动语言的情感分数；
相对位置提取单元，使用VR头盔传感器获得用户个体移动的加速度，计算用户移动的轨迹。
7.根据权利要求1所述的孤独症辅助干预系统，其特征在于，所述行为交互模块实现用户与设备的强交互效果，以用户行为的特征数据作为输入，实时使用机器学习分析并根据用户的行为数据进行分等级反馈输出，循环输入和输出实现强交互；其中，所述反馈输出包括加强教学输出和表扬鼓励输出。
8.根据权利要求7所述的孤独症辅助干预系统，其特征在于，所述加强教学输出包括不同等级暗示或明确提醒，通过声音信息、图像信息或光学信息实现所述加强教学输出。
9.根据权利要求8所述的孤独症辅助干预系统，其特征在于，所述课程评价模块结合用户档案模块中记录的数据以及用户当前训练的表现，进行整合计算，对用户训练计划提供建议，其中对整合结果的计算方法包括并不限于使用条件判断或机器学习的方法。
10.一种基于虚拟现实及多模态信息的孤独症辅助干预方法，是根据权利要求1至9任一项所述的孤独症辅助干预系统实现的，其特征在于，包括如下步骤：
S1：知情准备与档案建立：用户的监护人或看护人阅读知情同意书，知晓系统会采集并分析用户及辅助干预的被融入人的行为数据及病历相关数据，知晓本系统不外泄用户数据保护用户隐私，并确认同意后，进行档案建立；
S1：档案建立：用户或其监护人或其看护人根据虚拟现实设备或电脑的提示和说明，填写用户的基本资料，包括性别、年龄、发育情况、家庭成员、医嘱；
S2：教学计划建立：根据用户的档案生成教学计划，用户或其监护人或其看护人根据实际情况进行人工调整，确定教学计划；
S3：形象采集与融入：用户的监护人或干预辅助老师或与其共同生活两周以上的人作为被融入人物，提供被RGBD摄像头采集图像数据，或多角度RGB图像数据；并进行规定不少于长度的录音；将被融入人物的声音和图像融入用户教学计划中所设计干预课程的场景，获得具体有被融入人图像和声音形象的定制化课程；
S4:辅助干预试验：用户根据教学训练场景，进行强交互干预试验训练，系统采集用户在实验中的多模态数据；
S5：训练总结：根据当日的全部训练，系统分析得到用户的训练分数，判断当日训练是否合格，并推荐后续训练计划。

说明书全文

基于虚拟现实及多模态信息的孤独症辅助干预系统及方法

技术领域

[0001] 本发明涉及孤独症救治领域，尤其涉及到一种基于虚拟现实及多模态信息的孤独症辅助干预系统及方案，本发明将真人的图像和声音形象融入定制化虚拟现实场景，使用可穿戴虚拟现实硬件输出场景并采集用户行为数据，实现强交互性孤独症辅助干预效果。

背景技术

[0002] 孤独症，全称孤独症谱系障碍(autism spectrum disorder,ASD)，又称自闭症，是广泛性发育障碍(pervasive developmental disorder，PDD)的代表性疾病。患有孤独症的人群，会在理解能力、沟通能力、社交能力和兴趣等方面具有不正常表现。中国现在有超过200万儿童患有孤独症。研究表明，儿童进行孤独症干预的黄金时期是1-6岁。如何及时对孤独症患者进行干预治疗，是一个需要得到广泛关注的社会问题。目前，孤独症疗法包括：游戏疗法、语言联系、增强物的应用、职业治疗等方法。邹小兵教授提出了能够有效进行孤独症干预的结构化社交行为干预模式(BSR模式)。

[0003] 然而，由于干预治疗对治疗师的专业性和标准要求高，使得专业治疗难以普及。随着计算机科学和人工智能领域的发展，使用便携设备推广孤独症干预方法已称为很多科研人员研究的目标。其中，使用虚拟现实设备辅助干预的治疗方案，已经取得了一定的研究进展，能够提供用户不限医院、学校和家庭不同场所的干预方案。目前有方案提出使用虚拟现实技术结合分析心率数据和手臂活动量数据等生物信号，来体现分析用户对感知程度，用过手柄进进行选项选择来评价用户的训练效果。然而，普通非定制化的通用虚拟现实场景，仍然容易让孤独症孤独症患者产生虚拟的感觉，不利于学习场景到真实生活场景的迁移。并且，心率等生物信号的测量需要儿童佩戴更多的仪器，使用不便，且生物信号的直接可读性可解释性并不强。通过手柄做回答的评价判断，仅停留在条件判断的分析级别，遗漏了用户其他的多模态行为及互动信息，交互性差。

[0004] 如果能够研发一种虚拟现实系统，个性化定制真实场景和真实人物，增加孤独症患者接受度，并直接解释孤独症患者活动的行为信号，根据用户多模态行为信号分析训练效果程度及时提供不同强度的加强教学，更有利于增强干预系统的交互性，更有利于增强辅助干预的效果。

发明内容

[0005] 针对上述技术问题，本发明的目的在于提供一种基于虚拟现实及多模态信息的孤独症辅助干预系统及方法，本发明干预场景融入真实人和物的图像形象和声音形象，不限制参与人员使用可穿戴设备的场所，实时采集并分析具有解释性的用户多模态行为信号，通过声音、图像、光学信号多模态多类别多强度级别实现强交互教学训练，并结合用户表现提供教学建议，从而增加辅助干预教学的可迁移性和延展性，更个性化教学，更有利于增强辅助干预的疗效。

[0006] 为实现上述目的，本发明是根据以下技术方案实现的：

[0007] 本发明提供了一种基于虚拟现实及多模态信息的孤独症辅助干预系统，包括：

[0008] 教程定制模块，用于制作输出声音信息、图像信息的虚拟现实场景及教学内容；

[0009] 档案模块，用于根据病历或评测结果初始化建立用户个人档案和训练计划，记录用户训练数据，训练计划可由人为修改系统生成的结果；

[0010] 真实形象采集模块，用于采集被融入人或者物的的声音和图像资料；

[0011] 真实形象融入模块，用于学习所述真实形象采集模块所采集的被融入人或者物的的声音和图像形象，将被融入人或者物的声音和图像特征进行提取，将所提取的声音和图像特征与教程定制模块所制作的虚拟现实场景进行融合，得到具有被融入人或者物的声音和图像形象的虚拟现实被融入人或者物形象，虚拟现实被融入人形象能够使用原被融入人的音色进行说话、使用原被融入人的图像形象做出不同的神态、表情、动作，虚拟现实被融入物形象发出原被融入物的声音、展现原被融入物的等比立体图像；

[0012] 行为数据采集模块，用于采集干预试验过程中用户的多模态行为数据；

[0013] 行为特征提取模块，用于提取行为数据采集模块所采集的试验多模态行为数据中的用户脸部朝向、眼神、手势、位置、情感、语言的行为特征；

[0014] 训练模块，用于通过机器学习算法对所述行为特征提取模块所提取的行为特征的数据进行训练，获取与场景符合的评价模型；

[0015] 预测模块，用于通过所述训练模块所得训练好的评价模型对用户的行为特征进行分析，从而获得用户表现描述；

[0016] 交互模块，用于根据所述预测模块所得用户表现描述进行信息交流，并通过场景中输出声音信息、图像信息和光学信息，直接提醒暗示或提醒用户进行正确的行为回应；

[0017] 课程评价模块,用于根据干预试验全程用户课程表现、课程学习进度，对用户学习进行总体评价，提出相关建议。

[0018] 优选地，所述教程定制模块通过参考结构化社交行为干预模式、行为疗法、关键反应训练、言语行为、关系发展干预、早期丹佛模式、结构化教育、地板时间进行教程定制。

[0019] 优选地，所述真实形象采集模块包括：

[0020] 声音采集单元，用于采集人说话语音数据以及动物或其他物品配合干预课程场景的声音；

[0021] 图像采集单元，用于采集用户的多角度平面或深度图像数据，以获得用户的二维或三维模型图像形象。

[0022] 优选地，所述真实形象融入模块将真实生活中的人或物的形象融入定制化场景的课程中，实现真人融入头、脸、声音，真物融入等比例图像、声音的效果，使被融入的人和物形象更立体，具体包括：

[0023] 特定人语音合成单元，用于根据提供的音频数据提取音色的声音信息，利用多说话人语音合成技术合成融入虚拟现实场景的人物语音；

[0024] 图像合成单元，根据提供的人物数据提取头部和动作的图像信息，合成融入虚拟现实场景的人物活动图像；根据提供的物品数据提取形状和尺寸的图像信息，合成融入虚拟现实场景的可移动旋转物品图像。

[0025] 优选地，所述行为数据采集模块使用内置眼动仪、传感器、陀螺仪、麦克风、腔内摄像头、腔外摄像头、手柄、手套的虚拟现实设备采集数据，

[0026] 使用传感器以及陀螺仪获得头部和身体的朝向和移动数据，使用内置眼动仪获得眼睛运动数据，使用腔内摄像头获得眼周肌肉与皮肤的运动数据，使用麦克风获得语音数据，使用腔外摄像头拍摄下半张脸获得下巴及两颊的肌肉运动数据，使用手柄获得手部运动数据及课程学习操作数据。

[0027] 优选地，所述行为特征提取模块包括：

[0028] 头部朝向提取单元，使用自带的传感器或陀螺仪根据物体的x、y、z三个直角坐标轴方向的移动自由度和绕这三个坐标轴的转动自由度，计算头部的运动；

[0029] 脸部表情提取单元，使用VR头盔腔内摄像头和腔外摄像头分别获取到的用户的左右双眼部分的数据和嘴部的数据进行联合，计算联合表情特征分类向量；

[0030] 目光焦点提取单元，使用眼动仪对眼球运动进行追踪的数据，计算眼动的方向和焦点；

[0031] 手部运动提取单元，使用手柄或手套、传感器、按钮获得的数据，获得用户对场景提问做出的选项，计算用户在场景中配合进行的动方式和幅度；

[0032] 语音特征提取单元，使用麦克风获得的用户说话数据，语音识别获得用户说话的语音内容，提取并分析用语的关键词和理解释义，情感识别获得用户互动语言的情感分数；

[0033] 相对位置提取单元，使用VR头盔传感器获得用户个体移动的加速度，计算用户移动的轨迹。

[0034] 优选地，所述行为交互模块实现用户与设备的强交互效果，以用户行为的特征数据作为输入，实时使用机器学习分析并根据用户的行为数据进行分等级反馈输出，循环输入和输出实现强交互；其中，所述反馈输出包括加强教学输出和表扬鼓励输出；

[0035] 优选地，所述加强教学输出包括不同等级暗示或明确提醒，通过声音信息、图像信息或光学信息实现所述加强教学输出。

[0036] 优选地，所述课程评价模块结合用户档案模块中记录的数据以及用户当前训练的表现，进行整合计算，对用户训练计划提供建议，其中对整合结果的计算方法包括并不限于使用条件判断或机器学习的方法。

[0037] 本发明还提供了一种基于虚拟现实及多模态信息的孤独症辅助干预方法，是根据上述的孤独症辅助干预系统实现的，包括如下步骤：

[0038] S1：知情准备与档案建立：用户的监护人或看护人阅读知情同意书，知晓系统会采集并分析用户及辅助干预的被融入人的行为数据及病历相关数据，知晓本系统不外泄用户数据保护用户隐私，并确认同意后，进行档案建立；

[0039] S1：档案建立：用户或其监护人或其看护人根据虚拟现实设备或电脑的提示和说明，填写用户的基本资料，包括性别、年龄、发育情况、家庭成员、医嘱；

[0040] S2：教学计划建立：根据用户的档案生成教学计划，用户或其监护人或其看护人根据实际情况进行人工调整，确定教学计划；

[0041] S3：形象采集与融入：用户的监护人或干预辅助老师或与其共同生活两周以上的人作为被融入人物，提供被RGBD摄像头采集图像数据，或多角度RGB图像数据；并进行规定不少于长度的录音；将被融入人物的声音和图像融入用户教学计划中所设计干预课程的场景，获得具体有被融入人图像和声音形象的定制化课程；

[0042] S4:辅助干预试验：用户根据教学训练场景，进行强交互干预试验训练，系统采集用户在实验中的多模态数据；

[0043] S5：训练总结：根据当日的全部训练，系统分析得到用户的训练分数，判断当日训练是否合格，并推荐后续训练计划。

[0044] 本发明与现有技术相比，具有如下优点：

[0045] 本发明使用虚拟现实设备提供孤独症辅助干预的教学，使得干预学习更容易在不同场合进行普及。

[0046] 本发明使用定制化场景课程及人物形象进行教学，更有利于将干预课程的学习场景迁移到真实生活，加强干预效果。

[0047] 本发明使用图像融入技术，将真实人和物的图像形象融入到定制化场景中，使得教程对用户更亲切。

[0048] 本发明使用声音融入技术，将真实人和物品的声音形象融入到定制化场景中，使得教程中的人和物的形象更立体，更容易被用户接受，干预效果更好。

[0049] 本发明采集多种用户行为数据进行分析，更全面及时获取用户行为特征，更有利于获得教学反馈。

[0050] 本发明使用声音、图像、光学多种效果对用户进行教学引导，更能自然、潜移默化地对用户进行培养。

[0051] 本发明根据用户多模态行为信号分析训练效果程度及时提供不同强度的加强教学，有利于提供强交互个性化教学。

[0052] 本发明结合教学效果及时提供教学建议，更有利于更新和调整教学策略，辅助达到更好的干预效果。附图说明

[0053] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

[0054] 图1为本发明的系统模块示意图；

[0055] 图2为本发明在教学使用的总流程图；

[0056] 图3为为本发明在单次课程教学步骤流程图；

[0057] 图4a为特定人声纹识别示意图；

[0058] 图4b为特定人语音合成流程图；

[0059] 图5为头戴式VR设备采集脸部图像示意图。

具体实施方式

[0060] 为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

[0061] 如图1所示，本发明的实施方式公开了一种基于虚拟现实及多模态信息的孤独症辅助干预系统，包括：

[0062] 教程定制模块，用于制作输出声音信息、图像信息的虚拟现实场景及教学内容；

[0063] 所述教程定制模块参考结构化社交行为干预模式(BSR模式)、行为疗法(ABA)、关键反应训练(PRT)、言语行为训练法(VB)、关系发展干预疗法(RDI)、早期丹佛模式(ESDM)、结构化教学法(TEACCH)、地板时间疗法(Floor time),进行教程定制。

[0064] 本实施例中，所述教程定制模块根据结构化社交行为干预模式(BSR模式)进行教程定制；

[0065] 档案模块，用于根据病历或评测结果初始化建立用户个人档案和训练计划，记录用户训练数据，训练计划可由人为修改系统生成的结果；

[0066] 本实施例中，训练计划的建立使用医生评分或其他孤独症评价的方法。根据医生评价或其他方式评价用户的模仿能力、感觉行为能力、刻板行为能力、语言理解能力、游戏行为能力、社交行为能力、语言表达能力等维度进行打分，根据用户性别、年龄和多维度分数选择不同维度对应难度的课程，整合作为用户的训练计划。

[0067] 真实形象采集模块，用于采集被融入人或者物的的声音和图像资料；

[0068] 真实形象融入模块，用于学习所述真实形象采集模块所采集的被融入人或者物的的声音和图像形象，将被融入人或者物的声音和图像特征进行提取，将所提取的声音和图像特征与教程定制模块所制作的虚拟现实场景进行融合，得到具有被融入人或者物的声音和图像形象的虚拟现实被融入人或者物形象，虚拟现实被融入人形象能够使用原被融入人的音色进行说话、使用原被融入人的图像形象做出不同的神态、表情、动作，虚拟现实被融入物形象发出原被融入物的声音、展现原被融入物的等比立体图像；

[0069] 行为数据采集模块，用于采集干预试验过程中用户的多模态行为数据；

[0070] 行为特征提取模块，用于提取行为数据采集模块所采集的试验多模态行为数据中的用户脸部朝向、眼神、手势、位置、情感、语言的行为特征；

[0071] 训练模块，用于通过机器学习算法对所述行为特征提取模块所提取的行为特征的数据进行训练，获取与场景符合的评价模型；

[0072] 预测模块，用于通过训练模块所得训练好的评价模型对用户的行为特征进行分析，从而获得用户表现描述；

[0073] 交互模块，用于根据预测模块所得用户表现描述进行信息交流，并通过场景中输出声音信息、图像信息和光学信息，直接提醒暗示或提醒用户进行正确的行为回应；

[0074] 课程评价模块,用于根据干预试验全程用户课程表现、课程学习进度，对用户学习进行总体评价，提出相关建议。

[0075] 其中本发明的真实形象采集模块包括：

[0076] 声音采集单元，用于采集人说话语音数据以及动物或其他物品配合干预课程场景的声音；

[0077] 图像采集单元，用于采集用户的多角度平面或深度图像数据，以获得用户的二维或三维模型图像形象。

[0078] 在本发明的实施例中，图像采集使用3D扫描复原技术。采集头部及身体四周的彩色及深度图片数据，然后经过点云计算、注册融合后，使用Meshlab进行点云的网格化以及后处理，重建3D模型。结合采集的RGB图片以及深度数据可以计算出图片中每一点的点云，再根据多个角度图像的外参矩阵，对每个角度的点云进行粗注册匹配。在粗注册点云的基础上，使用ICP(Iterative Closest Point)迭代最近点算法进一步地细注册融合，然后再对短时间内几帧连续图片数据的点云进行一个时间上平均平滑。最后使用Meshlab对点云进行后处理，点云数据下采样后网格三角化、空间平滑滤波，再根据点云对应的RGB数据进行上色。

[0079] 本发明的真实形象融入模块包括：

[0080] 特定人语音合成单元，用于根据提供的音频数据提取音色的声音信息，利用多说话人语音合成技术合成融入虚拟现实场景的人物语音；

[0081] 图像合成单元，根据提供的人物数据提取头部和动作的图像信息，合成融入虚拟现实场景的人物活动图像；根据提供的物品数据提取形状和尺寸的图像信息，合成融入虚拟现实场景的可移动旋转物品图像。

[0082] 进一步，如图4a和图4b所示，声音合成单元使用特定人语音合成技术，把基于端到端深度学习的声纹识别与语音合成相结合，融合目前高逼真度的语音合成系统和高准确度的声纹系统，两者融合，组建一个对抗系统。整个架构的体系可以分为三个组成部分：声学模型、声码器和声纹模型。训练过程，信息的流向是：1.训练语音提取声学特征后通过声纹系统获取说话人特征；2.说话人特征和文本通过声学模型模拟声学参数；3.声学参数通过声码器复原声音；4.模拟所得声学参数通过声纹系统做分类决策，并对映射层输出的合成说话人特征做相似度评估。以上三个模块协同工作，其中步骤1和4所用的声纹系统是共享的，这样能保障整个框架的一致性，即声纹系统确实在整个体系中担当着区分合成语音和真实语音的作用，并且能够为整个体系提供有价值的说话人特征向量，可以做为决策层的输入。

[0083] 图像合成单元，用深度学习中自编码器与生成对抗网络相关技术，利用指定对象的脸部模型生成换脸视频。该技术首先一个共享的深度编码器和两个独立的深度解码器分别学习两张人脸A和B的隐特征(主要包含五官位置，表情等信息)，再交换解码器的位置，用人脸B的解码器对人脸A的隐特征进行复原，即可将图像中的人脸A换为人脸B。

[0084] 行为数据采集模块包括：

[0085] 内置眼动仪、传感器、陀螺仪、麦克风、腔内摄像头、腔外摄像头、手柄、手套的虚拟现实设备，使用传感器和陀螺仪获得头部和身体的朝向和移动数据，使用眼动仪获得眼睛运动，使用腔内摄像头获得眼部皮肤和眼睛的运动数据，使用麦克风获得说话数据，使用腔外摄像头拍摄下半张脸获得下巴及两颊的运动数据，使用手柄获得手部运动数据及课程学习操作数据。

[0086] 行为特征提取模块包括：

[0087] 头部朝向提取单元，使用自带的加速度传感器或陀螺仪根据物体的x、y、z三个直角坐标轴方向的移动自由度和绕这三个坐标轴的转动自由度，计算头部的运动；

[0088] 脸部表情提取单元，使用VR头盔腔内摄像头和腔外摄像头分别获取到的用户的左右双眼部分的数据和嘴部的数据进行联合，计算联合表情特征分类向量；

[0089] 目光焦点提取单元，使用眼动仪对眼球运动进行追踪的数据，计算眼动的方向和焦点；

[0090] 手部运动提取单元，使用手柄、手套、传感器、按钮获得的数据，获得用户对场景提问做出的选项，计算用户在场景中配合进行的动方式和幅度；

[0091] 语音特征提取单元，使用麦克风获得的用户说话数据，语音识别获得用户说话的语音内容，提取并分析用语的关键词和理解释义，情感识别获得用户互动语言的情感分数；

[0092] 相对位置提取单元，使用VR头盔传感器获得用户个体移动的加速度，计算用户移动的轨迹。

[0093] 进一步,脸部表情提取单元，通过头戴式VR设备上的三个摄像头，两个位于眼镜内部，可用来分别拍摄左右眼及眼周的图像；一个挂载在设备外部，用于近距离拍摄面部高清图像。拟基于深度神经网络，分通道对三个摄像头采集到的图像进行特征提取，最后对不同通道提取到的体征进行融合以输出表情识别结果。利用现有的大规模数据集对三个通道进行预训练后移植到本地框架中，并在VR设备收集的真实用户面部表情数据集上进行自适应。

[0094] 本实施例中，头戴式VR设备采集脸部图像的示意图如图5所示。

[0095] 进一步，语音特征提取单元，在提取语音情感特征时，使用基于端到端深度学习技术。具体地技术包括模型结构，损失函数设计，数据增强，迁移学习。在模型结构方面，使用编码层方案构建。在损失函数设计方面，应用情感二维表示中的刻度信息来优化。在数据增强方面，采用更多更有效的数据增强方法来扩大训练数据规模。在不较大影响质量的前提下有选择的通过添加少量噪声，混响，均衡器效果，自定义滤波，特定人变声，改变基频高低，改变语速快慢，不同信道转录等方法来扩充训练数据。总体地，采用高度统一的端到端深度学习框架，利用多任务学习(Multitask Learning)和多数据库联合学习(Joint Learning)方法更好的利用现有的多个数据库来协同研究其中的迁移学习和多任务学习技术。

[0096] 进一步地，训练模块，用于通过机器学习算法，对用户行为特征数据进行训练，根据用户的语言、表情、行动的特征数据，学习用户在对应干预训练场景中进行学习模仿以及回答等反应的分数，获取通过用户特征数据对场景学习的评价模型。

[0097] 本实施例中，使用支持向量机算法构建多种特征数据与场景训练分数的模型。当需要进行二分类时，使用一个支持向量机计算即可；当需要进行多分类以评价用户表现的不同等级时，使用多个二分类支持向量机进行组合分类。具体地，一个二分类问题的支持向量机，将评价分数作为支持向量机的学习目标Y，多模态特征数据组成多特征样本Xi＝[x1，x2，-xn]作为输入数据，按照下列方程ω2·X+b＝0，通过训练可以求得最优ω2，即可计算对应的Y。使用多个二分类器实现多分类时，训练时依次把某个类别的样本归为一类，其他剩余的样本归为另一类，这样多个类别的样本就构造出了多个支持向量机。分类时将未知样本分类为具有最大分类函数值的那类。

[0098] 进一步，本发明的交互模块使用训练好的模型，对用户特征数据进行评分和判断，评价用户的的行为表现是否已经达到干预课程要求的学习效果标准。被分析的特征数据，包括用户使用手柄操作选择的答题选项以及被采集并提取的用户多模态行为特征数据。当用户的学习效果或答题分数达到课程标准时，记录用户分数并进入后续学习环节；当用户的学习效果或者答题分数没有达到课程标准时，记录用户分数并再次进行干预教学，加入声音信息、图像信息和光学信息加强教学用户做出正确的学习反应；当用户在弱等级教学后仍然不能正确反馈时，记录用户分数并再次进行干预教学，使用声音信息、图像信息和光学信息直接提示用户做出正确的学习反应；当用户在强等级提示的教学后扔不能正确反馈时，记录用户表现。

[0099] 本实施例中，声音信息为融入的真实人物形象的语音提醒；图像信息为融入的真实人物的动作示范和文字教学内容；光学信息为通过模糊、调暗周围环境，清晰对焦、调亮需要关注的物体来引导用户聚焦需要关注的重点。弱等级的加强教学包括：使用光学信息模糊周围环境，清晰对焦重点画面，使用声音提示关键词，使用图像画面播放应答操作相关物品和部分动作。强等级的加强教学包括：使用光学信息直接调暗周围环境调亮重点画面，使用声音直接指出所需应答操作，使用图像画面直接播放所需应答操作。

[0100] 进一步地，课程评价模块，根据交互模块记录的学习结果，获得用户当天一项或多项课程学习的结果，获得当日学习总体评分，将评分归入用户档案。并根据评分的能力等级和用户档案，使用机器学习模型或条件判断计算，建议后续的课程计划。

[0101] 本实施例中，当训练成绩连续一周达到及格线，或连续2日达到高分线时，建议更换更高级别难度的课程；当连续一周成绩仍不能稳定达到及格线时，系统更新建议更换同级别的不同课程。

[0102] 本实施例中，根据结构化社交行为干预模式(BSR模式提供一系列针对患孤独症的儿童用户的训练场景。通过融入的用户照顾者家属虚拟形象(如：用户的妈妈、用户的爸爸，下文简称为妈妈、爸爸)通过口述语音和动作画面，教学活动程序。

[0103] 实施例一：早晨课程

[0104] 起床训练：在家庭卧室场景中，通过闹钟声响和妈妈呼唤起床的语音，引导儿童学习使用手柄进行掀被子和下床的动作。当儿童没有成功操作规定动作时，使用音画信息加强信息，重复教学。

[0105] 上厕所训练：在厕所门口的场景中，让儿童站在关闭的厕所门前，通过音画信息引导用户敲门，通过爸爸的语音告诉儿童爸爸在里面上厕所“爸爸在里面，请等一会”，教学儿童排队等一会厕所，并出现妈妈教学儿童使用询问语句与厕所内的爸爸交涉“爸爸，请轻快一点，宝宝尿急”。当儿童没有成功操作规定动作时，使用音画信息加强信息，重复教学。

[0106] 实施例二：活动教程

[0107] 安定能力训练：在画室场景中，爸爸说“现在开始上画画课了”，儿童安定画画不走动时，妈妈出现奖励爸爸和儿童；画面中爸爸起身离开座位时，妈妈打爸爸的手，并教育儿童“宝贝，你看，爸爸不听话，挨打了”。

[0108] 拼图训练：在玩具房间的场景中，妈妈和儿童进行拼图游戏，首先用语言知道儿童记忆拼图画面“宝贝，你来记一下这个画面吧”，然后用语言指导儿童选择正确的拼图“这一块在哪里？”，并用语言和动作进行表扬“宝贝，你真棒，拼对了！”，最后训练儿童用手柄收拾玩过的玩具“时间到了，我们把拼图放回盒子里面吧”。

[0109] 实施例三：认知教程

[0110] 动物认知训练：在公园场景中，妈妈和儿童进行宠物认识学习，妈妈问“这是什么动物啊”，儿童通过语音回答动物答案，妈妈根据答案进行纠正和评价。妈妈提问“小猫在什么地方”，儿童通过手柄指物，妈妈根据答案进行评价和反馈。

[0111] 水果认知训练：在水果店中，爸爸教儿童认识不同的水果“这个是什么啊？”，儿童通过语音回答水果的名称，爸爸提问“苹果是什么颜色啊？”，儿童通过语音进行回答，爸爸指正和评价儿童的回答。

[0112] 实施例四：出门教程

[0113] 过马路训练：在马路场景中，妈妈教育儿童“看，红灯，不能过马路”，在变绿灯时妈妈指明“看，宝贝，绿灯可以过马路”带儿童过马路。到下一个路口，妈妈问宝贝“现在什么灯？我们能不能过马路？”

[0114] 买菜训练：出门前场景中，妈妈教育儿童“宝贝，我们去买菜把”。在菜场场景中，妈妈提问“告诉妈妈，哪里有胡萝卜啊？”，儿童通过语音和手柄进行回答。妈妈进行评价，并接着提问“宝贝，我们数一下买几个好吗？”并教育儿童用手柄把菜放到篮子里。妈妈进行结账教学“把钱给阿姨好吗？”最后妈妈告诉儿童“我们笑着谢谢阿姨，跟阿姨再见”。

[0115] 本实施例中，如图2，用户将会在每日进行不同课程的训练，并得到一日的教学成绩汇总和系统提供的教学建议，并参考教学建议进行后续学习。具体地，首先，用户根据档案获得当日的包含多种课程的训练计划；然后，用户根据训练计划分别学习不同课程，系统记录用户的训练结果；接着，系统根据当日的训练结果评分及过往档案，安排后续训练计划；如此进入下一日，用户和系统重复前述步骤。

[0116] 如图3，为具体一节教学训练的过程：在某一特定教学场景中，首先通过教学系统输出声音、图像信号，通过融入了真实人物的视频教学用户了解某一知根据上述的孤独症辅助干预系统，其特征在于，识；然后，通过教学系统提问用户回答教学相关的问题，或者要求用户模仿某些行为；接着，用户使用手柄或者通过自身行为，应答教学；下一步，系统通过预测模块评价用户的应答分数，并判断应答是否合格，是否需要加强教学；当用户行为被判断需要进行加强教学时，系统根据用户应答的等级和加强教学的轮次，通过多模态信号按照对应的等级进行加强教学；当用户再一次被判断需要加强教学时，系统根据轮次的增加提升等级，对用户进行加强教学；当用户的应答表现被评价合格时，系统通过声音和图像信号，对用户进行表扬；当用户当用户的应答表现被评价合格，或加强教学的轮次达到上限时，该训练的教学过程结束，系统记录用户该节全过程的训练评价。

[0117] 本实施例中，利用本发明对用户进行孤独症辅助干预，用户的使用流程如下：

[0118] S1：知情准备与档案建立

[0119] 用户(被辅助干预的人员)的监护人或看护人阅读知情同意书，知晓本系统会采集并分析用户及辅助干预的被融入人的行为数据及病历相关数据，知晓本系统不外泄用户数据保护用户隐私，并确认同意后，可进行档案建立；

[0120] S1：档案建立

[0121] 用户或其监护人或其看护人根据虚拟现实设备或电脑的提示和说明，填写用户的基本资料，包括性别、年龄、发育情况、家庭成员、医嘱。

[0122] S2：教学计划建立

[0123] 系统根据用户的档案生成教学计划，用户或其监护人或其看护人根据实际情况进行人工调整，确定教学计划。

[0124] 本实施例中，用户的教学计划为：上述教程实施例中的买菜训练。

[0125] 买菜训练：出门前场景中，妈妈教育儿童“宝贝，我们去买菜把”。在菜场场景中，妈妈提问“告诉妈妈，哪里有胡萝卜啊？”，儿童通过语音和手柄进行回答。妈妈进行评价，并接着提问“宝贝，我们数一下买几个好吗？”并教育儿童用手柄把菜放到篮子里。妈妈进行结账教学“把钱给阿姨好吗？”最后妈妈告诉儿童“我们笑着谢谢阿姨，跟阿姨再见”。

[0126] S3：形象采集与融入

[0127] 用户的父母或干预辅助老师或与其共同生活两周以上的人作为被融入人物，提供被RGBD摄像头采集图像数据，或多角度RGB图像数据；并进行规定不少于长度的录音。系统将被融入人物的声音和图像融入用户教学计划中所设计干预课程的场景，获得具体有被融入人图像和声音形象的定制化课程。

[0128] 本实施例中进行融合的人员为用户的妈妈，使用3D扫描复原技术对用户的妈妈采集RGBD图像，将采集到的RGBD图像使用深度学习中自编码器与生成对抗网络相关技术进行融合后，买菜教程中的虚拟现实妈妈角色形象将呈现为用户妈妈头像；对用户的妈妈进行说话录音，通过特定人语音合成单元，将用户妈妈的声音融入系统，教程中的虚拟现实妈妈角色形象说出系统指定语音内容的音色为用户妈妈的声音。

[0129] S4:辅助干预试验

[0130] 用户根据教学训练场景，进行强交互干预试验训练，系统采集用户在实验中的多模态数据。

[0131] 本实施例中，用户穿戴好虚拟现实头盔和手套后，进入买菜训练。虚拟现实呈现出门场景，融入用户妈妈形象的虚拟妈妈角色首先用户妈妈的声音和头像根用户打招呼，让用户熟悉虚拟现实环境。虚拟妈妈角色使用用户妈妈头像的脸做出微笑的表情和说话的动作，对用户说：“宝贝，我们去买菜把”。虚拟现实呈现菜场的场景，虚拟妈妈角色用用户妈妈的声音对用户提出第一个问题“告诉妈妈，哪里有胡萝卜啊？”用户使用手套在虚拟现实场景中指出胡萝卜的位置。根据手套上传感器对用户动作的采集，传入系统的分析，用户被系统判断成功指向了胡萝卜。虚拟妈妈角色鼓掌并对用户进行语音表扬“宝贝，你真棒！这就是胡萝卜，你太聪明了！”用户笑了。系统通过虚拟现实头盔上的腔内摄像头和腔外摄像头采集用户面部表情，通过虚拟现实头盔上的麦克风采集到了用户的笑声，系统分析面部数据和声音判断用户笑了，进入下一步学习。虚拟妈妈角色提问用户第二个问题“宝贝，我们数一下买几个好吗？”然后虚拟妈妈角色做示范，指着胡萝卜“宝宝，你看，一共几个？”用户没能回答，无反应时间超过系统设置的反应时间。系统对用户进行暗示提醒，模糊胡萝卜之外的其他画面，强调胡萝卜画面，虚拟妈妈角色再次提问：“宝宝，你再看看，几个胡萝卜？说话告诉妈妈好不好？”用户没能回答，无反应时间超过系统设置的反应时间。系统对用户进行明确提醒，虚拟角色妈妈做出数萝卜的动作，准确指每一个萝卜“宝宝，你看1个，2个，3个，一共几个啊？”用户使用麦克风回答“3个”。系统通过分析麦克风采集到声音数据检测到用户进行了正确回答，进入下一个问题。虚拟妈妈角色提问“宝贝，我们把胡萝卜放入菜篮子好吗？”用户使用手柄把菜放到篮子里，系统根据手套传感器数据检测此问回答成功。虚拟妈妈角进行行结账教学“把钱给阿姨好吗？”用户使用手套在虚拟现实场景中结果虚拟妈妈角色的钱，把钱递给虚拟售货员阿姨，系统根据手套传感器数据检测此问回答成功。最后虚拟角色妈妈做出挥手再见的动作，进行教学告诉儿童“我们笑着谢谢阿姨，跟阿姨再见”。用户挥手并微笑和虚拟售货员阿姨角色说再见。系统根据手套传感器数据检测到用户挥手，根据腔内摄像头和腔外摄像头数据图像表情识别到用户的微笑表情，根据麦克风采集的数据语音识别到用户说了“阿姨再见”，根据麦克风采集的数据语音情感分析到用户的情绪为开心，此问题完成。课程结束。

[0132] S5：训练总结

[0133] 根据当日的全部训练，系统分析得到用户的训练分数，判断当日训练是否合格，并推荐后续训练计划。

[0134] 本实施例中，对于训练中的问题或指令进行打分，一共4个问题，2个指令。由于用户有一题通过明显提示才答对，未能达到高分线，系统判断用户明天继续同等难度和类型课程的训练。

[0135] 以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

标题	发布/更新时间	阅读量
传输方法以及电子设备和计算机存储介质	2020-05-11	476
用于视线追踪的标定方法、装置、移动终端及存储介质	2020-05-15	196
一种车辆盲区显示系统	2020-05-22	11
一种基于虚拟现实中眼动捕捉的跨物体交互方法与装置	2020-05-26	946
近眼显示设备的避免全息影像阻挡视线的智能调节方法	2020-05-24	756
一种头戴式助视装置	2020-05-08	555
基于眼球追踪的测光方法及相关产品	2020-05-20	355
用于非灵长类动物伸展抓握运动研究的机器人交互平台	2020-05-18	498
AR智能眼镜的应用基于眼动追踪技术的广告推送方法	2020-05-25	863
一种基于眼球追踪的面部表情控制方法及系统	2020-05-13	737

基于虚拟现实及多模态信息的孤独症辅助干预系统及方法

基于虚拟现实及多模态信息的孤独症辅助干预系统及方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：