基于虚拟现实的孤独症早期筛查评估系统及方法专利检索-情感计算人工智能专利检索查询-专利查询网

基于 虚拟现实的孤独症早期筛查评估系统及方法

阅读：174发布：2020-05-08

专利汇可以提供基于虚拟现实的孤独症早期筛查评估系统及方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于虚拟现实的孤独症早期筛查评估系统及方法，该系统包括：人物形象采集模块，用于采集被融入人物的语音、图像资料；真实融入模块，用于学习所述人物形象采集模块中的被融入人物的语音和图像形象，模拟合成试验场景中人物虚拟形象的图像和声音，并融入到虚拟现实的场景中；试验数据采集模块，用于采集试验过程中得用户的活动音频、视频、传感器数据；特征追踪模块，用于追踪用户在试验过程中的头部、眼部、手部、动作、位置、声音的特征信息；训练模块，用于根据特征追踪模块追踪分析获得的特征数据，通过机器学习方法，训练打分模型；预测模块，用于通过所述训练模型训练的结果预测用户的孤独症风险系数及试验的项目得分。，下面是基于虚拟现实的孤独症早期筛查评估系统及方法专利的具体信息内容。

权利要求

1.一种基于虚拟现实的孤独症早期筛查评估系统，其特征在于，包括：
人物形象采集模块，用于采集被融入人物的语音、图像资料；
真实融入模块，利用深度学习技术提取人物形象采集模块采集所得的被融入人物的音视频特征，在虚拟现实的场景中模拟被融入人物的虚拟形象，并使其具有被融入人物的外貌和声音，并能使用被融入的外貌作出不同表情和动作，使用被融入声音说出不同语言；
试验数据采集模块，用于采集筛查评估试验过程中所得的用户的活动音频、视频和多项运动传感器数据；
特征追踪模块，用于追踪用户在筛查评估试验过程中的头部、眼部、手部、动作、位置、声音的特征信息；
训练模块，用于根据特征追踪模块追踪分析获得的特征数据，通过机器学习方法，训练打分模型；
预测模块，用于通过所述训练模型训练的结果预测用户的孤独症风险系数及试验的项目得分。
2.根据权利要求1所述的孤独症早期筛查评估系统，其特征在于，所述人物形象采集模块包括声音采集单元和图像采集单元：
所述声音采集单元，用于采集被融入人物的说话音频数据；
所述图像采集单元，用于采集被融入人物的多角度2D影像资料或采集含有RGBD的图像数据，以获得完整、立体的人物图像形象。
3.根据权利要求1所述的孤独症早期筛查评估系统，其特征在于，所述真实融入模块通过融入真实形象，提供接近真实的场景，包括声音合成单元和图像合成单元，其中，所述声音合成单元利用成熟语音识别系统识别提供的音频得到相对粗糙的发音标注，通过人工校验得到音频对应的精准发音标注，最后将标注好的音频-标注对送入一个由标准音色训练好的语音合成模型，作特定说话人自适应训练，最终得到特定人音色的语音合成模型；
所述图像合成单元，根据提供的视频数据提取头部和动作的图像信息，通过深度学习方法将2D平面图像重建为3D立体图像，合成融入虚拟现实场景的虚拟合成人物活动图像。
4.根据权利要求1所述的孤独症早期筛查评估系统，其特征在于，所述试验数据采集模块的采集设备包括麦克风、腔内外摄像头、手柄或手套、陀螺仪、红外传感器、加速传感器、光电传感器，其中所述麦克风采集用户说话声音数据，腔内外摄像头采集用户面部活动数据，所述手柄或手套采集用户手部活动数据，红外传感器和/或腔内外摄像头配合采集用户眼睛活动数据，红外传感器和/或光电传感器配合采集手部精确位置数据，光电传感器和/或加速度传感器配合采集用户头部数据，加速传感器和/或陀螺仪配合采集用户位置数据。
5.根据权利要求1所述的孤独症早期筛查评估系统，其特征在于，所述特征追踪模块包括：
头部追踪单元，用于获取运动时头部朝向的三维变化；
眼动追踪单元，用于监控用户眼睛的运动并及时检测到用户的目光朝向；
面部表情追踪单元，用于获取并计算用户在使用中的面部表情数据；
动作追踪单元，用于获取用户在试验中的动作和姿态变化数据；
语音内容追踪单元，用于追踪用户在试验中说话的内容；
语音情感追踪单元，用于获取用户在试验中声音的情感分类；
位置追踪单元，用于通过传感器跟踪获取用户位置信息和方向信息的变化。
6.根据权利要求1所述的孤独症早期筛查评估系统，其特征在于，所述训练模块使用机器学习方法通过专业医疗人员对试验用户进行评价的分数的及用户的试验数据特征进行学习，训练出能够预测用户范式试验的分数、孤独症系数及不同分析维度分数的模型。
7.根据权利要求1所述的孤独症早期筛查评估系统，其特征在于，所述预测模块针对试验环节中的不同环节按照不同的权重影响一个或多个维度的分数，对用户的多范式分数进行打分。
8.根据权利要求7所述的孤独症早期筛查评估系统，其特征在于，所述打分维度包括动作语言模仿、感觉行为、刻板行为、语言理解、游戏行为、社交行为、语言表达中的任意一项或几项组合。
9.根据权利要求6所述的孤独症早期筛查评估系统，其特征在于，所述范式试验包括叫名反应范式试验、非社会性声音刺激行为范式试验、加强依恋安全性范式试验、相互性注意力范式试验、分享行为范式试验、社会性微笑范式试验、行为恰当性范式试验、鹦鹉学舌范式试验、语言指向性范式试验、复述语音范式试验、动作模仿范式试验、声音刺激范式试验、人称代词区分范式试验中的任意一项或几项组合。
10.一种对用户进行孤独症筛查评估方法，其根据权利要求1至9任一项所述的孤独症早期筛查评估系统实现的，其特征在于，包括如下步骤：
预备步：知情同意，用户的监护人阅读数据采集及分析的知情同意书，并在签署同意后进行试验；
第一步：形象采集，用户对应的被融入人物提供多张、多角度照片或视频片段或RGBD摄像头采集所得的RGBD图像数据，以完整提供图像形象数据；提供长度足够的说话录音片段，以完整提供声音形象数据；
第二步：虚拟合成，根据被融入人物提供的声音、图像形象数据，使用语音合成系统合成虚拟合成人物的声音形象，使用深度伪造合成虚拟合成人物的图像形象，并迁移融入到虚拟试验场景中，形成能按照试验标准化流程说话、动作的虚拟合成人物；
第三步：进行试验，在虚拟显示设备中，登录用户账户，或者该用户对应的虚拟合成场景，依次进行标准化范式试验，试验的同时，虚拟显示设备上各个书记采集配件，分别采集用户在试验中的多模态数据；
第四步：数据处理，根据程序提取不同范式场景中的数据特征，并按照范式规则使用模型分别对不同范式进行打分。

说明书全文

基于虚拟现实的孤独症早期筛查评估系统及方法

技术领域

[0001] 本发明涉及孤独症筛查领域，具体地涉及到一种基于虚拟现实的孤独症早期筛查评估系统及方法，该系统融入真实人物，将真实人物的视觉、听觉形象融入多范式试验场景，使用一体化装置呈现虚拟现实试验场景，采集试验过程中用户身体活动的多模态数据，以对用孤独症谱系障碍进行评估。

背景技术

[0002] 孤独症谱系障碍(autism spectrum disorder，ASD)简称孤独症，又称自闭症，是以社交互动障碍/社会交流障碍以及狭隘兴趣和重复刻板行为为主要特征的神经发育障碍性疾病。孤独症对患者的精神健康和行为健康影响甚大，严重影响患者的生活。如果未能早期发现并进行科学干预，孤独症对患者的致残率较高。目前，世界上对于孤独症的诊断主要采用标准化的手册和量表，对儿童进行行为分析。进过长期研究和积累，我国专家为中国孤独症儿童人群设计、研发完成了首个中国的标准化量表：中国孤独症诊断量表(Chinese Autism Diagnostic Scale,CADS)。CADS的测试总原则中，要求测试人员必须具有标准化心里测量的工作经验和对发育行为儿科学、儿童发展心理学、精神医学等专业知识的学习经验。

[0003] 为了普及专业性强的标准化测试，降低标准化测试的人力成本，已经有不少学者投入到使用计算机辅助孤独症筛查和干预的研究中。其中，通过显示技术，标准化试验场景，对儿童进行诊断或干预的方案，已经得到了一些尝试。申请号为CN201810464235的专利提出一种融入真实人物形象的孤独症干预系统，以真实人物的视觉形象融入到普通动画的技术示范教学儿童对真实场景的正确反应，但是该方案主要针对人物头部形象的模拟，缺乏对真实人物全身形象及声音形象的模拟及融合，基于手机、电视等设备播放的普通动画效果不及虚拟现实技术的视觉效果更接近真实，并且该系统未搜集用户的反馈信息，未对用户的身体表现进行评价。申请号为CN201910099307的专利提出基于多模态信息的自闭症辅助诊断系统、设备及介质，将虚拟显示技术用于孤独症的诊断，然而该方案只标记了儿童的体征信息，局限于分析儿童的情绪维度，对于试验儿童的身体活动行为信息没有分析，标准的孤独症分析维度大幅度缺失，难以直观并全面地对儿童进行孤独症的诊断。

发明内容

[0004] 针对上述技术问题，本发明的目的在于提供。一种基于虚拟现实的孤独症早期筛查评估系统及方法，该系统融入真实人物，将真实人物的视觉形象、听觉形象融入多范式试验场景，使用一体化装置提供实时互动的虚拟现实场景，

[0005] 并采用标准化试验流程采集用户在试验过程中的多模态行为数据，按照学界标准多维度分析孤独症程度，对用孤独症谱系障碍进行评估。其中试验相关：包括用户(被评估的儿童)，被融入人物(模拟合成形象的原型，可为被评估儿童的父母或与其共同生活两周以上的人，也可为医生或其他专业人员)，虚拟合成人物(根据真实人物而模拟合成的虚拟形象)。

[0006] 为实现上述目的，本发明是根据以下技术方案实现的：

[0007] 一种基于虚拟现实的孤独症早期筛查评估系统，其特征在于，包括：

[0008] 人物形象采集模块，用于采集被融入人物的语音、图像资料；

[0009] 真实融入模块，利用深度学习技术提取人物形象采集模块采集所得的被融入人物的音视频特征，在虚拟现实的场景中模拟被融入人物的虚拟形象，并使其具有被融入人物的外貌和声音，并能使用被融入的外貌作出不同表情和动作，使用被融入声音说出不同语言；

[0010] 试验数据采集模块，用于采集筛查评估试验过程中所得的用户的活动音频、视频和多项运动传感器数据；

[0011] 特征追踪模块，用于追踪用户在筛查评估试验过程中的头部、眼部、手部、动作、位置、声音的特征信息；

[0012] 训练模块，用于根据特征追踪模块追踪分析获得的特征数据，通过机器学习方法，训练打分模型；

[0013] 预测模块，用于通过所述训练模型训练的结果预测用户的孤独症风险系数及试验的项目得分。

[0014] 优选地，所述人物形象采集模块包括声音采集单元和图像采集单元：

[0015] 所述声音采集单元，用于采集被融入人物的说话音频数据；

[0016] 所述图像采集单元，用于采集被融入人物的多角度2D影像资料或采集含有RGBD的图像数据，以获得完整、立体的人物图像形象。

[0017] 优选地，所述真实融入模块通过融入真实形象，提供接近真实的场景，包括声音合成单元和图像合成单元，其中，

[0018] 所述声音合成单元利用成熟语音识别系统识别提供的音频得到相对粗糙的发音标注，通过人工校验得到音频对应的精准发音标注，最后将标注好的音频-标注对送入一个由标准音色训练好的语音合成模型，作特定说话人自适应训练，最终得到特定人音色的语音合成模型；

[0019] 所述图像合成单元，根据提供的视频数据提取头部和动作的图像信息，通过深度学习方法将2D平面图像重建为3D立体图像，合成融入虚拟现实场景的虚拟合成人物活动图像。

[0020] 优选地，所述试验数据采集模块的采集设备包括麦克风、腔内外摄像头、手柄或手套、陀螺仪、红外传感器、加速传感器、光电传感器，其中所述麦克风采集用户说话声音数据，腔内外摄像头采集用户面部活动数据，所述手柄或手套采集用户手部活动数据，红外传感器和/或腔内外摄像头配合采集用户眼睛活动数据，红外传感器和/或光电传感器配合采集手部精确位置数据，光电传感器和/或加速度传感器配合采集用户头部数据，加速传感器和/或陀螺仪配合采集用户位置数据。

[0021] 优选地，所述特征追踪模块包括：

[0022] 头部追踪单元，用于获取运动时头部朝向的三维变化；

[0023] 眼动追踪单元，用于监控用户眼睛的运动并及时检测到用户的目光朝向；

[0024] 面部表情追踪单元，用于获取并计算用户在使用中的面部表情数据；

[0025] 动作追踪单元，用于获取用户在试验中的动作和姿态变化数据；

[0026] 语音内容追踪单元，用于追踪用户在试验中说话的内容；

[0027] 语音情感追踪单元，用于获取用户在试验中声音的情感分类；

[0028] 位置追踪单元，用于通过传感器跟踪获取用户位置信息和方向信息的变化。

[0029] 优选地，所述训练模块使用机器学习方法通过专业医疗人员对试验用户进行评价的分数的及用户的试验数据特征进行学习，训练出能够预测用户范式试验的分数、孤独症系数及不同分析维度分数的模型。

[0030] 优选地，所述预测模块针对试验环节中的不同环节按照不同的权重影响一个或多个维度的分数，对用户的多范式分数进行打分。

[0031] 优选地，所述打分维度包括动作语言模仿、感觉行为、刻板行为、语言理解、游戏行为、社交行为、语言表达中的任意一项或几项组合。

[0032] 优选地，所述范式试验包括叫名反应范式试验、非社会性声音刺激行为范式试验、加强依恋安全性范式试验、相互性注意力范式试验、分享行为范式试验、社会性微笑范式试验、行为恰当性范式试验、鹦鹉学舌范式试验、语言指向性范式试验、复述语音范式试验、动作模仿范式试验、声音刺激范式试验、人称代词区分范式试验中的任意一项或几项组合。

[0033] 本发明还提出了一种对用户进行孤独症筛查评估方法，其根据上述的孤独症早期筛查评估系统实现的，包括如下步骤：

[0034] 预备步：知情同意，用户的监护人阅读数据采集及分析的知情同意书，并在签署同意后进行试验；

[0035] 第一步：形象采集，用户对应的被融入人物提供多张、多角度照片或视频片段或RGBD摄像头采集所得的RGBD图像数据，以完整提供图像形象数据；提供长度足够的说话录音片段，以完整提供声音形象数据；

[0036] 第二步：虚拟合成，根据被融入人物提供的声音、图像形象数据，使用语音合成系统合成虚拟合成人物的声音形象，使用深度伪造合成虚拟合成人物的图像形象，并迁移融入到虚拟试验场景中，形成能按照试验标准化流程说话、动作的虚拟合成人物；

[0037] 第三步：进行试验，在虚拟显示设备中，登录用户账户，或者该用户对应的虚拟合成场景，依次进行标准化范式试验，试验的同时，虚拟显示设备上各个书记采集配件，分别采集用户在试验中的多模态数据；

[0038] 第四步：数据处理，根据程序提取不同范式场景中的数据特征，并按照范式规则使用模型分别对不同范式进行打分。

[0039] 本发明与现有技术相比，具有如下优点：

[0040] 1、本发明提出了虚拟显示的设备和场景，使用了先进的显示系统，并融入了真实人物的声音形象和图像形象，迁移了真实场景的人和物，能够很好地提供用户所能适应的接近真实的场景，通过试验真实反馈用户在真实生活中的表现；

[0041] 2、本发明提出了使用头戴虚拟显示装置及相关配件，提供了一种便携、易于普及的试验策略；

[0042] 3、本发明提出了使用与虚拟显示装置一体化的各种传感器和摄像头捕捉用户的活动信息，使得用户数据与场景数据更利于同步分析；

[0043] 4、本发明提出了参考专业孤独症量表，使用标准化的多范式流程对用户进行分析，数据的评价更专业、更加标准、更加统一、更可解释；

[0044] 5、本发明提出了采集试验用户的多模态反应数据，能更全面地反应用户的行为特征。附图说明

[0045] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

[0046] 图1为本发明实施例的系统模块结构图；

[0047] 图2为本发明实施例中语音识别技术流程图；

[0048] 图3为本发明实施例中进行表情识别的3dCNN神经网络结构示意图。

具体实施方式

[0049] 为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

[0050] 本发明提供了一种基于虚拟现实的，将真实人物声音和图像形象融入试验中虚拟现实场景的，对用户试验进行多范式多模态行为数据分析的，孤独症采集筛查评估系统及方法。评估系统所设计人员包括：用户1人(被评估人员)、被融入人物1或多人(提供真实形象以供融入虚拟现实场景)。

[0051] 如图1所示，本发明的实施例提供了一种基于虚拟现实的孤独症早期筛查评估系统，包括：

[0052] 人物形象采集模块，用于采集被融入人物的语音、图像资料；

[0053] 真实融入模块，利用深度学习技术提取人物形象采集模块采集所得的被融入人物的音视频特征，在虚拟现实的场景中模拟被融入人物的虚拟形象，并使其具有被融入人物的外貌和声音，并能使用被融入的外貌作出不同表情和动作，使用被融入声音说出不同语言；

[0054] 试验数据采集模块，用于采集筛查评估试验过程中所得的用户的活动音频、视频和多项运动传感器数据；

[0055] 特征追踪模块，用于追踪用户在筛查评估试验过程中的头部、眼部、手部、动作、位置、声音的特征信息；

[0056] 训练模块，用于根据特征追踪模块追踪分析获得的特征数据，通过机器学习方法，训练打分模型；

[0057] 预测模块，用于通过所述训练模型训练的结果预测用户的孤独症风险系数及试验的项目得分。

[0058] 其中，在本发明中人物形象采集模块包括：

[0059] 声音采集单元，用于采集被融入人物的说话音频数据；

[0060] 图像采集单元，用于采集被融入人物的多角度影像资料，以获得完整、立体的人物图像形象。

[0061] 真实融入模块包括：

[0062] 声音合成单元，利用成熟语音识别系统识别提供的音频得到相对粗糙的发音标注，通过人工校验得到音频对应的精准发音标注，最后将标注好的音频-标注对送入一个由标准音色训练好的语音合成模型，作特定说话人自适应训练，最终得到特定人音色的语音合成模型；

[0063] 图像合成单元，根据提供的视频数据提取头部和动作的图像信息，通过角度加工的方式把2D平面图像做成3D立体图像，合成融入虚拟现实场景的虚拟合成人物活动图像。

[0064] 试验数据采集模块包括内置有麦克风、腔内腔外摄像头、手柄或手套、陀螺仪、红外传感器、加速传感器、光电传感器的虚拟现实互动设备。

[0065] 训练模块使用机器学习方法通过专业医疗人员对试验用户进行评价的分数的及用户的试验数据特征进行学习，训练出能够预测用户范式分数、孤独症系数及不同分析维度分数的模型。

[0066] 预测模块针对试验环节中的不同环节按照不同的权重影响一个或多个维度的分数，对用户的多范式分数进行打分。

[0067] 本本发明的一个具体实施例中，首先获取被融入人物声音形象特征和图像形象特征，然后合成虚拟任务的声音形象和图像形象，并融入到结构化试验的虚拟场景中；接着获取用户使用虚拟显示设备进行完整试验的数据，获得专业医疗人员对试验数据的打分；然后使用机器学习模型对专业医疗人员的打分分数进行学习，得到孤独症风险系数及范式和维度的打分模型；最后可使用已经获得的打分模型，模拟被学习的专业医疗人员，对新试验的用户的孤独症风险系数及范式和维度进行打分。

[0068] 其中，融入图像形象时，利用基于深度学习的自编码器(AutoEncoder)与生成对抗网络(GAN,Generative Adversarial Networks)相关技术，生成指定对象的面部模型及换脸图像。该技术首先利用级联式卷积神经网络(CNN,Convolutional Neural Networks)构建一个共享的深度编码器，以及两个独立的深度解码器，并利用人脸A和人脸B的数据训练所共享的编码器及各自独立的解码器。深度编码器可以用来学习人脸的隐特征(主要包含五官位置，表情等信息)，深度解码器用来学习人脸的外貌特征(肤色，五官形状等)。在换脸阶段，用人脸B的解码器对编码后的人脸A进行复原，即可将给定图像中的人脸A换为人脸B。该技术的优点为仅需要儿童的某一亲属录制一段几分钟长的视频，即可自动生成提前设计好的不同范式的外部刺激，用于VR虚拟人物的外观合成。

[0069] 融入声音形象时，提取该说话人的特征向量，结合所需要的文本特征，仿真声音。具体地，通过频谱去分析说话人，获得说话人特征，以说话人特征与文本特征作为输入，频谱作为输出，利用神经网络加以建模，让网络学习到不同人、不同文本时的发音规范(频谱特征)，将其迁移到未知说话人上，合成的音色也会随迁移变化。

[0070] 本发明的试验流程参考孤独症专业评价量表进行。可参考量表包括并不限于：中国孤独症诊断量表(Chinese Autism Diagnostic Scale,CADS)、美国精神疾病诊断分类手册(Diagnostic and Statistical Manual of Mental Disorders,Fidth Edition,DSM-V)、世界卫生组织国际疾病分类手册(International Classification of Diseases,ICD)、中国精神障碍分类与诊断标准第三版(Chinese Classification of Mental Disease,3rd edition,CCMD-3)、孤独症诊断观察量表(Autism Diagnostic and Observation Scale-2,ADOS-2)、孤独症诊断访谈量表(Autism Diagnostic Interview-Revised,ADI-R)、言语行为评估量表(Verbal Behavior Milestones Assessment and Placement Program，VB-MAPP)、自闭症行为评定量表(Autism Behavior Checklist，ABC)、心理教育评定量表(Psycho-educational Profile，PEP)、修正婴幼儿自闭症检查量表(Modified Checklist for Autism in Toddlers，M-CHAT)、自闭症行为评定量表(Autism Behavior Checklist，ABC)及婴幼儿评估、评监及课程计划系统(Assessment,Evaluation,and Programming System，AEPS)。

[0071] 本实施例中，试验流程和孤独症评价维度均主要基于中国孤独症诊断量表(Chinese Autism Diagnostic Scale,CADS)制定。试验对孤独症的评价分析包括2大类症状：社交/交流障碍和狭隘兴趣/重复刻板行为，7个独立测试维度：动作/语言模仿、感觉行为、刻板行为、语言理解、游戏行为、社交行为、语言表达。

[0072] 本实施例中，试验的标准化流程由多个标准化范式试验组成。

[0073] 所进行的标准化范式试验包括叫名反应范式、非社会性声音刺激行为范式、加强依恋安全性范式、相互性注意力范式试验、分享行为范式试验、社会性微笑范式试验、行为恰当性范式试验、鹦鹉学舌范式试验、语言指向性范式试验、复述语音范式试验、动作模仿范式试验、声音刺激范式试验、人称代词区分范式试验中的任意组合。其中，[0074] a.叫名反应范式

[0075] 用户在进行其他活动时，虚拟合成人物在其后方或侧后方进行无预告的叫名反应测试，跟据用户回应的时间、回头的角度进行打分。

[0076] b.非社会性声音刺激行为范式

[0077] 用户在进行其他活动时，系统在其侧方或后方无预告播放玩具或动物或交通工具等物品的声音和画面，跟据用户转头关注发声物品的时间、转头到角度、关注眼神的角度和时间、使用手物品的时间进行打分。

[0078] c.加强依恋安全性范式

[0079] 用户、虚拟合成人物在某一场景内活动游戏，虚拟合成人物离开用户显示设备中可见画面，并在用户目光没有跟随时配合播放语音向用户告别，稍后返回用户可见画面，跟据用户的目光及身体行为是否跟跟随虚拟合成人物或对虚拟合成人物进行呼唤以及用户迎接虚拟合成人物返回时的行为和全程情绪变化进行打分。

[0080] d.相互性注意力范式试验

[0081] 虚拟合成人物和用户一起活动，虚拟合成人物视线离开用户，转头看向场景内较远处某一件其他物品，并在转头的同时说出用户的名字和看向的物品，根据用户是否看向同一物品及反应时间进行打分。

[0082] e.分享行为范式试验

[0083] 用户从场景中获得一项玩具或其他物品，虚拟合成人物表达对该物品的需求意愿，根据用户是否将被需求物品分享给虚拟合成任务进行打分。

[0084] f.社会性微笑范式试验

[0085] 虚拟合成任务与用户面对面微笑，赞美，打招呼，躲猫猫等行为，根据用户在不同逗笑刺激下是否用笑容回应进行打分。

[0086] g.行为恰当性范式试验

[0087] 虚拟场景中为用户提供不同玩具，根据用户是否正确使用玩具进行打分。

[0088] h.鹦鹉学舌范式试验

[0089] 虚拟合成人物与用户交流，虚拟合成人物询问用户开放性问题等较难问题，根据用户的回答及其他反应进行打分。

[0090] i.语言指向性范式试验

[0091] 虚拟合成人物与用户交流，询问虚拟场景中的树、月亮、猫等物体或人物在何处，根据用户的回答是否与被要求指向的物体相符合打分。

[0092] j.复述语音范式试验

[0093] 虚拟合成人物向用户提出重复语音的要求，虚拟合成人物示范说出数字序列或其他不同难度的词句，根据用户对不用难度的词句的重复结果进行打分。

[0094] k.动作模仿范式试验

[0095] 虚拟合成人物向用户提出动作模仿的要求，虚拟合成人物示范做出图舌头或和虚拟玩具互动等其他不同难度的动作，根据用户对不用难度的动作的模仿结果进行打分。

[0096] l.声音刺激范式试验

[0097] 虚拟场景中产生敲门声、婴儿哭声、警车声的行为，根据用户是否去寻找声源并配合产生与声音相符合的情绪进行打分。

[0098] m.人称代词区分范式试验

[0099] 虚拟合成人物向用户提问用户姓名，提问身体部件，以及一起做游戏后提问游戏角色是谁或玩具所属人等问题，根据用户是否能正确回答匹配的你、我、他代词进行打分。

[0100] 本发明试验中使用打分的机器学习方法可使用并不限于逻辑回归算法、支持向量机算法等监督学习算法。

[0101] 在本发明的一个具体实施例中，在试验过程中的数据采集，均来自虚拟场景设备上的一体化采集配件。采集配件包括，并不限于：麦克风、腔内眼部图像采集摄像头、腔外嘴部图像采集摄像头、光电传感器、加速度传感器、红外传感手套。

[0102] 用户在试验过程中，需要根据音视频数据，提取不同特征进行分析。被提取的特征包括：头部朝向、眼动、面部表情、动作、语音内容、语音情感、位置。具体地，特征追踪模块包括：

[0103] 头部追踪单元，用于获取运动时头部朝向的三维变化。具体地，可通过内置追踪(Inside-out Tracking)或外置追踪(Outside-in Tracking)实现，虚拟现实头戴式显示设备上的光电传感器感应激光以检测头的精确位置，或通过计算加速度传感器数据实现头部跟踪。

[0104] 眼动追踪单元，眼部摄像头头显内部的红外线传感器监控用户眼睛的运动以便于拥有眼球追踪技术的虚拟现实设备能及时检测到用户的目光朝向，把红外线照射向人脸，利用虹膜的反射特性使得相机能够看清楚眼球虹膜情况，利用光学几何特定估计人眼的注视方向。

[0105] 面部表情追踪单元，用于获取并计算用户在使用中的面部表情数据。具体地，通过头戴式VR设备上的三个内置摄像头，分别近距离拍摄左右眼及面部的高清图像。基于深度神经网络，分通道对三个摄像头采集到的图像进行特征提取，最后对多通道提取到的特征进行融合以输出表情识别结果。

[0106] 本实施例中，使用3D CNN网络对表情进行识别，输入层为连续的7 帧的图像，具体网络结构如图3所示。

[0107] 动作追踪单元，用于获取用户在试验中的动作和姿态变化数据。具体地，可通过手柄或红外传感器来跟踪手部动作，可通过手持控制器上的光电传感器感应激光以检测手的精确位置。

[0108] 位置追踪单元，用于通过传感器跟踪获取用户位置信息和方向信息的变化。

[0109] 语音情感追踪单元，用于获取用户在试验中声音的情感分类。

[0110] 语音内容追踪单元，用于追踪用户在试验中说话的内容。

[0111] 具体地，语音内容追踪单元，使用语音识别技术，将获得的语音信号处理成以时间为轴的声学特征向量(Feature Vector)的序列后，通过贝叶斯准则找到对应于观察到的声学特征向量序列的最可能的文本序列。将待识别的语音信号经过前端处理、声学特征提取，经过由声学模型隐马尔科夫模型(HMM)、词典Lexicon和语言模型(languagemodel,LM)组合而成的网络解码器，最终输出最有可能的一个或者几个文本序列，从中选择最优或者前几个作为识别结果。流程如图2所示。

[0112] 具体地，本实施例中，利用本系统对用户进行孤独症筛查评估的流程如下：

[0113] 预备步，知情同意

[0114] 用户(被评估的儿童)的监护人阅读数据采集及分析的知情同意书，并在签署同意后方可进行试验；

[0115] 第一步，形象采集

[0116] 用户对应的被融入人物(优选地，为被评估儿童的父母或与其共同生活两周以上的人)提供多张、多角度照片或视频片段或RGBD摄像头采集所得的RGBD数据图，以完整提供图像形象数据；提供长度足够的说话录音片段，以完整提供声音形象数据。

[0117] 第二步，虚拟合成

[0118] 根据被融入人物提供的声音、图像形象数据，使用语音合成系统tacotron合成虚拟合成人物的声音形象，使用深度伪造deepfake合成虚拟合成人物的图像形象，并迁移融入到虚拟试验场景中，形成能按照试验标准化流程说话、动作的虚拟合成人物。

[0119] 第三步，进行试验

[0120] 在虚拟显示设备中，登录用户账户，或者该用户对应的虚拟合成场景，依次进行标准化范式试验。试验的同时，虚拟显示设备上各个书记采集配件，分别采集用户在试验中的多模态数据。

[0121] 第四步，数据处理

[0122] 根据程序，提取不同范式场景中的数据特征，并按照范式规则使用模型分别对不同范式进行打分：

[0123] a.叫名反应范式

[0124] 根据场景程序，记录虚拟合成人物叫名的时间点叫名地点的角度使用头部活动传感器，检测后用户转头的时间转头速度和角度

[0125] b.非社会性声音刺激行为范式

[0126] 根据场景程序，记录播放玩具或动物或交通工具等物品的声音和画面的时间发声地点的角度使用头部活动传感器，检测之后用户转头的时间转头速度和角度使用手部活动传感器，检测用户手部动作对应虚拟场景中的虚拟动作的指物速度和角度

[0127] c.加强依恋安全性范式

[0128] 根据场景程序，记录虚拟合成人物开始移动并企图离开显示屏的时间检测并标记用户目光追随虚拟合成人物的转头速度转头速度和情绪标签；当虚拟合成人物完全离开显示画面且用户的目光没有跟随时，虚拟合成人物向用户告别，记录用户的情绪标签，转头速度转头角度和目光角度记录虚拟任务离开画面后，再次返回画面并语音呼唤的时间检测并标记用户音节虚拟合成人物的语音内容，情绪标签，转头速度转头角度和目光角度

[0129] d.相互性注意力范式试验

[0130] 根据场景程序，记录虚拟合成人物提示注意力转移的时间记录吸引注意力物品在场景中的角度记录用户转头看向吸引注意力物品的开始转头时间转头速度转头角度和目光角度

[0131] e.分享行为范式试验

[0132] 根据场景程序，标记虚拟合成人物对物品发出需求意愿的时间记录用户在后的反应时间情绪变化，语音内容，以及互动动作及程序选项；

[0133] f.社会性微笑范式试验

[0134] 根据场景程序，标记虚拟合成人物对用户微笑的时间对用户打招呼的时间对用户夸赞的时间躲猫猫后突然出现的时间记录用户对虚拟合成人物微笑刺激后开始微笑的时间和微笑结束的时间记录用户对虚拟合成人物打招呼刺激后开始微笑的时间和微笑结束的时间记录用户对虚拟合成人物夸赞刺激后开始微笑的时间和微笑结束的时间记录用户对虚拟合成人物躲猫猫刺激后开始微笑的时间和微笑结束的时间

[0135] g.行为恰当性范式试验

[0136] 根据场景程序，记录用户通过手柄对玩具的使用方式；

[0137] h.鹦鹉学舌范式试验

[0138] 根据场景程序，记录用户对鹦鹉学社问题的回答；

[0139] i.语言指向性范式试验

[0140] 根据场景程序，标记虚拟合成人物提出指向性问题的时间记录用户开始移动头部或手部的时间记录场景中被指向物品的角度记录用户头部移动的角度记录用户眼神的角度记录用户的手部动作的角度

[0141] j.复述语音范式试验

[0142] 根据场景程序，标记虚拟合成人物说出需要重复语音要求的时间记录虚拟合成人物要求重复的语音内容；记录用户开始作答的时间记录用户作答的语音内容；

[0143] k.动作模仿范式试验

[0144] 根据场景程序，标记虚拟合成人物说出重复需求的时间记录虚拟合成人物要求重复的动作内容；记录用户开始有动作的时间记录用户的动作；

[0145] l.声音刺激范式试验

[0146] 根据场景程序，标记虚拟场景中出现声音刺激的时间记录用户听见声音刺激前1秒的情绪；记录用户听见声音刺激后产生情绪变化的时间记录用户变化后的情绪；

[0147] m.人称代词区分范式试验

[0148] 根据场景程序，标记虚拟合成人物询问代词问题的内容；记录用户回答的代词；

[0149] 第五步，模型训练

[0150] 根据提取的不同范式场景中的数据特征，将专业医疗人员对试验过程的评分作为响应变量，使用本例中选择的支持向量机算法训练模型。

[0151] 其中，每个范式选取的特征分别为：

[0152] a.叫名反应范式

[0153] 跟据叫名至第一次检测到用户转头的叫名次数n1、用户反应时间转头速度角度偏差对用户的本范式反应进行打分。

[0154] b.非社会性声音刺激行为范式

[0155] 根据用户反应时间转头速度转头角度偏差指物速度指物角度偏差对用户的本范式反应进行打分。

[0156] c.加强依恋安全性范式

[0157] 根据用户用户的各类反应时间和速度，以及语音和情绪的变化，对用户的试验反应进行打分。

[0158] d.相互性注意力范式试验

[0159] 根据用户反应的转头反应时间转头速度转头角度和目光角度对用户的试验表现进行打分。

[0160] e.分享行为范式试验

[0161] 根据用户的反应时间情绪变化、语音信息、互动动作及程序选项进行打分。

[0162] f.社会性微笑范式试验

[0163] 根据用户对不同微笑刺激的反应时间和持续时间进行本范式试验的打分。

[0164] g.行为恰当性范式试验

[0165] 根据对比用户的使用范式是否属于正确使用方式的数据库，对本范式试验进行打分。

[0166] h.鹦鹉学舌范式试验

[0167] 根据用户的回答内容是否正确或合理，对用户的反应进行打分。

[0168] i.语言指向性范式试验

[0169] 根据用户的反应时间头部移动角度与被询问物品的角度差手部移动角度与被询问物品的角度差头部角度与目光角度的角度差对用户的表现
进行打分。

[0170] j.复述语音范式试验

[0171] 根据用户作答的反应时间以及作答内容和提问内容的差别，对用户的表现进行打分。

[0172] k.动作模仿范式试验

[0173] 根据用户的反应时间以及动作变化，对用户的试验表现进行打分。

[0174] l.声音刺激范式试验

[0175] 根据用户的反应时间和变化后的情绪，对用户在试验中的表现进行打分。

[0176] m.人称代词区分范式试验

[0177] 根据用户回答的代词是否符合语境进行打分。

[0178] 第六步，预测结果

[0179] 对于获得的新用户数据特征，带入训练好的机器学习的模型，评价其各个范式得分、孤独症风险系数及7个维度的分数。并将所有数据存入到该用户的系统账号中。

[0180] 以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

标题	发布/更新时间	阅读量
基于虚拟现实的孤独症早期筛查评估系统及方法	2020-05-08	174
一种基于VR技术的记忆提升检测方法及系统	2020-05-08	330
提取用户画像的方法、装置、计算机设备和存储介质	2020-05-08	265
数据分析方法、设备及存储介质	2020-05-08	55
一种面向电网电磁环境的网络舆情及风险信息监测系统、电子设备	2020-05-12	696
一种文本情感测量方法和装置	2020-05-11	210
与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法	2020-05-08	422
一种利用上下文和方面记忆信息的情感分类方法	2020-05-08	107
一种基于隐喻主题挖掘的景区评价知识库构建方法	2020-05-11	369
一种基于情感识别的老人陪护机器人子系统	2020-05-08	589

基于虚拟现实的孤独症早期筛查评估系统及方法

基于虚拟现实的孤独症早期筛查评估系统及方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：