首页 / 专利库 / 化妆品和香水 / 覆盖 / 利用运动捕捉的虚拟手的增强现实学习系统和方法

利用运动捕捉的虚拟手的增强现实学习系统和方法

阅读:419发布:2021-06-06

专利汇可以提供利用运动捕捉的虚拟手的增强现实学习系统和方法专利检索,专利查询,专利分析的服务。并且本公开针对扩展现实(XR)学习系统,该系统使用XR设备向用户提供指导者或专家的动手视觉指导。XR学习系统包括运动捕捉系统,用于记录执行任务的专家手;以及处理器,用于从记录中生成专家手的(逐骨)表示。处理器然后可以基于该表示来生成专家手的模型。该模型可以针对特定用户进行 修改 和校准。一旦用户 请求 内容,处理器就可以将记录传输到用户的XR系统,然后XR系统可以显示 覆盖 在用户手上的专家手的模型,以帮助视觉地指导用户执行任务。,下面是利用运动捕捉的虚拟手的增强现实学习系统和方法专利的具体信息内容。

1.教导用户使用扩展现实(XR)设备执行手动任务的方法,该方法包括:
当专家手正在执行手动任务时,用相机记录专家手的一系列图像;
利用由可操作地耦合到相机的处理器实现的深度学习网络(DLN),基于由专家手的一系列图像来生成专家手的表示;
基于专家手的表示来生成专家手的模型;以及
使用所述XR设备,在用户执行手动任务时,呈现覆盖在用户手上的专家手的模型,以指导用户执行手动任务。
2.根据权利要求1所述的方法,其中,记录所述专家手的一系列图像包括:在执行所述手动任务时,对由所述专家手操作的器械进行成像。
3.根据权利要求2所述的方法,其中,所述器械包括乐器,并且所述手动任务包括演奏所述乐器。
4.根据权利要求3所述的方法,其中,呈现所述专家手的模型包括:与呈现演奏所述乐器的所述专家手的模型同步地播放由所述专家演奏的乐器的音频记录。
5.根据权利要求3所述的方法,还包括:
在乐器上记录专家手的一系列图像的同时记录专家在乐器上演奏的音乐。
6.根据权利要求2所述的方法,其中,所述器械包括手动工具,并且所述手动任务包括安装加热、通空调(HVAC)系统部件、管道或电子设备中的至少一个。
7.根据权利要求2所述的方法,其中,所述器械包括运动器材,并且所述手动任务包括进行运动。
8.根据权利要求1所述的方法,其中记录所述专家手的一系列图像包括获取所述专家手的至少一个校准图像。
9.根据权利要求1所述的方法,其中,记录所述专家手的一系列图像包括:获取与所述手动任务相关联的基准标记的至少一个图像。
10.根据权利要求1所述的方法,其中:
记录专家手的一系列图像包括以第一速率获取一系列图像;以及
呈现专家手的模型包括以不同于第一帧速率的第二帧速率来呈现专家手的模型。
11.根据权利要求1所述的方法,其中,生成所述专家手的表示包括:将所述一系列图像实时地提供给所述DLN。
12.根据权利要求11所述的方法,其中,实时地执行生成所述专家手的模型和呈现所述专家手的模型。
13.根据权利要求1所述的方法,其中,生成所述专家手的表示包括:输出所述专家手的逐骨表示,所述逐骨表示提供所述专家手的远端指骨和远端指骨间运动。
14.根据权利要求1所述的方法,其中,生成所述专家手的表示包括:在至少二维的空间中输出所述专家手的平移和旋转信息。
15.根据权利要求1所述的方法,其中,生成所述专家手的模型包括:基于所述用户手的大小、所述用户手的形状或用户手的位置中的至少一项来使所述专家手的模型适应于所述用户。
16.根据权利要求1所述的方法,其中呈现所述专家手的所述模型包括跨多个处理器分布呈现过程。
17.根据权利要求16所述的方法,其中,所述多个处理器包括可操作地布置在服务器中的第一处理器和可操作地布置在所述XR设备中的第二处理器。
18.根据权利要求1所述的方法,其中呈现所述专家手的模型包括将所述专家手的模型与所述用户手、基准标记或由用户在执行所述手动任务时操纵的器械中的至少一个对准。
19.根据权利要求1所述的方法,其中,呈现所述专家手的模型包括:当用户操纵所述器械以执行所述手动任务时,突出显示所述器械上的特征。
20.根据权利要求1所述的方法,其中呈现所述专家手的模型包括以可变速度呈现所述专家手的模型。
21.用于教导用户执行手动任务的系统,该系统包括:
至少一个处理器,用于使用深度学习网络(DLN)基于执行手动任务的专家手的一系列图像来生成专家手的表示,并基于该专家手的表示来生成专家手的模型;以及扩展现实(XR)设备,可操作地耦合到处理器,以在用户执行手动任务时呈现覆盖在用户手上的专家手的模型,从而指导用户执行手动任务。
22.根据权利要求21所述的系统,其中,所述手动任务包括演奏乐器,并且其中,所述XR设备包括扬声器,所述扬声器在所述XR设备呈现演奏乐器的所述专家手的模型的同时,播放由所述专家演奏的所述乐器的音频记录。
23.根据权利要求21所述的系统,其中,所述至少一个处理器被配置为输出所述专家手的逐骨表示,所述逐骨表示提供所述专家手的远端指骨和远端指骨间运动。
24.根据权利要求21所述的系统,其中,所述至少一个处理器被配置为在至少二维的空间中输出所述专家手的平移和旋转信息。
25.根据权利要求21所述的系统,其中,所述至少一个处理器被配置为基于所述用户手的尺寸、所述用户手的形状或用户手的位置中的至少一项来使所述专家手的模型适应所述用户。
26.根据权利要求21所述的系统,其中,所述XR设备被配置为实时呈现所述专家手的模型。
27.根据权利要求21所述的系统,其中,所述至少一个处理器被配置为呈现所述专家手的模型的第一部分,并且所述XR设备被配置为呈现所述专家手的模型的第二部分。
28.根据权利要求21所述的系统,其中,所述XR设备被配置为以可变速度呈现所述专家手的模型。
29.根据权利要求21所述的系统,其中,所述XR设备被配置为将所述专家手的模型对准所述用户手、基准标记或由用户在执行所述手动任务时操纵的器械中的至少一个。
30.根据权利要求21所述的系统,其中,所述XR设备被配置为在用户操纵所述器械以执行手动任务时突出显示器械上的特征。
31.根据权利要求21所述的系统,还包括:
相机,可操作地耦合到所述至少一个处理器,以在专家手执行手动任务时记录专家手的一系列图像。
32.根据权利要求31所述的系统,其中,所述相机被配置为以第一帧速率记录所述专家手的一系列图像,并且所述XR设备被配置为以不同于所述第一帧速率的第二帧速率来呈现所述专家手的模型。
33.根据权利要求31所述的系统,其中,所述相机被配置为获取所述专家手的至少一个校准图像。
34.根据权利要求31所述的系统,其中,所述相机被配置为获取与所述手动任务相关联的基准标记的至少一个图像。
35.根据权利要求31所述的系统,其中,所述相机被配置为记录所述专家手的一系列图像,并且将所述一系列图像传输到所述至少一个处理器,以实时地生成所述专家手的表示。
36.根据权利要求31所述的系统,其中,所述手动任务包括演奏乐器,并且还包括:
麦克风,可操作地耦合到至少一个处理器,以在相机记录演奏该乐器的专家手的一系列图像的同时记录专家在乐器上演奏的音乐。

说明书全文

利用运动捕捉的虚拟手的增强现实学习系统和方法

[0001] 相关申请的交叉引用
[0002] 本申请根据35U.S.C.第119(e)条要求2017年4月19日提交的题为“AUGMENTED REALITY LEARNING SYSTEM WITH MOTION CAPTURED INSTRUCTORVIRTUAL HANDS THAT A STUDENT SEES THROUGH GOGGLES OR HEADSET OR AS VIDEO OVERLAID ON STUDENT′S HANDS AND WORKING SPACE IN REAL TIME”的美国申请号62/487,317的优先权,该申请通过引用方式将其全部内容并入本文。

背景技术

[0003] 学习新技能的传统过程依赖于指导者在课堂上为学生提供动手的视觉指导和重复。但是,对于许多人来说,由于时间、金钱、灵活性不足以及与优质教师的接触有限,上课是不切实际的。结果,通常通过使用印刷材料或视频记录来学习新技能。此类常规学习材料的使用最终可以提高对特定技能的熟练程度,同时提供成本有效且方便的替代性教学课程。但是,由于缺乏传统上由指导者提供的指导,以这种方式学习新技能的过程可能会更慢且效率更低。
[0004] 发明概述
[0005] 本技术的实施方案包括用于使用扩展现实(XR)设备教导用户执行手动任务的方法和系统。示例方法包括在专家手执行手动任务时,用相机记录专家(指导者)的手、手指、手臂、腿、脚、脚趾和/或其他身体部位的一系列图像。由可操作地耦合到相机的处理器实现的诸如人工神经网络(ANN)之类的深度学习网络(DLN)基于专家手的一系列图像生成专家手的表示。例如,由DLN生成的表示可能包括有关关节位置或专家手的其他特征的概率。该表示用于生成专家手的模型。该模型可以包括重建信息,例如肤色、身体组织(纹理)等,以使3D动画更加逼真。当用户正在执行手动任务时,可操作地耦合到处理器的XR设备呈现覆盖在用户手上的专家手的模型,从而指导用户执行手动任务。
[0006] 在某些情况下,记录专家手的一系列图像包括对在执行手动任务时由专家手操纵的器械进行成像。器械可以是乐器,在这种情况下,手动任务包括演奏乐器。在这些情况下,呈现专家手的模型包括与专家手演奏乐器的模型同步地播放专家演奏的乐器的音频记录。同样,麦克或其他设备可以记录专家在乐器上演奏的音乐,而相机则记录演奏该乐器的专家手的一系列图像。在其他情况下,该器械是手动工具,手动任务包括安装加热、通风空调(HVAC)系统部件、管道或电气设备。在其他情况下,该器械是运动器材(例如,高尔夫球杆、网球拍或棒球棍),手动任务包括进行运动。
[0007] 记录专家手的一系列图像包括可以包括:获取专家手的至少一个校准图像和/或与手动任务相关的基准标记的至少一个图像。记录专家手的一系列图像可以包括以第一速率获取该一系列图像,在这种情况下,呈现专家手的模型可以包括以不同于第一帧速率的第二帧速率来呈现专家手的模型(即,第二帧速率可以比第一帧速率快或慢)。
[0008] 如果需要,相机可以将一系列图像实时提供给DLN。这使处理器能够生成专家手的模型,而XR设备可以实时呈现专家手的模型。
[0009] 在生成专家手的表示时,DLN可以输出专家手的逐骨表示。这种逐骨表示提供了专家手的远端指骨和远端指骨间运动。DLN还可以在至少二维的空间中输出专家手的平移和旋转信息。在生成专家手的模型时,处理器可以基于用户手的大小、用户手的形状,用户手的位置或其组合来使专家手的模型适应于用户。
[0010] 可以通过在多个处理器之间分布呈现过程来执行呈现专家手的模型。这些处理器可以包括可操作地布置在服务器中的第一处理器和可操作地布置在XR设备中的第二处理器。处理器可以通过将专家手的模型与用户手、基准标记、在执行手动任务时由用户操纵的器械或它们的组合对准来呈现专家手的模型。当用户操纵器械以执行手动任务时,它们可能会突出显示乐器上的特征(例如,琴键或吉他弦)。并且它们可以以可变的速度呈现专家手的模型。
[0011] 用于教导用户执行手动任务的示例系统包括可操作地耦合到至少一个处理器的XR设备。在操作中,处理器使用深度学习网络(DLN)基于执行手动任务的专家手的一系列图像来生成专家手的表示。它还基于专家手的表示来生成专家手的模型。并且,XR设备在用户执行手动任务时呈现覆盖在用户手上的专家手的模型,以指导用户执行手动任务。
[0012] 前述概念和下面更详细讨论的附加概念的所有组合(假设这样的概念并不相互矛盾)是本文公开的发明主题的一部分。特别地,出现在本公开的结尾处的要求保护的主题的所有组合是本文公开的发明主题的一部分。还可以出现在通过引用并入的任何公开中的本文使用的术语应被赋予与本文公开的特定概念最一致的含义。附图说明
[0013] 技术人员将理解,附图主要是出于说明性目的,并且无意于限制本文所述的发明主题的范围。附图不一定按比例绘制;在一些情况下,本文中公开的发明主题的各个方面可以在附图中被夸大或放大示出,以促进对不同特征的理解。在附图中,相似的参考字符通常指代相似的特征(例如,功能上相似和/或结构上相似的元件)。
[0014] 图1示出了XR学习系统的示例性应用,其包括教导用户演奏乐器,安装机械或电子部件,或进行运动。
[0015] 图2A是示例性XR学习系统的框图,该XR学习系统包括用于记录专家手的运动捕捉系统,用于从记录生成模型的处理器,以及用于显示专家手的记录的XR设备。
[0016] 图2B示出了图2A的示例性运动捕捉系统记录专家执行手动任务。
[0017] 图2C示出了图2A的示例性XR设备,显示了在用户执行手动任务时专家手的记录。
[0018] 图2D示出了运动捕捉系统、处理器和XR系统之间共享的数据路径和数据类型的流程图
[0019] 图3是示出了使用XR学习系统来显示使用专家手的记录在用户的XR设备上执行任务的专家手的呈现模型的方法的流程图。
[0020] 图4A是示出专家手的示例性记录的图像,其中注释示出了专家手的识别。
[0021] 图4B是示出专家手弹吉他的示例的图像。还显示了用于校准专家手相对于吉他的位置的基准标记。
[0022] 图5A是示出了专家手的逐骨表示的图像,包括远端指骨和指骨间关节。
[0023] 图5B是示出基于专家手的记录来生成专家手的表示的方法的流程图。
[0024] 图6A是示出基于生成的专家手的表示来生成专家手的模型的方法的流程图。
[0025] 图6B是示出了应用于专家手的模型以适应用户手的过程的图示。
[0026] 图7A示出了用于手模型的分布式呈现的系统架构。
[0027] 图7B示出了在XR设备和远程处理器(例如,基于的服务器)之间的呈现过程的分布。
[0028] 发明详述
[0029] 本公开针对扩展现实(XR)学习系统,该系统使用XR设备向用户提供传统上由专家提供的动手视觉指导。如本领域技术人员所理解的,XR指的是由计算机技术和可穿戴设备生成的真实和虚拟组合环境以及人机交互。它包括增强现实(AR)、增强虚拟化(AV)、虚拟现实(VR)以及其中插入的区域。
[0030] XR学习系统提供了在专家执行特定任务时记录和显示专家手的能。任务可以包括演奏乐器,使用手动工具组装用于加热、通风和空调(HVAC)系统的机械或电气部件,或进行运动。因此,使用XR可以为用户提供与上课类似的更具交互性和吸引力的学习体验,同时仍保留与常规自学材料相关的灵活性和成本节省。
[0031] 图1概述了XR学习系统的工作方式。首先,XR学习系统获取执行任务的指导者手101的视频影像,例如操纵如图1左侧所示的一段螺纹管103。XR学习系统还可以对扫描配准点105或其他视觉参考进行成像,包括视频影像中的管道103或其他可识别的特征。该扫描配准点105可以固定在工作表面或其他静态物体上,也可以固定在指导者手上(例如,在指导者所戴的手套上)或由指导者操纵的物体(例如,管道103或扳手)上。
[0032] 如图1的右侧所示,XR学习系统投影覆盖在学生的手111上的指导者手101的模型121。XR学习系统可以实时地投影该模型(即,当其获取指导者手101的视频图像时)或从指导者手103的记录投影该模型。它可以使用学生的手111的图像、学生操纵的螺纹管113的截面的图像和/或另一个扫描配准点115将模型121与学生手111对齐。模型121移动以演示学生手111应该如何移动,例如顺时针旋转以将螺纹管113连接到弯头配件117。通过遵循模型
121,学生可以学习技能或如何完成手头的任务。
[0033] AR学习系统硬件
[0034] 在图2A中示出了示例性XR学习系统200。该系统200包括子系统,以促进专家生成内容以及为用户显示内容。XR学习系统200可以包括运动捕捉系统210,以记录执行任务的专家手。然后,耦合到运动捕捉系统210的处理器220可以接收并处理该记录,以产生执行任务的专家手的(逐骨骼)表示。基于生成的表示,处理器220然后可以生成专家手的3D模型。可以为特定用户修改和校准此3D模型。一旦用户请求内容,处理器220就可以将记录传输到用户的XR系统230,该XR系统然后可以显示覆盖在用户手上的专家手的3D模型,以帮助视觉地指导用户执行任务。
[0035] 运动捕捉系统
[0036] 在图2B中示出了运动捕捉系统210的更详细的图示。运动捕捉系统210包括相机211,以用于记录专家手的视频。相机211可以定位在专家附近的任何位置,只要专家手和用于执行任务的器械(例如乐器、工具、运动器材等)在相机211的视场内并且专家手没有被遮挡即可。例如,如果专家正在弹吉他,则可以将相机211放置在专家上方或从专家的头向下看以查看吉他弦和专家手。
[0037] 相机211是能够以足够的分辨率对人的手进行成像以区分各个手指的任何类型的视频记录设备,包括RGB相机、IR相机或毫米波扫描仪。不同的任务可能需要保证使用手套遮盖专家手,例如焊接园艺,击剑,击打棒球等,在这种情况下,可以对手套进行标记,以使它们从背景更好地突出,以便于处理器220更易于处理。相机211也可以是运动感测相机,例如Microsoft Kinect,或者是能够将专家手解析在3D空间中的3D扫描仪,这可以有助于生成专家手的3D表示。相机211还可以在朝向专家取向的不同位置处包括一个或多个视频记录设备,以便从多个视记录专家手上的3D空间信息。此外,相机211可以以可变的帧速率(例如每秒60帧(fps))记录视频,以确保可以向用户实时显示视频。为了记录快速运动或为了便于慢动作回放,相机211可以以较高的帧速率(例如,90fps,100fps,110fps,120fps等)记录视频。并且,如果专家手停止或缓慢移动以节省存储器和电力,则相机211可以较低的帧速率(例如30fps)记录视频。
[0038] 一旦相机211完成记录,就可以将记录的数据最初存储在与相机211耦合的本地存储介质上,例如硬盘驱动器或其他存储器,以确保视频文件被保存。为了进行后续处理,可以将记录的数据经由数据传输部件212传输到处理器220。一旦验证了将记录的数据传输到处理器220,就可以删除本地存储介质上的记录的数据。数据传输部件212可以是任何类型的数据传输设备,包括用于无线连接的天线(例如Wi-Fi或蓝牙),或用于有线连接的端口(例如以太网电缆)。此外,数据可以被传输到经由相同的本地网络或物理连接连接到运动捕捉系统210的处理器220,例如计算机或服务器。一旦将记录的数据传输到本地计算机或服务器,则可以将记录的数据上载到异地计算机或服务器以进行进一步处理。对于具有足够带宽的数据传输系统,所记录的数据也可以实时地传输到处理器220。
[0039] 运动捕捉系统210还可以包括辅助记录设备,以增强相机211收集的视频记录。例如,如果专家正在演奏乐器,则可以包括麦克风213或MIDI接口214以记录与记录一起播放的音乐。麦克风213还可用于记录口头指令以支持记录,从而为用户提供更多信息以帮助学习新技能。在另一个示例中,位置跟踪设备(例如GPS接收器)可用于监视专家在地图环境中的位置,同时执行一项任务以向用户提供监视其安全区域位置的能力,例如在某个工厂中。其他辅助设备可以包括用于特定技能的任何电气或机械设备,包括可操作地耦合到运动捕捉系统210的温度传感器电压表、压力传感器、测力计或加速度计。辅助设备也可以使用已知的用于同步记录多个并行数据流的任何方法(例如GPS触发外部时钟),以与相机211同步的方式使用,例如将记录的音乐同步到视频。
[0040] 用于处理的计算系统
[0041] 处理器220可以包括经由网络或物理连接彼此耦合的一个或多个计算机或服务器。计算机或服务器不需要位于单个位置。例如,处理器220可包括连接到运动捕捉系统210的网络上的计算机、连接到XR系统230的网络上的计算机以及远程服务器,它们通过因特网彼此连接。为了促进处理器220中的每台计算机或服务器的通信,可以利用结合了为XR学习系统200开发的应用编程接口(API)的软件应用。可以进一步为管理XR学习系统200的管理员、记录内容的专家或播放内容来控制对XR学习系统200的不同级别的控制的用户定制软件应用,例如,可能只允许用户请求记录,而专家可以上载记录或管理现有记录。为了支持内容数据库,处理器220还可以包括存储服务器,以存储来自运动捕捉系统210的记录,基于这些记录的专家手的表示以及从这些表示生成的任何3D模型。
[0042] AR系统
[0043] XR系统230的更详细的图示在图2C中示出。XR学习系统200可以与任何类型的XR设备231一起使用,包括Microsoft Hololens,谷歌眼镜(Google Glass)或定制设计的XR头戴式机。XR设备231还可以包括相机和加速度计,以将XR设备231校准到用户手、基准标记(例如,图1中的扫描配准标记)或用于执行任务以跟踪用户和用户手的位置和取向的任何器械。XR设备231可以进一步包括板载处理器,该板载处理器可以是CPU或GPU,以在向用户显示专家手时控制XR设备231并协助呈现过程。
[0044] XR设备231可以与处理器220交换数据,例如用于与专家手的3D模型或执行任务的专家手的3D模型校准的用户手的视频。为了促进数据传输,XR系统230还可以包括数据传输部件232,该数据传输部件可以是任何类型的数据传输设备,包括用于无线连接的天线(例如Wi-Fi或蓝牙)或用于有线连接的端口(例如以太网电缆)。可以在第二次传输到位于异地的另一台计算机或服务器之前,通过相同的本地网络或物理连接将数据传输到连接到运动捕捉系统210的处理器220,例如计算机或服务器。对于具有足够带宽的数据传输系统,呈现的专家手的3D模型也可以实时地传输到XR系统230以进行显示。
[0045] XR系统230还可以包括辅助设备以增强专家课程以改善用户体验。例如,当演奏乐器时,可以包括扬声器233以便当用户跟随专家手时播放专家记录的音乐。扬声器233还可以用于在执行任务时向用户提供口头指令。XR系统230可以将音乐或指令与专家手的3D模型的运动同步。如果专家在吉他或钢琴上弹奏特定的和弦,则XR系统230可以显示专家手的相应运动并且在扬声器233上播放相应的声音。类似地,如果专家用扳手拧紧螺栓,则XR系统可能会发出用扳手拧紧螺栓的口头指令。
[0046] 音频和视觉呈现的同步可以以几种方式工作。例如,XR系统可以基于随相机镜头记录的MIDI信号生成声音,并使用MIDI信号和相机镜头中的时间戳测量对齐。可替代地,诸如神经网络或支持向量机的分类器可以基于3D模型表示中的专家的四肢的位置来检测声音,例如,如果专家手指敲击钢琴琴键,猛拉吉他弦等。分类器还可以对随影像收集的音频数据进行操作。在这种情况下,音频数据被预处理(例如,傅立叶变换,高/低通滤波,降噪等),并且分类器基于视觉和音频数据将声音与手/手指运动相关联。使用分类器时,无论是在视频和音频数据上还是仅在视频数据上,随着分类器的训练变得越来越好,记录的内容可以重新同步很多次。
[0047] 其他辅助设备可以包括用于特定技能的任何电气或机械设备,包括可操作地耦合到XR系统230的温度传感器、电压表、压力传感器、测力计或加速度计。辅助设备在运动捕捉系统210中记录的数据和由XR系统230中的辅助设备测量的数据可以进一步显示在XR设备231上,以向用户提供附加信息以帮助学习新技能。
[0048] 数据流路径汇总
[0049] 图2D示出了XR学习系统200中的数据流。它示出了由运动捕捉系统210、处理器220和XR系统230发送和接收的各种类型的数据,以及由处理器220和/或关联的设备执行的模或程序。由处理器220执行的手位置估计器242根据由运动捕捉系统210(图2B)获取的视频数据来估计专家手的位置以及专家手中的关节和骨头的3D位置。手位置估计器242可以被实现为基于机器学习的更复杂的检测器和分类器集合。一种方法是通过人工神经网络检测2D图片中的手,找到图像中手的边界框。接下来,手位置估计器242使用更复杂的深度学习网络(长期短记忆或LTSM)搜索检测到的手的关节近似值。当手位置估计器242已经估计了关节时,它使用另一个深度学习网络来估计手的3D模型。来自其他相机(包括一个或多个深度相机(RGB-D))的影像可能会使估算更加有效。
[0050] 由处理器220执行的格式转换器单元244将手位置估计器242的输出转换为适合由处理器220执行的课程创建器246使用的格式。它将来自手位置估计器的3D关节位置转换成Biovision Hierarchy(BVH)运动捕捉动画中,该动画要求每个帧每个关节的关节的层次和位置。BVH是由Biovision创建的用于运动捕捉动画的开放格式。其他格式也是可能的。
[0051] 课程创建器246使用来自格式转换器单元244的格式化数据来生成课程,该课程包括用于专家手的模型的XR呈现指令(以及有关播放音乐或提供其他辅助提示的指令),用于教导学生如何执行手动任务。可以考虑将课程创建器246执行两个功能:(1)自动课程创建,这使得专家可以通过自动检测节奏,将课程划分为各个部分以及消除噪音和错误来轻松地记录新课程;以及(2)手动创建课程,使专家(或任何其他用户)可以正确地组装课程,并以其他声音、部分、说明、配音和记录更多尝试来扩展课程。可以针对存储、分发和呈现来优化课程。
[0052] 一旦创建,该课程就可以存储在云中并与任何注册的客户端共享。在图2D中,该基于云的存储被表示为耦合到处理器220的存储器或数据库248,存储该课程以供XR系统230检索(图2C)。学生使用可以通过XR系统230访问的课程管理器250选择课程。响应于用户的选择,XR系统230呈现覆盖在用户手的模型上的专家手的模型(图2D中的252),如上文和下文描述的。
[0053] AR学习系统方法论
[0054] 如上所述,XR学习系统200包括子系统,该子系统使得能够使用来自执行任务的专家的记录与在执行同一任务时显示覆盖用户手的专家手的XR系统230的记录的组合,通过动手视觉指导向用户教导新技能。如图3所示,以这种方式使用XR学习系统200向用户教导新技能的方法可以包括以下步骤:(1)在专家执行任务时记录专家的一只手或两只手的视频影像300;(2)根据记录的分析生成专家手的表示310;(3)基于表示生成专家手的模型320;以及(4)使用用户的XR设备呈现专家手的模型330。下面提供每个步骤的进一步描述。
[0055] 记录专家手
[0056] 如上所述,XR学习系统200包括运动捕捉系统210,用于记录执行任务的专家手。运动捕捉系统210可以包括被定位和定向为使得其视场与专家手和用于执行任务的器械重叠的相机211。为了更准确地识别和跟踪专家手,运动捕捉系统210还可以记录一系列校准图像。校准图像可以包括相对于相机211以一种或多种已知配置定位和定向的专家手的图像,例如,专家手散开的俯视图,如图4A所示,或用于执行任务的任何器械,例如,显示了琴弦的吉他的前视图。如果影像包含对齐标签或其他基准标记的图像,则对齐标签可用于推断相机的位置、物品的位置以及3D空间中心的位置。可以通过相机流并识别物体和空间来估计相机的绝对位置。
[0057] 校准图像还可包括专家手和器械的组合,其中器械本身提供用于校准专家手的参考,例如,放置在吉他正面的专家手。校准图像还可以针对肤色、环境光线、器械形状或器械尺寸的变化进行校准,以更准确地跟踪专家手。此外,校准图像还可用于定义专家手的相对大小和形状,尤其是相对于可用于执行任务的任何器械而言。
[0058] 通过使用扫描配准点或放置在与任务有关的专家手401(例如,手套,临时纹身或贴纸上)或器械(在此为吉他403)上的基准标记405a和405b(统称为基准标记405),可以进一步提高准确性,如图4B所示。基准标记405可以是与运动捕捉系统210和XR系统230的视场中的其他对象形成对比的容易识别的图案,诸如亮点、黑白棋盘格或QR码图案。多个基准标记405可用于提供更高的保真度以识别具有多个自由度的对象,例如,可将标记或点407放置在专家手指的每个指骨上,如图4B所示。基准标记可以被绘制,印刷,并入到套筒中,例如,用于器械的手套或套筒,或者将基准标记放置在手或器械上的任何其他手段。
[0059] 运动捕捉系统210还可以被优化以便以足够的质量来记录专家手的运动以用于随后的处理步骤中的识别,同时减小或最小化图像分辨率和帧速率以减少处理时间和数据传输时间。如上所述,运动捕捉系统210可以被配置为以可变的帧速率进行记录。例如,对于涉及快速手指和手部运动的任务,较高的帧速率可能更可取,以减少每个记录帧中的运动模糊。但是,较高的帧速率也会导致较大的文件大小,从而导致更长的处理时间和数据传输时间。为了确定最佳帧速率,运动捕捉系统210还可以用于在专家执行任务时记录一系列校准图像。然后可以分析校准图像以确定是否可以足够确定地识别专家手或器械,例如将运动模糊最小化或减小到可接受的平。可以针对多个帧速率重复此过程,直到确定满足确定性阈值的所需帧速率为止。可以以类似的方式优化图像分辨率。
[0060] 为了更快速地校准运动捕捉系统210,可以在联网或物理连接到运动捕捉系统210的计算机(例如处理器220)上本地执行校准图像的分析。但是,如果数据传输速率足够,分析可以改为在远程计算机或服务器上非现场执行,然后中继回运动捕捉系统210。
[0061] 生成专家手的表示
[0062] 一旦XR学习系统200记录了专家手执行任务,它就可以基于该记录生成专家手的表示500。该表示可以包括关于专家手的逐骨位置和取向的信息或估计。如图5A所示,该表示500可以被呈现为示出每只手内的远侧指骨502和指骨间关节504。当专家手移动时,该表示将跟踪3D空间中每个骨骼随时间变化的平移和旋转运动。因此,专家手的表示用作生成要显示给用户的专家手模型的基础
[0063] 可以使用几种方法中的任何一种来完成从记录生成表示的过程,这些方法包括具有斑点统计或点分布模型的轮廓提取,具有模型拟合的概率图像测量,以及深度学习网络(DLN)。用于快速和准确分析的最佳方法还可以根据运动捕捉系统210捕获的记录数据的类型而有所不同,例如,来自单个相机的2D图像,多个相机捕获的来自不同视角的2D图像,3D扫描数据,以此类推。
[0064] 一种方法是使用卷积姿势机(CPM)(一种DLN)来生成专家手的逐骨表示。CPM是一系列卷积神经网络,每个卷积神经网络都具有多层和节点,它们提供了预测的迭代改进,例如,通过迭代地使用先前网络的输出预测作为随后的网络的输入约束,逐步确定手指上指骨的位置,直到在期望的确定性范围内预测出指骨的位置为止。
[0065] 为了使用CPM提取执行任务的专家的表示,训练CPM以识别专家手。这可以通过生成标记的训练数据来实现,其中辅助装置主动测量和跟踪专家手的表示,然后将其与运动捕捉系统210收集的记录相关联。例如,专家可以佩戴一副带有一组位置传感器的手套,该位置传感器可以在执行任务时跟踪专家手中每个骨骼的位置。训练数据可用于校准CPM,直到它正确预测出所测量的表示形式为止。为了确保CPM对于记录的变化是鲁棒的,可以针对人为施加的变化生成标记的训练数据,例如,使用不同颜色的手套,选择具有不同大小的手的专家,在运动捕捉系统210的记录期间改变照明条件等等。标记的训练数据也可以随时间累积,特别是在将辅助装置分发给主动将内容上传到XR学习系统200的特定专家的情况下。此外,可以针对不同的任务训练不同的CPM,以提高根据每个任务跟踪专家手的准确性。
[0066] 一旦生成了专家手的表示,就可以将其存储以供以后在耦合到处理器220的存储设备(例如存储服务器或数据库)上检索。除了记录之外,存储表示还可以减少生成和呈现专家手模型所需的时间。这可以帮助更快地提供用户内容。
[0067] 如图5B所示,可以将以特定分辨率记录的图像(对应于视频中一系列图像中的特定帧)用作CPM的输入,CPM输出专家手中每个骨骼的3D平移和旋转数据。为了提高收敛性并更准确地识别专家手,可以通过更改对比度,增加图像清晰度,减少噪声等在将输入图像应用于CPM之前来调整输入图像。
[0068] 更具体地,图5B示出了过程550,该过程550用于使用处理器实现的转换器来进行手位置估计、格式转换和呈现,该转换器从原始视频镜头创建3D手模型动画。它接收每帧NM像素的RGB相机流作为输入(552)。它实现了分类器,例如神经网络,该分类器检测图像中可见的身体部位的关节(554)。转换器创建例如仅手或甚至整个人体的身体部位的骨架模型(556)。在此阶段,转换器可能具有整个人体骨骼的详细3D位置,即视频输入每一帧上每个骨骼关节的六个自由度(DOF)。转换器使用该骨架模型来应用模型、纹理(皮肤、颜色)、细节、照明等来呈现3D手(或一般情况下的人体)(558)。然后,它以适合于通过XR设备显示的格式(例如,.fbx(用于XR通用图形引擎的3D模型),.unityasset(为Unity型引擎优化的3D模型),或.bvh(用于最简单的数据流))导出呈现。
[0069] 如果需要,可以通过应用来自过去帧的信息以改善检测和分类时间以及正确性来优化转换器。可以通过记录专家手,然后将记录发送到云端进行检测和识别来实现。它还可以实现为基于实时相机流实时估计专家身体或身体部位的3D位置。通过使用来自库的动画的估算值进行插值,可以使用较大的手部运动库来改善运动预测。较大的库对于损坏或质量较低的输入数据特别有用。
[0070] 可以通过在服务器上呈现某些特征以及在XR设备上呈现其他特征以减少对XR设备的潜在有限GPU功能的需求来优化呈现。在云(服务器)中进行预呈现可以提高3D图形质量。同样,压缩数据以从服务器传输到XR设备可以减少等待时间并提高呈现性能。
[0071] 生成专家手的模型
[0072] 基于所生成的专家手的表示,处理器220生成专家手的模型以在用户的XR设备231上显示。图6A的一个过程600将使用用于手模型的标准模板作为起点,例如,包括手掌、手腕和每个手指的所有指骨的3D模型。模板手模型还可以包括耦合到模型的预定义装备,以促进手模型的动画制作。过程600包括估计专家手(以及手腕和其他身体部位)中的关节的位置(602),对专家手中的骨骼进行分类(604),呈现专家手和/或其他身体部位(606),并生成手形模型(608)。然后可以调整手模型的大小和形状,以匹配生成的专家手的表示。一旦匹配,就可以将调整后的手模型耦合到表示上,并根据执行任务的专家手的表示进行动画处理。可以根据用户的偏好来修改手模型的外观。例如,可以将手的真实感纹理应用于手模型。当在用户的XR设备231上进行呈现时,也可以应用人工照明来照亮手模型,以便为用户提供更多的细节和深度。
[0073] 在许多情况下,专家手的大小、形状和位置可能与用户手不同。此外,专家的器械或工具的尺寸和形状也可能与用户的器械或工具不同。处理器可以根据专家手的关节之间的平均距离以及专家手、工具和影像中其他对象的位置来估计专家手和工具的大小。
[0074] 为了以使用户能够跟随专家的方式在用户的XR设备231上显示专家手,可以使所生成的模型适合用户。一种方法是重新缩放所生成的专家手的表示,以更好地匹配用户手,而不会损害记录中每一帧的专家技术,如图6B所示。在修改所生成的表示之后,然后可以根据上述方法来生成模型。
[0075] 图6B示出了由XR设备231上或云中的处理器实施的另一过程650,该过程用于重新缩放和重新塑形所生成的表示以匹配用户手。过程650以专家手的3D手模型652开始。它识别用户手(654),并例如通过调整骨的形状和大小、皮肤颜色、皮肤特征等(662)来使用它来使3D手模型人性化(656)。它从XR设备上的相机捕获的光电传感器或相机图像估算光照条件(658)。然后,它相应地呈现手(660)。
[0076] 为了确保将正确的技术传达给用户,可以进一步修改表示,以使得每个指骨的相对运动适合于用户手,例如,专家手完全缠绕在美式橄榄球上并且用户手仅部分地缠绕在足球上。例如,物理建模可用于修改用户手的配置,以使任务中执行的特定步骤的结果类似于专家。如上所述,可以通过使用辅助设备来进一步增强用户与专家之间的比较。在另一个实施例中,来自执行同一任务的不同专家的一组表示可以充分涵盖用户的可变性,从而可以选择与用户手最匹配的特定表示。
[0077] 为了使所生成的表示适应于用户,可以由相机在用户的XR设备231或单独的相机中记录单个或一组校准图像。校准图像可以包括相对于XR设备231以已知配置定位和取向的用户手的图像,例如,展开并放置在吉他的前侧的专家手的俯视图。根据这些校准图像,可以使用CPM处理用户手的表示。一旦生成了用户手的表示,就可以根据上述方法根据用户手的表示来修改专家手的表示。然后可以相应地生成专家手的模型。基准标记还可用于更准确地识别用户手。
[0078] 一旦专家手的模型被生成并且可能被修改以适应用户手,该模型的动画就可以被存储在耦合到处理器220的存储设备(例如存储服务器)上。这可以帮助用户快速检索内容,尤其是在用户想要重放记录的情况下。
[0079] 呈现专家手的模型
[0080] XR系统230呈现模型,使得用户可以在用户执行任务时观察并跟随专家手。可以使用处理器(例如CPU或GPU)的组合来实现呈现和显示专家手的模型的过程,该处理器接收生成的专家手的模型,并与XR设备的显示器一起执行呈现过程。用户可以通过经由XR设备231或耦合到XR设备231的远程计算机发送请求以传输专家手的动画模型来控制何时开始呈现。一旦接收到请求,就可以根据上述方法来生成和修改模型,或者可以将先前的模型简单地传输到XR系统230。
[0081] 为了正确地显示专家手,使用可由XR系统230查看的参照物(例如用户手、基准标记或用于执行任务的器械)将专家手的模型与用户对齐。例如,XR系统230可以记录校准图像,该校准图像包括参照物,例如钢琴上的基准标记或建筑物中的现有管道组件。一旦识别出参照物,就可以在相对于固定参照物的适当位置和取向上显示专家手的模型,例如,在固定钢琴的琴键略上方显示专家手。如果XR系统230包括加速度计和位置跟踪设备,则XR系统230可以监视用户相对于参照物的位置和取向,并在用户移动时相应地调整专家手的呈现。
[0082] 在另一实施例中,XR系统230可以使用由XR系统230实时收集的图像来跟踪器械的位置。XR系统230基于记录的图像来确定器械的位置和取向。在没有参照物可用并且器械很可能在用户的视场内(例如,用户正在弹吉他)的情况下,该方法可能是有用的。
[0083] XR手的呈现可以根据用户的偏好进行修改-它可以呈现为机器人手、人的手、动物的爪子等,并且可以具有任何颜色和任何形状。一种方法是尽可能接近地模仿用户手,并在应该移动用户手的前一刻,用呈现的运动来引导用户。另一种方法是创建叠加在用户手上的呈现的类似手套的体验。呈现的透明度也是偏好问题。可以根据用户的偏好、照明条件等进行更改,并重新校准以达到所需的结果。
[0084] 除了显示专家手之外,XR系统230还可以显示辅助信息以帮助用户执行任务。例如,XR系统230可基于由XR系统230记录的图像突出显示器械的特定区域,例如,突出显示用户吉他上的吉他和弦,如图4B所示。由辅助设备测量的数据(例如,焊接物体的温度或用锤子击打钉子的力)可以显示给用户,并与专家记录的相应数据进行比较。XR系统230还可以存储信息以帮助用户跟踪他们在整个任务中的进度,例如,突出显示要在具有特定颜色的机械组件上紧固的多个固件,并且一旦紧固就改变每个紧固件的颜色。
[0085] XR系统230还可以以可变速度呈现专家手的模型。例如,XR系统230可以实时呈现专家手的模型。在另一个实施例中,可以以较低的速度来呈现专家手,以帮助用户跟踪专家在执行复杂任务(例如,快速连续地演奏多个吉他和弦)时的手和手指运动。在以较低速度呈现模型的情况下,如果记录的帧速率不够高(例如,大于每秒60帧),则呈现的模型的运动对用户可能看起来不平滑。为了提供专家手的更平滑呈现,可以使用插值法根据专家手的运动速率和每帧之间的时间步长将帧添加到专家手的表示中。
[0086] 以高帧速率实时呈现专家手的模型也可能涉及大量的计算处理。在XR系统230上的机载处理器不足以在这种条件下呈现模型的情况下,呈现过程也可以分布在XR系统230上的机载处理器和远程计算机、服务器或智能手机之间。如图7A和7B所示,如果呈现过程被分布在多个设备之间,则可以使用其他方法来适当地同步设备,以确保专家手的呈现不会被XR设备231与远程计算机或服务器之间的任何延迟所干扰。
[0087] 图7A示出了用于分布式呈现的通用系统架构700。由服务器托管的应用程序编程接口(API)提供用于通过系统700访问数据,上传数据,下载数据,删除数据等一组现有服务的定义。云分类器742检测专家手。云呈现引擎744呈现专家手或其他身体部位。云分类器检测专家手。并且可以被实现为具有用户登录的网站的云学习管理系统(LMS)748,例如利用社交媒体简档等来跟踪技能发展。(云分类器742、云呈现引擎744和云LMS 748可以使用本领域技术人员容易理解的一台或多台联网计算机来实现。)
[0088] XR设备根据来自云LMS 748的课程,使用图7B所示的过程750向用户显示呈现的手。该过程涉及估计现实的特征(例如,用户手和其他对象的位置)(752),估计用户手的特征(754),使用云呈现引擎744呈现专家手的位图(756),并将位图应用于XR设备的专家手的本地呈现。利用云呈现引擎744来呈现专家手的位图减少了XR设备上的计算负荷,减少了等待时间并改善了用户的体验。
[0089] 结论
[0090] 尽管已经在本文中描述和示出了各种发明实施方案,但是本领域普通技术人员将容易想到用于执行功能和/或获得结果和/或所描述的一个或多个优点的多种其他手段和/或结构。在本文中,这些变型和/或修改中的每一个都被认为在本文所述的发明实施方案的范围内。更一般地,本领域技术人员将容易地理解,本文描述的所有参数、尺寸、材料和构造均是示例性的,并且实际参数、尺寸、材料和/或构造将取决于使用本发明的教导的一个或多个特定应用。仅通过常规实验,本领域技术人员将认识到或能够确定本文所述的具体发明实施方案的许多等同方案。因此,应当理解,前述实施方式仅以示例的方式给出,并且在所附权利要求及其等同物的范围内,可以以不同于具体描述和要求保护的方式来实践本发明的实施方式。本公开的发明实施方案涉及本文所述的每个单独的特征、系统、制品、材料、套件和/或方法。另外,如果这样的特征、系统、物品、材料、套件和/或方法不是相互矛盾的,则两个或更多个这样的特征、系统、物品、材料、套件和/或方法的任意组合包括在本公开的发明范围内。
[0091] 此外,各种发明构思可以体现为一种或多种方法,已经提供了一个示例。作为该方法的一部分执行的动作可以以任何合适的方式排序。因此,可以构造实施方案,其中以与所示出的顺序不同的顺序来执行动作,即使在说明性实施方案中被示为顺序动作,其也可以包括同时执行一些动作。
[0092] 如本文所定义和使用的所有定义应被理解为优先于字典定义、通过引用并入的文档中的定义和/或所定义术语的普通含义。
[0093] 如在说明书和权利要求书中使用的词语“一”和“一个”,除非明确指出相反,否则应理解为表示“至少一个”。
[0094] 本文在说明书和权利要求书中使用的短语“和/或”应理解为是指如此结合的元件中的“一个或两个”,即,在某些情况下结合地存在的元件和在其他情况下分离地存在的元件。用“和/或”列出的多个元素应以相同的方式解释,即,如此连接的元素中的“一个或多个”。除了由“和/或”子句明确标识的元素之外,可以可选地存在其他元素,无论与那些具体标识的元素相关还是无关。因此,作为非限制性示例,在与一个开放式语言(例如“包含”)结合使用时,对“A和/或B”的引用在一个实施方案中可以仅指A(可选地包括除B以外的元素);在另一个实施方案中,仅指B(可选地包括除A以外的元素);在又一个实施方案中,指A和B(可选地包括其他元素);等等。
[0095] 如本文在说明书和权利要求书中所使用的,“或”应被理解为具有与以上定义的“和/或”相同的含义。例如,当将列表中的项目分开时,“或”或“和/或”应解释为包含性的,即包含多个元素或元素列表中的至少一个,但也包括不止一个,以及任选的其他未列出的项目。仅明确指出相反的术语,例如“仅一个”或“恰好一个”,或当在权利要求书中使用时,“由……组成”将指包括多个元素或元素列表中的恰好一个元素。通常,本文所用的术语“或”仅应在排他性的术语(例如“任一个”,“其中一个”,“仅其中的一个”或“恰好其中的一个”)之前时解释为指示排他性替代(即,“一个或另一个而非两者”)。当在权利要求书中使用时,“基本上由...组成”应具有专利法领域中所使用的普通含义。
[0096] 如本文在说明书和权利要求书中所使用的,在提及一个或多个元素的列表时,短语“至少一个”应理解为是指从该元素列表中的任何一个或多个元素中选择的至少一个元素,但不一定包括元素列表中具体列出的每个元素中的至少一个,并且不排除元素列表中元素的任何组合。该定义还允许除了短语“至少一个”所指代的元素列表中特别识别的元件之外的元件可以可选地存在,无论与那些特别识别的元件有关还是无关。因此,作为非限制性示例,“A和B中的至少一个”(或等效地,“A或B中的至少一个”,或等效地“A和/或B中的至少一个”)在一个实施方案中可以指代存在至少一个A,任选地包括一个以上的A,不存在B(并且任选地包括除B以外的元素);在另一个实施方案中,指代至少一个B,任选地包括一个以上的B,不存在A(并且任选地包括除A以外的元素);在又一个实施方案中,指代至少一个A,可选地包括一个以上的A,以及至少一个B,可选地包括一个以上的B(以及可选地包括其他元素);等等。
[0097] 在权利要求书以及以上说明书中,所有过渡性短语,例如“包含”,“包括”,“携带”,“具有”,“含油”,“涉及”,“持有”,“组成”等等应理解为开放式的,即意指包括但不限于。如美国专利局专利审查程序手册第2111.03节所述,仅过渡短语“由……组成”和“基本上由……构成”应分别是封闭的或半封闭的过渡短语。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈