一种基于深度学习的人体动作捕捉与虚拟动画生成方法专利检索-虚拟现实显示技术专利检索查询-专利查询网

一种基于 深度学习的人体 动作捕捉与虚拟动画生成方法

阅读：1043发布：2020-07-06

专利汇可以提供一种基于深度学习的人体动作捕捉与虚拟动画生成方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于深度学习的人体动作捕捉与虚拟动画生成方法，包含以下步骤：A、采集演员动作并转换成视频流信号输入；B、姿态检测网络预训练；C、提取人体姿态序列；D、姿态条件生成对抗网络预训练；E、将姿态序列输入姿态条件生成对抗网络，输出与人体动作同步的动画视频。本发明有效的减少了动画制作的成本，提升了普通用户的可操作性，也提高了动画的产出效率，可作为一种媒体创建工具来进行特效演示、Demo的实时生成以及动画和电影的快速制作，也可作为短视频应用中的交互式滤镜，虚拟现实体感游戏的辅助等，从而有利于动作捕捉技术大范围落地商用与推广。，下面是一种基于深度学习的人体动作捕捉与虚拟动画生成方法专利的具体信息内容。

权利要求

1.一种基于深度学习的人体动作捕捉与虚拟动画生成方法，其特征在于，包含以下步骤：
A、采集演员动作并转换成视频流信号输入；
B、姿态检测网络预训练；
C、提取人体姿态序列；
D、姿态条件生成对抗网络预训练；
E、将姿态序列输入姿态条件生成对抗网络，输出与人体动作同步的动画视频；将姿态检测网络P得到的人体姿态序列输入训练好的生成网络G输出自动生成的虚拟形象图片，按照一定帧率连接即可得到与人体动作同步的动画视频。
2.根据权利要求1所述的一种基于深度学习的人体动作捕捉与虚拟动画生成方法，其特征在于，步骤A具体是：采用光学传感设备采集得到的演员运动视频数据。
3.根据权利要求2所述的一种基于深度学习的人体动作捕捉与虚拟动画生成方法，其特征在于，光学传感设备包括相机和手机等。
4.根据权利要求1所述的一种基于深度学习的人体动作捕捉与虚拟动画生成方法，其特征在于，步骤B具体是：采用深度卷积神经网络作为姿态检测网络，将人体动作捕捉过程拆解为单张图像的姿态估计问题，定位人体骨骼关键点位置，并在图像中连结各关键点描绘出人体的形状，用于姿态检测的深度卷积神经网络分为多个阶段进行：其中第一个阶段利用VGG-19网络对输入图片进行处理，得到初步的关键点响应图，然后将它与另一路网络提取的特征融合作为下一阶段的输入，后续阶段与第一阶段步骤一致，通过多重阶段不断扩大卷积网络感受野，得到关键点在各个尺度下的响应图，历经六个阶段后最后网络会输出关键点总体响应图，并找到预测的关键点位置，连接各关键点位置即得到人体姿态信息，搭建好姿态检测网络后，首先需要利用大量标记好的人体图像数据进行预先的训练，利用MSCOCO数据集进行姿态检测模型的预训练，整个网络的损失函数为
其中T代表不同的阶段，N代表图中的人，J代表关键点，P
代表热力图，通过反向传播过程不断迭代优化网络权重参数降低损失函数，最终得到训练好的网络。
5.根据权利要求4所述的一种基于深度学习的人体动作捕捉与虚拟动画生成方法，其特征在于，姿态检测算法的步骤如下：一、在不同的尺度下，将待检测图像输入深度卷积神经网络，计算各个关键点的响应图；二、将每个关键点在各个尺度下的响应图累加起来，得到关键点总体响应图；三、在各关键点的总体响应图上，找出相应最大的点，确定关键点位置；四、连结各关键点，得到人体姿态信息。
6.根据权利要求1所述的一种基于深度学习的人体动作捕捉与虚拟动画生成方法，其特征在于，步骤C具体是：首先将输入视频逐帧处理为图片，对每一张图像都输入训练好的姿态检测网络进行姿态提取，得到一组连续的人体动作姿态序列。
7.根据权利要求1所述的一种基于深度学习的人体动作捕捉与虚拟动画生成方法，其特征在于，步骤D具体是：首先制作虚拟形象标准全姿态数据库，然后设计姿态条件生成对抗网络，并利用虚拟形象标准全姿态数据库对网络进行对抗性预训练。
8.根据权利要求7所述的一种基于深度学习的人体动作捕捉与虚拟动画生成方法，其特征在于，虚拟形象标准全姿态数据库是包含各种姿态的虚拟形象全身图片集，可根据用户的喜好个性化定制虚拟形象。
9.根据权利要求7所述的一种基于深度学习的人体动作捕捉与虚拟动画生成方法，其特征在于，姿态条件生成对抗网络由三大模块构成：分别是步骤B中的姿态检测网络P，生成网络G，以及判别网络D，其中，姿态检测网络P与步骤B中结构功能相同，主要完成对多种动作姿态的虚拟形象进行姿态提取，获得姿态图形，生成网络G由深度卷积网络构成，主要功能是完成给定姿态下虚拟形象的自动创建与渲染；我们采用了跳跃连接的编解码架构，即每一层反卷积层的输入都是前一层的输出加上该层镜像卷积层的输出，从而保证编码网络的信息在解码时可以被重新记忆，使得生成的图像尽可能保留原图像的细节信息，网络总共包含9层，采用了5层卷积层作为编码器，4层反卷积层作为解码器，判别网络D由6层卷积神经网络构成，目的是为了进行生成模型的对抗性训练。
10.根据权利要求9所述的一种基于深度学习的人体动作捕捉与虚拟动画生成方法，其特征在于，对抗性预训练的具体过程是：1.从个性化定制的虚拟形象标准全姿态数据库中使用预训练的姿态检测网络P获得对应的姿态图形，2.使用生成网络G对获得的姿态图形进行自动渲染，将自动渲染的图像称为“虚假图像”，3.分别将原虚拟形象数据集中的真实图像、自动渲染的虚假图像与姿态图形组成两组图像数据对，分别记为真实图像姿态图形、虚假图像姿态图形，采用数据对的形式进行网络训练是要建立姿态图形与自动渲染的虚拟形象之间一一对应的映射关系，4.将两组图像数据对传入判别网络，判别网络在训练过程中要优化的目标是使得自身能够准确地鉴别数据对的真伪，即对真实图像姿态图形数据对的结果判定为真，而对虚假图像姿态图形数据对的结果判定为假，5.在整个训练过程中，生成网络将不断优化调整自身网络权重参数，使得自动渲染生成的“虚假图像”越来越逼近真实图像，它的优化目标是使得判别网络对虚假图像姿态图形数据对的判定结果为真，此时可理解为判别网络已经无法正确区分真实图像与虚假图像，也就是由生成网络渲染的“虚假图像”已经与真实图像接近，达到了以假乱真的地步，由于生成网络与判别网络两者的优化目标是相互矛盾的，这两个网络始终处于一种博弈对抗的状态，这种训练过程称为对抗性训练，两个网络在相互斗争中自身的性能都得到了提高，当判别网络对“真实图像对”与“虚假图像对”判别正确的概率都为50％时，渲染生成的图像与真实图像达到了难以区分的地步，模型训练过程结束，此时称网络达到了纳什均衡状态，姿态条件生成对抗网络的整体损失函数为：其中第一部分是条件GAN的损失函
数，第二部分是模型的渲染损失函数，λ为超参数，用来平衡两种损失的相对大小，采用Adam优化算法，生成网络G与判别网络D交替训练的方式进行对抗式训练，得到训练好的生成网络G。

说明书全文

一种基于深度学习的人体 动作捕捉与虚拟动画生成方法

技术领域

[0001] 本发明涉及计算机技术领域，具体是一种基于深度学习的人体动作捕捉与虚拟动画生成方法。

背景技术

[0002] 现在的数字电影及动漫的制作过程中大都采用了动作捕捉(Motion capture)技术，传统方法通过穿着在演员身上的传感器或标记点记录捕捉真实动作信息，然后将这些动作还原并渲染至相应的虚拟形象身上，得到对应的虚拟动画效果。

[0003] 但是这种技术还存在相应的缺点：一方面是专业的动作捕捉系统价格昂贵，不适于大范围落地商用，而且对表演场地的光照、反射情况有严格的要求，装置定标过程也较为繁琐。这无疑制约了它在体感交互式游戏上的应用，也阻碍了普通用户的体验。另外，虽然它可以捕捉实时运动，但还需要人工干预进行后期处理(标记点的识别、跟踪、重建)才能将这些数据应用到动画角色模型上去，后期的动画渲染工作量较大。

发明内容

[0004] 本发明的目的在于提供一种基于深度学习的人体动作捕捉与虚拟动画生成方法，以解决所述背景技术中提出的问题。

[0005] 为实现所述目的，本发明提供如下技术方案：

[0006] 一种基于深度学习的人体动作捕捉与虚拟动画生成方法，包含以下步骤：

[0007] A、采集演员动作并转换成视频流信号输入；

[0008] B、姿态检测网络预训练；

[0009] C、提取人体姿态序列；

[0010] D、姿态条件生成对抗网络预训练；

[0011] E、将姿态序列输入姿态条件生成对抗网络，输出与人体动作同步的动画视频；将姿态检测网络P得到的人体姿态序列输入训练好的生成网络G输出自动生成的虚拟形象图片，按照一定帧率连接即可得到与人体动作同步的动画视频。

[0012] 作为本发明的进一步技术方案：步骤A具体是：采用光学传感设备采集得到的演员运动视频数据。

[0013] 作为本发明的进一步技术方案：光学传感设备包括相机和手机。

[0014] 作为本发明的进一步技术方案：步骤B具体是：采用深度卷积神经网络作为姿态检测网络，将人体动作捕捉过程拆解为单张图像的姿态估计问题，定位人体骨骼关键点位置，并在图像中连结各关键点描绘出人体的形状。用于姿态检测的深度卷积神经网络分为多个阶段进行：其中第一个阶段利用VGG-19网络对输入图片进行处理，得到初步的关键点响应图，然后将它与另一路网络提取的特征融合作为下一阶段的输入，后续阶段与第一阶段步骤一致，通过多重阶段不断扩大卷积网络感受野，得到关键点在各个尺度下的响应图，历经六个阶段后最后网络会输出关键点总体响应图，并找到预测的关键点位置，连接各关键点位置即得到人体姿态信息，搭建好姿态检测网络后，首先需要利用大量标记好的人体图像数据进行预先的训练，利用MSCOCO数据集进行姿态检测模型的预训练，整个网络的损失函数为其中T代表不同的阶段，N代表图中的人，J代表关键点，P代表热力图，通过反向传播过程不断迭代优化网络权重参数降低损失函数，最终得到训练好的网络。

[0015] 作为本发明的进一步技术方案：姿态检测算法的步骤如下：一、在不同的尺度下，将待检测图像输入深度卷积神经网络，计算各个关键点的响应图；二、将每个关键点在各个尺度下的响应图累加起来，得到关键点总体响应图；三、在各关键点的总体响应图上，找出相应最大的点，确定关键点位置；四、连结各关键点，得到人体姿态信息。

[0016] 作为本发明的进一步技术方案：步骤C具体是：首先将输入视频逐帧处理为图片，对每一张图像都输入训练好的姿态检测网络进行姿态提取，得到一组连续的人体动作姿态序列。

[0017] 作为本发明的进一步技术方案：步骤D具体是：首先制作虚拟形象标准全姿态数据库，然后设计姿态条件生成对抗网络，并利用虚拟形象标准全姿态数据库对网络进行对抗性预训练。

[0018] 作为本发明的进一步技术方案：虚拟形象标准全姿态数据库是包含各种姿态的虚拟形象全身图片集，可根据用户的喜好个性化定制虚拟形象。

[0019] 作为本发明的进一步技术方案：姿态条件生成对抗网络由三大模块构成：分别是步骤B中的姿态检测网络P，生成网络G，以及判别网络D。其中，姿态检测网络P与步骤B中结构功能相同，主要完成对多种动作姿态的虚拟形象进行姿态提取，获得姿态图形。生成网络G由深度卷积网络构成，主要功能是完成给定姿态下虚拟形象的自动创建与渲染；我们采用了跳跃连接的编解码架构，即每一层反卷积层的输入都是前一层的输出加上该层镜像卷积层的输出，从而保证编码网络的信息在解码时可以被重新记忆，使得生成的图像尽可能保留原图像的细节信息。网络总共包含9层，采用了5层卷积层作为编码器，4层反卷积层作为解码器。判别网络D由6层卷积神经网络构成，目的是为了进行生成模型的对抗性训练。

[0020] 作为本发明的进一步技术方案：对抗性训练的具体过程是：1.从个性化定制的虚拟形象标准全姿态数据库中使用预训练的姿态检测网络P获得对应的姿态图形。2.使用生成网络G对获得的姿态图形进行自动渲染，将自动渲染的图像称为“虚假图像”。3.分别将原虚拟形象数据集中的真实图像、自动渲染的虚假图像与姿态图形组成两组图像数据对。分别记为(真实图像姿态图形)、(虚假图像姿态图形)。采用数据对的形式进行网络训练是要建立姿态图形与自动渲染的虚拟形象之间一一对应的映射关系。4.将两组图像数据对传入判别网络，判别网络在训练过程中要优化的目标是使得自身能够准确地鉴别数据对的真伪，即对(真实图像姿态图形)数据对的结果判定为真，而对(虚假图像姿态图形)数据对的结果判定为假。5.在整个训练过程中，生成网络将不断优化调整自身网络权重参数，使得自动渲染生成的“虚假图像”越来越逼近真实图像，它的优化目标是使得判别网络对(虚假图像姿态图形)数据对的判定结果为真，此时可理解为判别网络已经无法正确区分真实图像与虚假图像，也就是由生成网络渲染的“虚假图像”已经与真实图像非常接近，达到了以假乱真的地步。由于生成网络与判别网络两者的优化目标是相互矛盾的，这两个网络始终处于一种博弈对抗的状态，这种训练过程称为对抗性训练，两个网络在相互斗争中自身的性能都得到了提高，当判别网络对“真实图像对”与“虚假图像对”判别正确的概率都为50％时，渲染生成的图像与真实图像达到了难以区分的地步，模型训练过程结束，此时称网络达到了纳什均衡状态。姿态条件生成对抗网络的整体损失函数为：

[0021]

[0022] 其中第一部分是条件GAN的损失函数：

[0023] LCGAN(G,D)＝Ex,y[logD(x,y)]+Ex[log(1-D(x,G(x)))]

[0024] 其中x代表提取的姿态图形，作为给定的条件信息输入，y代表真实虚拟形象数据库中的数据，G(x)代表由生成网络根据给定姿态自动渲染的虚拟形象。

[0025] 生成器G需要尽可能的欺骗判别器D，所以需要最大化渲染模型的判别概率D(x,G(x))，使其趋近于1，也就是最小化log(1-D(x,G(x)))，即不断尝试最小化上面的目标函数。而判别器D的目标是使得D(x,y)趋近于1，则需通过不断的迭代去最大化这个目标函数，即实现这样一个最小最大化过程：

[0026] 除了两个网络各自要优化的损失函数外，第二部分是模型的渲染损失函数，通过比较自动渲染的虚拟形象与真实数据库中的虚拟形象之间的差异，可以计算出模型的重构误差，通过网络的训练过程将这个重构误差带来的渲染损失降到最低，可以提升生成网络的渲染效果。渲染损失函数具体为：

[0027] LL1(G)＝Ex,y[||y-G(x)||1]

[0028] 其中λ为超参数，用来平衡两种损失的相对大小。采用Adam优化算法，生成网络G与判别网络D交替训练的方式进行对抗式训练，得到训练好的生成网络G。

[0029] 作为本发明的进一步技术方案：步骤E具体是：将姿态检测网络P得到的人体姿态序列输入训练好的生成网络G输出自动生成的虚拟形象图片，按照一定帧率连接即可得到与人体动作同步的动画视频。

[0030] 与现有技术相比，本发明的有益效果是：1.降低成本：无需昂贵的专业设备、专业技术人员、专业拍摄场地。只需要一段普通相机(手机)拍摄的人物动作视频就可以达到动作捕捉与动画生成的效果。2.提高效率：深度神经网络一旦训练完成，具有较高的复用性、鲁棒性、实时性。可以根据给定的动作视频快速生成相应的虚拟动画，可极大提高动画的制作效率。3.解放生产力：人工智能技术的最显著的特点就是解放生产力，此项发明实现了动作捕捉技术的智能化，可以将人类从繁琐的配准、定标、模型渲染等工作中解放出来，从而专注于剧情创作，投入到更有创造性的活动中去。附图说明

[0031] 图1为基于深度学习技术的动作捕捉原理图；

[0032] 图2为本发明的整体流程图；

[0033] 图3为姿态检测深度卷积神经网络示意图；

[0034] 图4为姿态检测算法的整体流程图；

[0035] 图5为姿态条件生成对抗网络示意图；

[0036] 图6为生成网络G的示意图；

[0037] 图7为判别网络D的示意图；

[0038] 图8为利用训练好的网络进行动画生成的流程图。

具体实施方式

[0039] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0040] 实施例1：请参阅图1-8，一种基于深度学习的人体动作捕捉与虚拟动画生成方法，包含以下步骤：

[0041] A、首先由演员提供需要进行动作捕捉的运动姿态，可以是舞蹈、武术等形式；

[0042] B、采用普通光学传感设备(相机、手机)采集得到的演员运动视频数据；

[0043] C、姿态检测网络预训练；姿态检测算法的步骤如下：一、在不同的尺度下，将待检测图像输入深度卷积神经网络，计算各个关键点的响应图；二、将每个关键点在各个尺度下的响应图累加起来，得到关键点总体响应图；三、在各关键点的总体响应图上，找出相应最大的点，确定关键点位置。四、连结各关键点，得到人体姿态信息。本发明将人体动作捕捉过程拆解为单张图像的姿态估计问题，先定位人体骨骼关键点位置，然后在图像中连结各关键点描绘出人体的形状；姿态检测网络采用了顺序化的卷积架构来表达输入运动画面的空间信息和纹理信息，将姿态估计看作是检测问题，网络的输出为热力图,能够直接回归出每一类关键点的概率。检测过程分为多个阶段进行：其中第一个阶段利用VGG-19网络对输入图片进行处理，得到初步的关键点响应图，然后将它与另一路网络提取的特征融合作为下一阶段的输入，通过多重阶段不断扩大卷积网络感受野，得到关键点在各个尺度下的响应图，多阶段操作的目的是为了融合运动视频图像的纹理信息、空间信息和中心约束，从而进一步提高关键点的检测效果。历经六个阶段后最后网络会输出关键点总体响应图，并找到预测的关键点位置，连接各关键点位置即得到人体姿态信息，搭建好姿态检测网络后，首先需要利用大量标记好的人体图像数据进行预先的训练，利用MSCOCO数据集进行姿态检测模型的预训练，整个网络的损失函数为其中T代表不同的阶段，N代表图中的人，J代表关键点，P代表热力图，通过反向传播过程不断迭代优化网络权重参数降低损失函数，最终得到训练好的网络。

[0044] D、提取人体姿态序列；我们首先将输入视频逐帧处理为图片，对每一张图像都输入训练好的姿态检测网络进行姿态提取，即可得到一组连续的演员动作姿态序列；

[0045] E、姿态条件生成对抗网络预训练；首先根据用户的喜好个性化的定制虚拟形象，设计出一套包含各种姿态的虚拟形象全身图片集，称为虚拟形象标准全姿态数据库，用于姿态条件生成对抗网络的训练使用。利用预先准备好的虚拟形象标准全姿态数据库通过对抗的方式训练一个生成网络G，用来实现动作姿态到动画人物的渲染。这部分主要完成的功能是：给定人体姿态信息，能够生成相同动作姿态的动画人物。

[0046] F、输出与演员动作同步的动画视频。将姿态检测网络P得到的演员动作序列输入训练好的生成网络G输出自动生成的虚拟形象图片，按照一定帧率连接即可得到与人体动作同步的动画视频。

[0047] 实施例2，在实施例1的基础上，姿态条件生成对抗网络由三大模块构成：分别是步骤B中的姿态检测网络P，生成网络G，以及判别网络D。其中，姿态检测网络P与步骤B中结构功能相同，主要完成对多种动作姿态的虚拟形象进行姿态提取，获得姿态图形。生成网络G由深度卷积网络构成，主要功能是完成给定姿态下虚拟形象的自动创建与渲染；我们采用了跳跃连接的编解码架构，即每一层反卷积层的输入都是前一层的输出加上该层镜像卷积层的输出，从而保证编码网络的信息在解码时可以被重新记忆，使得生成的图像尽可能保留原图像的细节信息。网络总共包含9层，采用了5层卷积层作为编码器，4层反卷积层作为解码器。判别网络D由6层卷积神经网络构成，目的是为了进行生成模型的对抗性训练。对抗性训练的具体过程是：1.从个性化定制的虚拟形象标准全姿态数据库中使用预训练的姿态检测网络P获得对应的姿态图形。2.使用生成网络G对获得的姿态图形进行自动渲染，将自动渲染的图像称为“虚假图像”。3.分别将原虚拟形象数据集中的真实图像、自动渲染的虚假图像与姿态图形组成两组图像数据对。分别记为(真实图像，姿态图形)、(虚假图像、姿态图形)。采用数据对的形式进行网络训练是要建立姿态图形与自动渲染的虚拟形象之间一一对应的映射关系。4.将两组图像数据对传入判别网络，判别网络在训练过程中要优化的目标是使得自身能够准确地鉴别数据对的真伪，即对(真实图像，姿态图形)数据对的结果判定为真，而对(虚假图像、姿态图形)数据对的结果判定为假。5.生成网络会不断优化调整自身网络权重参数，使得自动渲染生成的“虚假图像”越来越逼近真实图像，它的优化目标是使得判别网络对(虚假图像、姿态图形)数据对的判定结果为真。由于生成网络与判别网络两者的优化目标是相互矛盾的，这两个网络始终处于一种博弈对抗的状态，这种训练过程称为对抗性训练，两个网络在相互斗争中自身的性能都得到了提高，当判别网络对“真实图像对”与“虚假图像对”判别正确的概率都为50％时，渲染生成的图像与真实图像达到了难以区分的地步，模型训练过程结束，此时称网络达到了纳什均衡状态。达到这种状态后可理解为判别网络已经无法正确区分真实图像与虚假图像，也就是由生成网络渲染的“虚假图像”已经与真实图像非常接近，达到了以假乱真的地步，此时利用这个训练好的生成网络就可以实现快速动画生成。

[0048] 对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

[0049] 此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

标题	发布/更新时间	阅读量
基于上下文的通信会话桥接	2020-05-08	243
虚拟内容的交互方法、系统及其交互装置	2020-05-08	115
一种虚拟现实系统中三维环境地图的可视化方法	2020-05-11	462
设备控制方法、装置、车载平视显示设备及存储介质	2020-05-08	944
一种基于虚拟现实的机器人行为控制方法	2020-05-11	921
虚拟现实头戴设备支架	2020-05-08	253
信息识别方法、装置、电子设备及计算机可读存储介质	2020-05-08	460
一种虚拟现实映像装置	2020-05-08	99
用于控制虚拟对象的系统和方法	2020-05-08	617
一种游戏场景中的物品采集方法、装置、设备和存储介质	2020-05-08	552

一种基于深度学习的人体动作捕捉与虚拟动画生成方法

一种基于深度学习的人体动作捕捉与虚拟动画生成方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：