首页 / 技术领域 / 动作捕捉 / 一种人体全身动作捕捉方法、装置、存储介质及终端

一种人体全身动作捕捉方法、装置、存储介质及终端

热词 表情 人脸 手势 动作 人体 信息 关节 身体 提取 裁切
专利类型 发明公开 法律事件 公开; 实质审查; 授权;
专利有效性 有效专利 当前状态 授权
申请号 CN202210742349.7 申请日 2022-06-28
公开(公告)号 CN115294623A 公开(公告)日 2022-11-04
申请人 北京聚力维度科技有限公司; 申请人类型 企业
发明人 赵天奇; 段盼; 渠源; 巴君; 崔丰驿; 苗渊渊; 第一发明人 赵天奇
权利人 北京聚力维度科技有限公司 权利人类型 企业
当前权利人 北京聚力维度科技有限公司 当前权利人类型 企业
省份 当前专利权人所在省份:北京市 城市 当前专利权人所在城市:北京市朝阳区
具体地址 当前专利权人所在详细地址:北京市朝阳区五里桥一街1号院5号楼4层F-4型研发中心 邮编 当前专利权人邮编:100024
主IPC国际分类 G06V40/16 所有IPC国际分类 G06V40/16G06V40/20G06V10/82G06T7/70
专利引用数量 4 专利被引用数量 0
专利权利要求数量 10 专利文献类型 A
专利代理机构 北京辰权知识产权代理有限公司 专利代理人 刘广达;
摘要 本 申请 涉及一种人体全身 动作捕捉 方法、装置、存储介质及终端。其中,所述方法包括:利用单个摄像头获取人体的裁切图,以裁切图为输入,利用神经网络之间的循环反馈和 迭代 互助优化机制,完成对人脸表情 姿态 信息,身体动作信息、手势动作信息和身体根 位置 3D信息的捕捉,从而获取到实时的人体的全身动作信息。不仅具有成本低廉、使用方便的特点,而且能够使得捕捉 精度 和稳定度得到提高。
权利要求

1.一种人体全身动作捕捉方法,基于摄像头和循环反馈机制,其特征在于,包括以下步骤:
采集人体的运动数据;
对所述运动数据进行清洗标注,获得所述人体的裁切图;
根据所述裁切图和/或循环反馈、迭代互助优化的融合方式,提取所述人体的人脸表情姿态信息、身体动作信息、手势动作信息和身体根位置3D信息;
将所述人脸表情姿态信息、所述身体动作信息、所述手势动作信息和所述身体根位置
3D信息进行时空融合,获取所述人体的全身动作信息。
2.根据权利要求1所述的人体全身动作捕捉方法,其特征在于,所述采集人体的运动数据,包括:
通过单个RGB摄像头采集所述人体的运动数据。
3.根据权利要求1所述的人体全身动作捕捉方法,其特征在于,根据所述裁切图和/或循环反馈、迭代互助优化的融合方式,提取所述人体的人脸表情姿态信息、身体动作信息和手势动作信息,包括:
根据所述裁切图,确定所述人体的人脸表情姿态信息、身体动作信息和手势动作信息;
采用所述循环反馈、迭代互助优化的融合方式,将所述人脸表情姿态信息、所述身体动作信息和所述手势动作信息进行迭代优化;
迭代优化之后的所述人脸表情姿态信息、所述身体动作信息和所述手势动作信息即为提取的所述人体的人脸表情姿态信息、身体动作信息和手势动作信息。
4.根据权利要求3所述的人体全身动作捕捉方法,其特征在于,根据所述裁切图,确定所述人体的人脸表情姿态信息,包括:
将所述裁切图输入预训练模型,得到所述人体的人脸通用特征;
根据所述人脸通用特征、通用ID编码网络、表情提取神经网络、表情优化模型以及姿态提取神经网络,获取所述人体的人脸表情姿态信息;
通过时空融合网络对所述人脸表情姿态信息进行融合,得到融合之后的所述人脸表情姿态信息。
5.根据权利要求3所述的人体全身动作捕捉方法,其特征在于,根据所述裁切图,确定所述人体的身体动作信息和手势动作信息,包括:
根据所述裁切图,提取所述人体的关节全局图、手势全局图、关节局部图和手势局部图;
将所述关节全局图、所述关节局部图分别输入mobilenet网络,输出所述人体的关节全局特征和关节局部特征;
将所述手势全局图、所述手势局部图分别输入mobilenet网络,输出所述人体的手势全局特征和手势局部特征;
通过时空融合网络对所述关节全局特征和所述关节局部特征进行融合,得到身体动作信息;
通过所述时空融合网络对所述手势全局特征和所述手势局部特征进行融合,得到手势动作信息。
6.根据权利要求1所述的人体全身动作捕捉方法,其特征在于,根据所述裁切图,提取所述人体的身体根位置3D信息,包括:
根据所述裁切图,提取所述人体的运动方向特征和跟踪信息;
根据所述运动方向特征、所述跟踪信息和物理规则的先验约束,确定所述人体的身体根位置3D信息。
7.根据权利要求1所述的人体全身动作捕捉方法,其特征在于,所述方法还包括:
根据所述全身动作信息,进行虚拟色的重新定位,从而实现对所述虚拟角色的实时驱动。
8.一种人体全身动作捕捉装置,基于摄像头和循环反馈机制,其特征在于,包括:
数据采集,用于采集人体的运动数据;
清晰标注模块,用于对所述运动数据进行清洗标注,获得所述人体的裁切图;
人体全身动作提取模块,用于根据所述裁切图和/或循环反馈、迭代互助优化的融合方式,提取所述人体的人脸表情姿态信息、身体动作信息、手势动作信息和身体根位置3D信息;
人体全身动作确定模块,用于将所述人脸表情姿态信息、所述身体动作信息、所述手势动作信息和所述身体根位置3D信息进行时空融合,获取所述人体的全身动作信息。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1‑7任意一项的方法步骤。
10.一种终端,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1‑7任意一项的方法步骤。

说明书全文

一种人体全身动作捕捉方法、装置、存储介质及终端

技术领域

[0001] 本发明涉及动作捕捉技术领域,更为具体来说,本发明涉及一种人体全身动作捕捉方法、装置、存储介质及终端。

背景技术

[0002] 动作捕捉技术已经成为游戏,动画和电影领域等不可或缺的生产工具。现有的动作捕捉技术中,光学动作捕捉技术具有造价昂贵、场景设备布置繁杂的特点;惯性动作捕捉技术容易受带磁带等设备的环境因素影响,且在捕捉快速动作时容易崩溃;光惯混合捕捉技术虽然在捕捉精度上有所提升,但依然存在着成本和使用复杂度较高的问题。
[0003] 目前情况下,降低动作捕捉的成本,简化动作捕捉的流程是普遍关注的问题。

发明内容

[0004] 本申请实施例提供了一种人体全身动作捕捉方法、装置、存储介质及终端。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
[0005] 第一方面,本申请实施例提供了一种人体全身动作捕捉方法,基于摄像头和循环反馈机制,该方法包括:
[0006] 采集人体的运动数据;
[0007] 对所述运动数据进行清洗标注,获得所述人体的裁切图;
[0008] 根据所述裁切图和/或循环反馈、迭代互助优化的融合方式,提取所述人体的人脸表情姿态信息、身体动作信息、手势动作信息和身体根位置3D信息;
[0009] 将所述人脸表情姿态信息、所述身体动作信息、所述手势动作信息和所述身体根位置3D信息进行时空融合,获取所述人体的全身动作信息。
[0010] 可选的,所述采集人体的运动数据,包括:
[0011] 通过单个RGB摄像头采集所述人体的运动数据。
[0012] 可选的,根据所述裁切图和/或循环反馈、迭代互助优化的融合方式,提取所述人体的人脸表情姿态信息、身体动作信息和手势动作信息,包括:
[0013] 根据所述裁切图,确定所述人体的人脸表情姿态信息身体动作信息和手势动作信息;
[0014] 采用所述循环反馈、迭代互助优化的融合方式,将所述人脸表情姿态信息、所述身体动作信息和所述手势动作信息进行迭代优化;
[0015] 迭代优化之后的所述人脸表情姿态信息、所述身体动作信息、所述手势动作信息即为提取的所述人体的人脸表情姿态信息、身体动作信息和手势动作信息。
[0016] 可选的,根据所述裁切图,确定所述人体的人脸表情姿态信息,包括:
[0017] 将所述裁切图输入预训练模型,得到所述人体的人脸通用特征;
[0018] 根据所述人脸通用特征、通用ID编码网络、表情提取神经网络、表情优化模型以及姿态提取神经网络,获取所述人体的人脸表情姿态信息;
[0019] 通过时空融合网络对所述人脸表情姿态信息进行融合,得到融合之后的所述人脸表情姿态信息。
[0020] 可选的,根据所述裁切图,确定所述人体的身体动作信息和手势动作信息,包括:
[0021] 根据所述裁切图,提取所述人体的关节全局图、手势全局图、关节局部图和手势局部图;
[0022] 将所述关节全局图、所述关节局部图分别输入mobilenet网络,输出所述人体的关节全局特征和关节局部特征;
[0023] 将所述手势全局图、所述手势局部图分别输入mobilenet网络,输出所述人体的手势全局特征和手势局部特征;
[0024] 通过时空融合网络对所述关节全局特征和所述关节局部特征进行融合,得到身体动作信息;
[0025] 通过所述时空融合网络对所述手势全局特征和所述手势局部特征进行融合,得到手势动作信息。
[0026] 可选的,根据所述裁切图,提取所述人体的身体根位置3D信息,包括:
[0027] 根据所述裁切图,提取所述人体的运动方向特征和跟踪信息;
[0028] 根据所述运动方向特征、所述跟踪信息和物理规则的先验约束,确定所述人体的身体根位置3D信息。
[0029] 可选的,所述方法还包括:
[0030] 根据所述全身动作信息,进行虚拟色的重新定位,从而实现对所述虚拟角色的实时驱动。
[0031] 第二方面,本申请实施例提供了一种人体全身动作捕捉装置,基于摄像头和循环反馈机制,该装置包括:
[0032] 数据采集,用于采集人体的运动数据;
[0033] 清晰标注模块,用于对所述运动数据进行清洗标注,获得所述人体的裁切图;
[0034] 人体全身动作提取模块,用于根据所述裁切图和/或循环反馈、迭代互助优化的融合方式,提取所述人体的人脸表情姿态信息、身体动作信息、手势动作信息和身体根位置3D信息;
[0035] 人体全身动作确定模块,用于将所述人脸表情姿态信息、所述身体动作信息、所述手势动作信息和所述身体根位置3D信息进行时空融合,获取所述人体的全身动作信息。
[0036] 第三方面,本申请实施例提供一种计算机存储介质,计算机存储介质存储有多条指令,指令适于由处理器加载并执行上述的方法步骤。
[0037] 第四方面,本申请实施例提供一种终端,可包括:处理器和存储器;其中,存储器存储有计算机程序,计算机程序适于由处理器加载并执行上述的方法步骤。
[0038] 本申请实施例提供的技术方案可以包括以下有益效果:
[0039] 在本申请实施例中,所述人体全身动作捕捉方法,首先采集人体的运动数据;然后对所述运动数据进行清洗标注,获得所述人体的裁切图;其次根据所述裁切图和/或循环反馈、迭代互助优化的融合方式,提取所述人体的人脸表情姿态信息、身体动作信息、手势动作信息和身体根位置3D信息;最后将所述人脸表情姿态信息、所述身体动作信息、所述手势动作信息和所述身体根位置3D信息进行时空融合,获取所述人体的全身动作信息。本申请能够将实时提取的人体的人脸表情姿态信息、身体动作信息、手势动作信息和身体根位置3D信息进行时空融合,获取人体的全身动作信息,不仅具有成本低廉、使用方便的特点,而且能够使得捕捉精度和稳定度得到提高。
[0040] 应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。附图说明
[0041] 此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
[0042] 图1是本申请实施例提供的一种人体全身动作捕捉方法的总体设计示意图;
[0043] 图2是本申请实施例提供的一种人体全身动作捕捉方法的流程示意图;
[0044] 图3是本申请实施例提供的一种人体全身动作捕捉方法的手势动作信息和人脸表情姿态信息的提取示意图;
[0045] 图4是本申请实施例提供的一种人体全身动作捕捉方法的关节信息的提取示意图;
[0046] 图5是本申请实施例提供的一种人体全身动作捕捉方法的人脸表情姿态信息、手势动作信息和身体动作信息之间进行迭代优化的示意图;
[0047] 图6是本申请实施例提供的一种人体全身动作捕捉方法的人脸表情姿态信息、身体动作信息、手势动作信息和身体根位置3D信息进行时空融合的示意图;
[0048] 图7是本申请实施例提供的一种人体全身动作捕捉装置的装置示意图;
[0049] 图8是本申请实施例提供的一种终端示意图。

具体实施方式

[0050] 以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。
[0051] 应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0052] 下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的系统和方法的例子。
[0053] 在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
[0054] 请参见图1‑6,为本申请实施例提供了一种人体全身动作捕捉方法的流程示意图。如图1‑6所示,本申请实施例的方法可以包括以下步骤:
[0055] S100,采集人体的运动数据。所述S100包括:通过单个RGB摄像头采集所述人体的运动数据。
[0056] 在本申请实施例中,可通过RGB摄像头在光照、背景、人体身高、人体胖瘦以及人体服饰随机变换的环境下,采集海量人体的RGB图像。所述运动数据为RGB图像。
[0057] S200,对所述运动数据进行清洗标注,获得所述人体的裁切图。
[0058] 在本申请实施例中,在RGB图像上人工标注有包含人体的框;可通过大量的包含人体框的RGB图像训练一个预测人体裁切框的网络。
[0059] 预测人体裁切框的网络可将带有人体的运动数据的RGB图像进行裁切,得到人体的裁切图。
[0060] S300,根据所述裁切图和/或循环反馈、迭代互助优化的融合方式,提取所述人体的人脸表情姿态信息、身体动作信息、手势动作信息和身体根位置3D信息;
[0061] 在S300中,根据所述裁切图和/或循环反馈、迭代互助优化的融合方式,提取所述人体的人脸表情姿态信息、身体动作信息和手势动作信息,包括:
[0062] S311,根据所述裁切图,确定所述人体的人脸表情姿态信息、身体动作信息和手势动作信息;
[0063] 在本申请实施例中,人手的运动范围较大,使得人手在运动时,容易遮挡到人体的其他部位或者被人体的其他部位所遮挡;又因为人手在裁切图中的占比较小,所以需要针对裁切图中人手的遮挡情况进行特殊处理。如图3所示,当人手被人体的其他部位所遮挡时,可将当前的手势动作信息赋值成默认的手势动作;若人手未被人体的其他部位所遮挡,可以直接通过手势动作提取网络进行手势动作信息的预测。当人手遮挡到人体的关节部位时,可根据所述关节部位之外的关节信息预测所述关节部位的信息。
[0064] 人体的手势动作也比较容易遮挡人脸动作,人体的手势动作信息对于人脸表情姿态信息的预测也会产生影响,在本申请实施例中,人脸被遮挡时的处理方式和人手被遮挡时的处理方式类似,可默认人脸的自然动作代替当前被遮挡的人脸表情姿态信息。
[0065] 在本申请实施例中,根据所述裁切图,确定所述人体的人脸表情姿态信息,包括:
[0066] 将所述裁切图输入预训练模型,得到所述人体的人脸通用特征。在本申请实施例中,所述预训练模型即为通用特征提取模型;通用特征提取模型能够顺利应对裁切图的复杂多样性。通用特征提取模型能够通过通用的人脸空间位置编码,提取出人脸通用特征。
[0067] 根据所述人脸通用特征、通用ID编码网络、表情提取神经网络、表情优化模型以及姿态提取神经网络,获取所述人体的人脸表情姿态信息;通过时空融合网络对所述人脸表情姿态信息进行融合,得到融合之后的所述人脸表情姿态信息。
[0068] 所述人脸通用特征即为人脸的身份ID、姿态和表情分布特征等。
[0069] 在海量人体数据的基础上,身份ID是区分人体最显著的特征,为了实现对于任意人的数百种微表情的捕捉,必须成功剥离出人脸的身份ID,才能去除各异性,达到不同人之间的微表情迁移。在本申请实施例中,该通用ID编码网络包括基础模型模块、元学习模块和随机隐式编码机制。随机隐式编码机制通过对人脸数据做统计分布得到的数学统计模型对某个人脸图像在该分布下随机采样得到唯一的随机编码。将该随机编码与人脸图像输入基础模型模块,所述基础模型模块输出人脸ID编码。元学习模块对该人脸ID编码和随机编码之间做一致性约束,完成通用ID编码网络的最终训练。
[0070] 在本申请实施例中,通用ID编码网络中预先设置有身份编码信息,每一个人脸对应有唯一的人脸ID编码;可根据人脸通用特征包括的人脸的身份ID确定出人脸ID编码,进而确定人体身份信息。本申请实施例首次实现了在人脸动作提取网络的设计中结合神经网络和传统规则的可微算法,完成对人体身份信息的编码和分离。
[0071] 人脸表情因其丰富性、复杂度和动态性成为了人脸表情姿态信息提取的技术难点。现有的人脸表情姿态信息提取技术,要么丰富性可以,复杂度不够;要么复杂度可以,动态稳定性不行。本申请实施例的表情提取神经网络,提出了针对人脸表情的位置分块编码,具体地,利用检测到的人脸关键点分别裁切得到眉毛区域图像,眼睛区域图像,鼻子区域图像和嘴巴区域图像等局部区域图像,将这些局部区域图像分别输入到各自的特征提取网络,在对局部区域图像分别提取特征的同时,本申请也对人脸原图做全局特征提取,然后将全局特征和局部特征做融合处理,最后分别回归预测对应区域的运动参数。
[0072] 在本申请实施例中,不同局部区域图像之间会产生组合,生成组合表情,所述组合表情可以为撇嘴伴随着闭眼,睁眼连带着眉毛向上运动等。大部分表情的产生都会伴随着人脸多个局部区域的运动关联,模拟这种局部区域间的运动关联至关重要,本申请实施例引入了空间关联概念:通过随机的方式对上述人脸局部特征进行组合,使得空间关联网络能够自适应的选择组合,能够提高人脸全局表情和人脸局部表情的精细化、以及人脸全局表情的丰富性和复杂度。
[0073] 本申请实施例还引入了时序机制,使得表情提取神经网络能够利用前后帧,来达到人脸表情的动态稳定性。
[0074] 由于人脸表情具有很强的个性化,比如开怀大笑等。针对这种语义一致但表情程度却因人而异的问题,本申请实施例引入了表情优化模型,该模型类似于上述通用ID编码网络,能够提取出人脸的个性化表征,能够结合人脸动作提取网络中的其他网络完成个性化的人脸表情预测。
[0075] 所述表情优化模型的训练过程具体为:在表情捕捉时,拍摄5‑10张自然表情下各种角度和光照变化的人脸图片,然后对这些人脸图片做光照明暗和模糊等增强处理。将这些增强处理之后的人脸图片数据输入表情提取神经网络,输出对应的基础表情特征编码,以便于在人脸表情实时捕捉的过程中,表情提取神经网络得到的表情特征和基础表情特征编码对应的基础表情特征做出差值,通过差值回归出人脸的实时表情变化。
[0076] 由于人脸表情变化的同时,也伴随着人体头部的运动。只有将人脸表情和人体头部运动结合起来,表情提取神经网络提取的人脸表情才会更加自然,更具表现。为此,本申请实施例设计了姿态提取神经网络。所述姿态提取神经网络提取人体头部关节的位置信息和角度信息。
[0077] 本申请实施例引入了时空融合网络,一方面,能够在提取到的人脸表情过于模糊和显示不全时,通过找病态帧的相似帧或者前后正常帧来恢复出当前帧的人脸表情,能够提高人脸表情姿态信息的提取效果。另一方面,能够将通过ID编码网络识别出人脸ID编码、表情优化模型优化之后的所述表情提取神经网络识别出的人脸表情、姿态提取神经网络识别出的人体头部关节的位置信息和角度信息进行时空融合,得到极具个性化的人体的人脸表情姿态信息。
[0078] 同时,为了人脸表情过度的自然,本申请还在时空融合网络中设计了3d卷积网络,额外增加了时间信息,使得人脸动作提取网络有着更好的稳定性和鲁棒性。
[0079] 在上述人脸动作提取网络中的各分块网络完成人脸表情姿态信息的提取之后,本申请实施例的时空融合网络完成了对人脸表情姿态信息的参数回归。
[0080] 传统的网络结构设计都是基于海量数据,采用端到端的黑箱式暴力训练的。本申请的这种基于深度学习的人脸动作提取网络,提出了按明确语义分块的网络设计,从语义明确的普通人脸表情到含有各种微变化的微表情,能够完成任意的人脸表情姿态信息的捕捉;精细的表情提取更具真人化的效果。解决了传统的数值统计方法费时费力且需要大量的人为判断来选取合适的人脸特征,存在的很大的个性偏差和不稳定性。
[0081] 根据所述裁切图,确定所述人体的身体动作信息和手势动作信息。在本申请实施例中,可根据裁切图、手势动作提取网络内的各个分块和时空融合网络提取手势动作信息;根据裁切图、身体动作提取网络内的各个分块和时空融合网络提取身体动作信息;具体如下:
[0082] 根据所述裁切图,提取所述人体的关节全局图、手势全局图、关节局部图和手势局部图。
[0083] 将所述关节全局图、所述关节局部图分别输入mobilenet网络,提取所述人体的关节全局特征和关节局部特征;通过时空融合网络对所述关节全局特征和所述关节局部特征进行融合,得到关节信息。
[0084] 如图4所示,根据关节全局图提取出关节全局特征;关节局部图包括上部关节局部图和下部关节局部图,根据上部关节局部图和下部关节局部图提取出的关节局部特征为上部关节局部特征和下部关节局部特征;所述上部关节局部特征和下部关节局部特征包括关节位置信息和角度信息。
[0085] 在不同尺度上对关节全局特征和关节局部特征进行时空融合,将融合之后的关节全局特征和关节局部特征经过2层卷积层进行处理,得到最终的关节信息。
[0086] 在本申请实施例中,身体动作信息即为关节信息,身体动作提取网络即为关节提取网络。
[0087] 将所述手势全局图、所述手势局部图分别输入mobilenet网络,输出所述人体的手势全局特征和手势局部特征;通过所述时空融合网络对所述手势全局特征和所述手势局部特征进行融合,得到手势动作信息。
[0088] 在本申请实施例中,通过左手动作提取网络提取左手全局特征和左手局部特征;通过右手动作提取网络提取右手全局特征和右手局部特征。
[0089] 手势全局图包括右手全局图和左手全局图,根据右手全局图和左手全局图提取出的手势全局特征为右手全局特征和左手全局特征;根据手腕局部图、手掌局部图和手指局部图提取出的手势局部特征为手腕局部特征、手掌局部特征和手指局部特征。
[0090] 传统的手势动作信息的提取,一种基于手势识别实现。另一种是借助于更复杂的用硬件设计的手套来实现的,这两种实现方式在动作丰富性、复杂度和便宜性上都存在弊端。在本申请实施例中,针对人手在裁切图中的占比较小、灵活性高、运动范围大,以及模糊遮挡问题,设计了全新的表征和训练方式,来应对手势动作信息的提取;在对裁切图进行检测置信度的标注后,为了进一步减小人手检测部分的成本、提高人手检测的精度,本申请实施例结合传统的聚类方法,设计了超小算力的手检测网络。传统的聚类算法用于统计手势运动的分布,手势运动是否均匀和缺失等;所述超小算力的手检测网络能够充分应对人手的小尺寸和运动模糊等问题,保证了手势识别的实时性要求。
[0091] 由于手势动作的复杂度决定了表征方式的多样性和有效性,本申请实施例在现有的手势特征提取网络将人手作为一个整体进行表示的基础之上,继续细化对人手的分块表征,将人手分为手腕、手掌和手指三大块。
[0092] 手指固有的物理刚性约束表明手势的运动虽然千变万化,但每个手指的运动也有着天然受限性,这意味着本申请可以减少学习空间。基于此,本申请实施例设计了手势全局运动和手势局部运动,手指关节相对运动以及对应旋转的多种特征融合的训练方式,将手势全局特征和手势局部特征进行时空融合。在训练上述手检测网络时,人为地对人手数据做了大量场景下的数据增强操作;由于存在大量的开源数据标注了人手各关节处的2d关键点,需要在损失函数中增加2d关键点约束函数,将手检测网络在开源数据上做进一步地有监督训练。其中,网络回归的不仅有人手框的坐标值,还包括每个人手框的置信度和左右区分,由于人手框的置信度和左右信息已经标注,此时只需要将回归值和标注值进行均方差损失函数L2的约束训练,并引入2d关键点的监督学习,使得手检测网络能够更好的收敛.具体损失函数公式如下所示:
[0093]
[0094] 其中,下标i表示关节索引,(xi,yi)表示人工标注的第i个关节的像素坐标,表示预测的第i个关节的像素坐标,ci表示人工标注的第i个关节的置信度,表示预测的第i个关节的置信度,vi表示人工标注的判定第i个关节的左右手,表示预测的判定第i个关节的左右手,θi表示人工标注的第i个关节的旋转角度, 表示预测的第i个关节的旋转角度,m表示坐标的个数,q表示置信度的个数,t表示左右手的个数n表示关节的旋转角度的个数。Lsmooth表示对前后帧的2d关键点做平滑约,αcoor表示坐标的权重系数,βobj表示置信度的权重系数,γl‑r表示左右手的权重系数,θθ表示关节的旋转角度的权重系数。
[0095] 至此,完成了在mobilenet网络中引入attention注意力机制提取所述身体动作信息和/或所述手势动作信息的过程。
[0096] 在本申请的另一种实施方式中,即S312,采用所述循环反馈、迭代互助优化的融合方式,将所述人脸表情姿态信息、所述身体动作信息和所述手势动作信息进行迭代优化。
[0097] 如图5所示,所述人脸表情姿态信息、手势动作信息和身体动作信息之间进行迭代优化。
[0098] 关节提取网络包含了全身关节的运动,手腕关节作为其中的一部分,与身体全局运动有着先验关联。比如,手腕运动关联着手臂运动,而手臂的运动也可以连带着手腕运动。由于在开始迭代训练之前,构建的关节提取网络和手势动作提取网络的预测并不完全准确,所以在循环迭代的过程中,将关节提取网络输出的关节信息输入手势提取网络,相当于将身体全局运动作为先验给到手势动作提取网络,使得手势动作提取网络能够得到身体全局信息,对于手腕运动的预测更加准确;将手势动作提取网络输出的手势动作信息也输入关节提取网络,加快关节提取网络的收敛;关节提取网络和手势动作提取网络互为输入输出完成的循环迭代,能够使得手势动作提取网络和关节提取网络在网络训练的过程中逐渐迭代提升。
[0099] 关节提取网络输出的关节信息会作为手势动作提取网络的输入,帮助优化手势动作信息。在本申请实施例中,由于手势动作的复杂多变性,在单独的手势动作信息提取的过程中,很难分辨出人手的朝向。而人手的朝向又和手臂的内外侧朝向一致,通过关节提取网络能够得到正确的手臂朝向,将关节提取网络输出的关节信息输入至手势动作提取网络,使得关节提取网络输出的手臂内外侧朝向的关节信息能够更正手势动作提取网络输出的人手朝向。所述人手的朝向指的是手心和手背的朝向。手势动作提取网络输出的手势动作信息输入关节提取网络,能够解决训练过程中,关节提取网络训练不到位的情况,优化关节信息。
[0100] 人脸动作提取网络和关节提取网络的迭代优化过程与上述手势动作提取网络与关节提取网络的迭代优化过程类似,在此不再赘述。
[0101] S313,迭代优化之后的所述人脸表情姿态信息、所述身体动作信息和所述手势动作信息即为提取的所述人体的人脸表情姿态信息、身体动作信息和手势动作信息。
[0102] 在S300中,根据所述裁切图,提取所述人体的身体根位置3D信息。通过人体3D位置提取网络提取人体的身体根位置3D信息,具体过程如下:
[0103] S321,根据所述裁切图,提取所述人体的运动方向特征和跟踪信息;
[0104] 在本申请实施例中,多个裁切图的前后帧像素和临近像素的运动方向特征即为人体的运动方向特征;将裁切图输入神经网络,输出2d热力图;将多张2d热力图做特征融合操作,得到一个3D位置图,所述3D位置图标注有人体框的跟踪信息,所述跟踪信息可以为人体根的运动信息。
[0105] S322,根据所述运动方向特征、所述跟踪信息和物理规则的先验约束,预测最终的人体根运动轨迹,进而根据所述人体根运动轨迹,确定所述人体的身体根位置3D信息。
[0106] 在本申请实施例中,身体根位置3D信息即为获取的人在环境中的真实位置,身体根位置3D信息的准确与否决定了身体动作信息提取时的位置感知能力。
[0107] 所述物理规则的先验约束是基于双脚是否接触地面来判断的:将所述多个2d热力图输入神经网络判断双脚是否接触地面,双脚接触地面时,二指化标签为1;双脚未接触地面时,二值化标签为0。在双脚接触地面时,对初始预测的跟踪信息包括的人体关节旋转和位置做人体模型拟合,得到含有身高体重信息的人体模型后,计算双脚的加速度,从而更新预测的人体位置、速度和方向,实现更新人体的身体根位置3D信息的目的。S400,将所述人脸表情姿态信息、所述身体动作信息、所述手势动作信息和所述身体根位置3D信息进行时空融合,获取所述人体的全身动作信息。
[0108] 在本申请实施例中,时空融合网络主要是利用空间关系和时间关系进行人脸表情姿态信息、身体动作信息和手势动作信息进行融合,得到输出结果;所述空间关系即为全局和局部关系,所述时间关系即为连续帧的前后关系。将时空融合网络的输出结果和身体根位置3D信息进行融合,并通过全连接网络完成人体的全身动作信息参数回归的预测。具体过程如下:
[0109] 如图6所示,将经过裁切和对齐包含有人脸表情姿态信息、身体动作信息和手势动作信息的人体图像分别经过两个分支:上部分支对包括有人脸表情姿态信息、身体动作信息和手势动作信息的人体图像进行不同尺度上的特征提取,将提取的特征经过空间融合网络进行融合;下部分支利用包括有人脸表情姿态信息、身体动作信息和手势动作信息的人体图像的前后帧,采用逐像素匹配的方式,计算同一像素点在人体图像前后帧上的运动方向,得到光流图,将所述光流图经过时间融合网络进行融合;时空融合网络将空间融合网络和时间融合网络的输出结果与身体根位置3D信息进行时空融合,得到人体全身动作特征图;将所述人体全身动作特征图输入全连接网络,借助惩罚函数对其进行约束,预测人体的全身动作信息。其中,手势动作提取网络的时空融合策略与此处对人体全身动作进行融合的时空融合网络类似,只是各自特征不同。
[0110] 其中,惩罚函数如下所示:
[0111]
[0112] 其中,θ表示人工标注的关节的旋转角度,表示预测的关节的旋转角度,P2d表示人工标注的关节2d坐标, 表示预测的关节2d坐标,H表示人工标注的热力图,表示预测的热力图。αangle表示关节的旋转角度的权重系数,β2d表示关节2d坐标的权重系数,γh表示热力图的权重系数。n表示关节的旋转角度个数,m表示关节2d坐标的个数,s表示热力图的个数,Lsmooth表示正则项,用于平滑预测结果,Lsmooth则是进行前后帧的约束,起到平滑作用。
[0113] 在本申请实施例中,通过上述方法将人脸表情姿态信息、身体动作信息、手势动作信息和身体根位置3D信息分别进行提取再融合,增强了网络的表示能力。
[0114] 所述方法还包括:S500,根据所述全身动作信息,进行虚拟角色的重新定位,从而实现对所述虚拟角色的实时驱动。
[0115] 在本申请实施例中,所述人体全身动作捕捉方法,首先采集人体的运动数据;然后对所述运动数据进行清洗标注,获得所述人体的裁切图;其次根据所述裁切图和/或循环反馈、迭代互助优化的融合方式,提取所述人体的人脸表情姿态信息、身体动作信息、手势动作信息和身体根位置3D信息;最后将所述人脸表情姿态信息、身体动作信息、手势动作信息和所述身体根位置3D信息进行时空融合,获取所述人体的全身动作信息。本申请能够将实时提取的人体的人脸表情姿态信息、身体动作信息、手势动作信息和身体根位置3D信息进行时空融合,获取人体的全身动作信息,不仅具有成本低廉、使用方便的特点,而且能够使得捕捉精度和稳定度得到提高。
[0116] 下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
[0117] 请参见图7,其示出了本发明一个示例性实施例提供的一种人体全身动作捕捉装置的结构示意图。该装置1基于摄像头和循环反馈机制,包括:数据采集模块10、清晰标注模块20、人体全身动作提取模块30和人体全身动作确定模块40。
[0118] 数据采集模块10,用于采集人体的运动数据;
[0119] 清晰标注模块20,用于对所述运动数据进行清洗标注,获得所述人体的裁切图;
[0120] 人体全身动作提取模块30,用于根据所述裁切图和/或循环反馈、迭代互助优化的融合方式,提取所述人体的人脸表情姿态信息、身体动作信息、手势动作信息和身体根位置3D信息;
[0121] 人体全身动作确定模块40,用于将所述人脸表情姿态信息、所述身体动作信息、所述手势动作信息和所述身体根位置3D信息进行时空融合,获取所述人体的全身动作信息。
[0122] 需要说明的是,上述实施例提供的人体全身动作捕捉装置在执行人体全身动作捕捉方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的人体全身动作捕捉装置与人体全身动作捕捉方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
[0123] 上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
[0124] 在本申请实施例中,所述人体全身动作捕捉装置,首先采集人体的运动数据;然后对所述运动数据进行清洗标注,获得所述人体的裁切图;其次根据所述裁切图和/或循环反馈、迭代互助优化的融合方式,提取所述人体的人脸表情姿态信息、身体动作信息、手势动作信息和身体根位置3D信息;最后将所述人脸表情姿态信息、身体动作信息、手势动作信息和所述身体根位置3D信息进行时空融合,获取所述人体的全身动作信息。本申请能够将实时提取的人体的人脸表情姿态信息、身体动作信息、手势动作信息和身体根位置3D信息进行时空融合,获取人体的全身动作信息,不仅具有成本低廉、使用方便的特点,而且能够使得捕捉精度和稳定度得到提高。
[0125] 本发明还提供一种计算机可读介质,其上存储有程序指令,该程序指令被处理器执行时实现上述各个方法实施例提供的人体全身动作捕捉方法。
[0126] 本发明还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各个方法实施例的人体全身动作捕捉方法。
[0127] 请参见图8,为本申请实施例提供了一种终端的结构示意图。如图8所示,终端1000可以包括:至少一个处理器1001,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。
[0128] 其中,通信总线1002用于实现这些组件之间的连接通信。
[0129] 其中,用户接口1003可以包括显示屏(Display)、摄像头(Camera),可选用户接口1003还可以包括标准的有线接口、无线接口。
[0130] 其中,网络接口1004可选的可以包括标准的有线接口、无线接口(如WI‑FI接口)。
[0131] 其中,处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线路连接整个电子设备1000内的各个部分,通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集,以及调用存储在存储器1005内的数据,执行电子设备1000的各种功能和处理数据。可选的,处理器1001可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程阵列(Field‑Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1001中,单独通过一块芯片进行实现。
[0132] 其中,存储器1005可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read‑Only Memory)。可选的,该存储器1005包括非瞬时性计算机可读介质(non‑transitory computer‑readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图8所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及车辆运行轨迹数据的可用度分析应用程序。
[0133] 在图8所示的终端1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;而处理器1001可以用于调用存储器1005中存储的人体全身动作捕捉应用程序,并具体执行以下操作:
[0134] 采集人体的运动数据;
[0135] 对所述运动数据进行清洗标注,获得所述人体的裁切图;
[0136] 根据所述裁切图和/或循环反馈、迭代互助优化的融合方式,提取所述人体的人脸表情姿态信息、身体动作信息、所述手势动作信息和身体根位置3D信息;
[0137] 将所述人脸表情姿态信息、所述身体动作信息、所述手势动作信息和所述身体根位置3D信息进行时空融合,获取所述人体的全身动作信息;
[0138] 根据所述全身动作信息,进行虚拟角色的重新定位,从而实现对所述虚拟角色的实时驱动。
[0139] 在一个实施例中,处理器1001在执行所述采集人体的运动数据时,具体执行以下操作:
[0140] 通过单个RGB摄像头采集所述人体的运动数据。
[0141] 在一个实施例中,处理器1001在执行根据所述裁切图和/或循环反馈、迭代互助优化的融合方式,提取所述人体的人脸表情姿态信息身体动作信息和手势动作信息时,具体执行以下操作:
[0142] 根据所述裁切图,确定所述人体的人脸表情姿态信息身体动作信息和手势动作信息;
[0143] 采用所述循环反馈、迭代互助优化的融合方式,将所述人脸表情姿态信息、身体动作信息和手势动作信息进行迭代优化;
[0144] 迭代优化之后的所述人脸表情姿态信息、所述身体动作信息和所述手势动作信息即为提取的所述人体的人脸表情姿态信息、所述身体动作信息和所述手势动作信息。
[0145] 在一个实施例中,处理器1001在执行根据所述裁切图,确定所述人体的人脸表情姿态信息时,具体执行以下操作:
[0146] 将所述裁切图输入预训练模型,得到所述人体的人脸通用特征;
[0147] 根据所述人脸通用特征、通用ID编码网络、表情提取神经网络、表情优化模型以及姿态提取神经网络,获取所述人体的人脸表情姿态信息;
[0148] 通过时空融合网络对所述人脸表情姿态信息进行融合,得到融合之后的所述人脸表情姿态信息。
[0149] 在一个实施例中,处理器1001在执行根据所述裁切图,确定所述人体的身体动作信息和手势动作信息时,具体执行以下操作:
[0150] 根据所述裁切图,提取所述人体的关节全局图、手势全局图、关节局部图和手势局部图;
[0151] 将所述关节全局图、所述关节局部图分别输入mobilenet网络,输出所述人体的关节全局特征和关节局部特征;
[0152] 将所述手势全局图、所述手势局部图分别输入mobilenet网络,输出所述人体的手势全局特征和手势局部特征;
[0153] 通过时空融合网络对所述关节全局特征和所述关节局部特征进行融合,得到身体动作信息;
[0154] 通过所述时空融合网络对所述手势全局特征和所述手势局部特征进行融合,得到手势动作信息。
[0155] 在一个实施例中,处理器1001在执行根据所述裁切图,提取所述人体的身体根位置3D信息时,具体执行以下操作:
[0156] 根据所述裁切图,提取所述人体的运动方向特征和跟踪信息;
[0157] 根据所述运动方向特征、所述跟踪信息和物理规则的先验约束,确定所述人体的身体根位置3D信息。
[0158] 在本申请实施例中,所述人体全身动作捕捉方法,首先采集人体的运动数据;然后对所述运动数据进行清洗标注,获得所述人体的裁切图;其次根据所述裁切图和/或循环反馈、迭代互助优化的融合方式,提取所述人体的人脸表情姿态信息、所述身体动作信息、所述手势动作信息和身体根位置3D信息;最后将所述人脸表情姿态信息、所述身体动作信息、所述手势动作信息和所述身体根位置3D信息进行时空融合,获取所述人体的全身动作信息。本申请能够将实时提取的人体的人脸表情姿态信息、所述身体动作信息、所述手势动作信息和身体根位置3D信息进行时空融合,获取人体的全身动作信息,不仅具有成本低廉、使用方便的特点,而且能够使得捕捉精度和稳定度得到提高。
[0159] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
[0160] 以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
QQ群二维码
意见反馈