首页 / 专利库 / 软件 / 模型驱动体系结构 / 一种基于多视图深感知器框架的三维姿势估计方法

一种基于多视图深感知框架的三维姿势估计方法

阅读:471发布:2020-05-15

专利汇可以提供一种基于多视图深感知框架的三维姿势估计方法专利检索,专利查询,专利分析的服务。并且本 发明 中提出的一种基于多视图深 感知 器 框架 的三维姿势估计方法,其主要内容包括:特定视图感知器网络、多视图集成网络、分层跳跃连接、数据预处理、训练和评估,其过程为,特定视图感知器网络从不同的视图中提取二维形状和分层纹理信息,特定视图感知器网络针对各个视图产生映射,由 编码器 和 解码器 组成的沙漏网络构建每个关节的高 分辨率 热图,利用沙漏网络的跳跃连接来实现多视图集成网络,多视图集成网络合成来自所有可用视图的信息,提供准确的三维 姿态 。本发明将层次结构信息与估计关节热图结合起来推断三维结构,可以克服直接测量和观测系统的局限性,对三维姿势的估计具有更高的准确性。,下面是一种基于多视图深感知框架的三维姿势估计方法专利的具体信息内容。

1.一种基于多视图深感知框架的三维姿势估计方法,其特征在于,主要包括特定视图感知器网络(一);多视图集成网络(二);分层跳跃连接(三);数据预处理(四);训练和评估(五)。
2.基于权利要求书1所述的基于多视图深感知器框架的三维姿势估计方法,其特征在于,这种方法由两个网络组成:一个“特定视图感知器”网络从不同的视图中提取二维形状和分层纹理信息;而“多视图集成”网络则可以合成来自所有可用视图的信息,提供准确的三维姿态
3.基于权利要求书1所述的特定视图感知器网络(一),其特征在于,特定视图感知器网络从每个视图提取丰富的信息,其中不仅包括二维形状,还包括用于下一步三维推断的分层纹理信息;每个二维身体姿势由J热图表示,其中J表示身体关节的数量;设为视图i的输入RGB图像, 为视图i的第s个纹理特征映射,
为视图i的第j个联合热图;然后,针对第i个视图的特定视图感知器
网络(f)映射如下:
中间监督是通过像素热图损失来执行的:
其中,‖·‖是欧几里德距离,是通过高斯核函数从标定好的真实二维姿态渲染的,其平均值等于标定好的真实数据和方差;接着使用由编码器解码器组成的沙漏网络。
4.基于权利要求书3所述的沙漏网络,其特征在于,编码器使用卷积和合并的图层来处理输入图像,生成低分辨率的特征图,解码器使用上采样和卷积层处理低分辨率特征图,构建每个关节的高分辨率热图;沙漏网络的关键组成部分之一是跳跃连接,即每个汇聚层之前的特征映射,它们直接添加到解码器中的对应部分,防止编码器中高分辨率信息的丢失;
这些网络的分层跳跃连接以不同比例共享丰富的纹理信息;因此,建议通过将它们提供给多视图集成网络来将它们用于更高效的三维推理;它们允许使用更丰富的梯度信号,并且可以提供更多的三维提示,而不仅是使用热图和未处理的输入图像的组合。
5.基于权利要求书1所述的多视图集成网络(二),其特征在于,多视图集成网络集成了多个视图的信息来合成三维姿态估计;该网络的输入是针对N个不同视图的特定视图感知器网络的输出的连接,并且输出是三维姿态;每个三维姿势骨架 被定义为三维空间中的一组关节协调;因此多视图集成网络(g)的映射如下:
通过假设三维关节注释可用于训练数据集,损失函数可以定义为:
其中,pj和 分别是标定好的真实数据和估计关节j的三维坐标;
提出一种自下而上的数据驱动方法,它直接从视觉特定感知器网络的输出生成三维姿态骨架;多视图集成网络被设计为编码器。
6.基于权利要求书5所述的编码器,其特征在于,测试两种类型的编码器:首先,编码器由一系列内核和步长为2的卷积层构成,其中特征映射的分辨率在每一层都是一半;其次,一个类似于沙漏网络第一部分的编码器,其中包括最大汇集层和标准卷积层被一堆残差学习模所取代;第一和第二网络架构分别称为简单的编码器和半沙漏网络;对于两种网络体系结构,编码器输出然后被转发到输出大小为3×J的全连接层,用于估计三维姿态骨架并测量训练的损失函数;可以看出,从残差模块中受益并且周期性插入最大池层的半沙漏网络可以提供比简单编码器网络更精确的三维姿态比较。
7.基于权利要求书1所述的分层跳跃连接(三),其特征在于,利用沙漏网络的跳跃连接来实现多视图集成网络;在提出的框架中,沙漏网络的编码器部分产生的四个跳跃连接中的每一个都用残差模块处理,并与半沙漏网络中的对应部分相加;为了处理多视图设置,每个跳跃连接应在作为网络输入之前在视图之间连接起来。
8.基于权利要求书1所述的数据预处理(四),其特征在于,为了准备训练图像,从视频中下采样图像;每个视频包括200,每秒30帧的速率,只采用奇数帧来防止过度拟合;所有的图像被调整为256×256像素,并被裁剪,使主体位于中心;三维关节注释由动作捕捉系统提供。
9.基于权利要求书8所述的三维关节注释,其特征在于,选择23个标记来定义包括头部、颈部、左/右肩、左/右肘、左/右手腕、左/右髋、左/右膝和左/右踝在内的14个关节,并仅使用这些关节的轨迹用于训练网络的关节;整个数据集中每个关节的协调从零到一归一化;预处理之后,数据结构由视频的每个奇数帧的裁剪图像和对应的标准化三维关节注释组成。
10.基于权利要求书1所述的训练和评估(五),其特征在于,提出一种两阶段的训练战略,在第一阶段使用沙漏模型,并在举重数据集上对其进行微调,学习率为0.00025,经过5个时期;在第二阶段,通过使用双视图图像和相应的归一化三维姿态骨架,在举重数据集上从头开始对多视图集成模型进行训练;对于50个时期,模型的学习率为0.0005;
为了评估网络对于单视图和双视图设置的性能,进行两个实验:首先,网络针对单视图设置进行了训练,分别使用90度和135度视图;其次,该网络被训练成使用两个视图共同作为网络输入的双视图设置;在所有的实验中,所有对象的重复和举重任务作为训练数据集,所有对象的重复作为测试数据集。

说明书全文

一种基于多视图深感知框架的三维姿势估计方法

技术领域

[0001] 本发明涉及姿势估计领域,尤其是涉及了一种基于多视图深感知器框架的三维姿势估计方法。

背景技术

[0002] 人体姿势估计是近年来计算机视觉领域的研究热点。计算机系统通过从图像或视频中提取人体姿势画面,对人体的姿势进行分析和统计,从而对人物的行为进行判断。因此,人体姿势估计具有极为广泛的应用。在异常行为检测系统的应用中,通过对视频监控画面中的人物姿势进行实时地检测和分析,当画面中出现打架斗殴、偷窃等行为时,系统能及时记录并发出警报。在体育运动姿势分析的应用中,利用三维姿势估计的视频分析系统对运动员训练时的视频数据进行分析处理,计算出相关的运动参数并进行专业分析,从而为下次训练提供针对性指导;其也可用于比赛战术分析,通过对对手的比赛视频进行分析处理,能够分析对手姿势的相关数据,从而协助运动员制定相关战术方案。在体感互动游戏的应用中,通过实时监控玩家的姿势和运动状态,将玩家在屏幕前的身体姿势和动作转化为数据传递给游戏系统,从而实现人机交互。近年来开发的捕捉三维人体姿态的系统,如直接测量和观测系统,这些系统较为昂贵,且耗时较长,准确性不高。
[0003] 本发明提出了一种基于多视图深感知器框架的三维姿势估计方法,特定视图感知器网络从不同的视图中提取二维形状和分层纹理信息,特定视图感知器网络针对各个视图产生映射,由编码器解码器组成的沙漏网络构建每个关节的高分辨率热图,利用沙漏网络的跳跃连接来实现多视图集成网络,多视图集成网络合成来自所有可用视图的信息,提供准确的三维姿态。本发明将层次结构信息与估计关节热图结合起来推断三维结构,可以克服直接测量和观测系统的局限性,对三维姿势的估计具有更高的准确性。

发明内容

[0004] 针对现有系统较为昂贵,且耗时较长,准确性不高的问题,本发明的目的在于提供一种基于多视图深感知器框架的三维姿势估计方法,特定视图感知器网络从不同的视图中提取二维形状和分层纹理信息,特定视图感知器网络针对各个视图产生映射,由编码器和解码器组成的沙漏网络构建每个关节的高分辨率热图,利用沙漏网络的跳跃连接来实现多视图集成网络,多视图集成网络合成来自所有可用视图的信息,提供准确的三维姿态。
[0005] 为解决上述问题,本发明提供一种基于多视图深感知器框架的三维姿势估计方法,其主要内容包括:
[0006] (一)特定视图感知器网络;
[0007] (二)多视图集成网络;
[0008] (三)分层跳跃连接;
[0009] (四)数据预处理;
[0010] (五)训练和评估。
[0011] 其中,所述的基于多视图深感知器框架的三维姿势估计方法,这种方法由两个网络组成:一个“特定视图感知器”网络从不同的视图中提取二维形状和分层纹理信息;而“多视图集成”网络则可以合成来自所有可用视图的信息,提供准确的三维姿态。
[0012] 其中,所述的特定视图感知器网络,特定视图感知器网络从每个视图提取丰富的信息,其中不仅包括二维形状,还包括用于下一步三维推断的分层纹理信息;每个二维身体姿势由J热图表示,其中J表示身体关节的数量;设 为视图i的输入RGB图像,为视图i的第s个纹理特征映射, 为视图i的第j个联合热图;然后,针对第i个视图的特定视图感知器网络(f)映射如下:
[0013]
[0014] 中间监督是通过像素热图损失来执行的:
[0015]
[0016] 其中,‖·‖是欧几里德距离, 是通过高斯核函数从标定好的真实二维姿态渲染的,其平均值等于标定好的真实数据和方差;接着使用由编码器和解码器组成的沙漏网络。
[0017] 进一步地,所述的沙漏网络,编码器使用卷积和合并的图层来处理输入图像,生成低分辨率的特征图,解码器使用上采样和卷积层处理低分辨率特征图,构建每个关节的高分辨率热图;沙漏网络的关键组成部分之一是跳跃连接,即每个汇聚层之前的特征映射,它们直接添加到解码器中的对应部分,防止编码器中高分辨率信息的丢失;这些网络的分层跳跃连接以不同比例共享丰富的纹理信息;因此,建议通过将它们提供给多视图集成网络来将它们用于更高效的三维推理;它们允许使用更丰富的梯度信号,并且可以提供更多的三维提示,而不仅是使用热图和未处理的输入图像的组合。
[0018] 其中,所述的多视图集成网络,多视图集成网络集成了多个视图的信息来合成三维姿态估计;该网络的输入是针对N个不同视图的特定视图感知器网络的输出的连接,并且输出是三维姿态;每个三维姿势骨架 被定义为三维空间中的一组关节协调;因此多视图集成网络(g)的映射如下:
[0019]
[0020] 通过假设三维关节注释可用于训练数据集,损失函数可以定义为:
[0021]
[0022] 其中,pj和 分别是标定好的真实数据和估计关节j的三维坐标;
[0023] 提出一种自下而上的数据驱动方法,它直接从视觉特定感知器网络的输出生成三维姿态骨架;多视图集成网络被设计为编码器。
[0024] 进一步地,所述的编码器,测试两种类型的编码器:首先,编码器由一系列内核和步长为2的卷积层构成,其中特征映射的分辨率在每一层都是一半;其次,一个类似于沙漏网络第一部分的编码器,其中包括最大汇集层和标准卷积层被一堆残差学习模所取代;第一和第二网络架构分别称为简单的编码器和半沙漏网络;对于两种网络体系结构,编码器输出然后被转发到输出大小为3×J的全连接层,用于估计三维姿态骨架并测量训练的损失函数;可以看出,从残差模块中受益并且周期性插入最大池层的半沙漏网络可以提供比简单编码器网络更精确的三维姿态比较。
[0025] 其中,所述的分层跳跃连接,利用沙漏网络的跳跃连接来实现多视图集成网络;在提出的框架中,沙漏网络的编码器部分产生的四个跳跃连接中的每一个都用残差模块处理,并与半沙漏网络中的对应部分相加;为了处理多视图设置,每个跳跃连接应在作为网络输入之前在视图之间连接起来。
[0026] 其中,所述的数据预处理,为了准备训练图像,从视频中下采样图像;每个视频包括200,每秒30帧的速率,只采用奇数帧来防止过度拟合;所有的图像被调整为256×256像素,并被裁剪,使主体位于中心;三维关节注释由动作捕捉系统提供。
[0027] 进一步地,所述的三维关节注释,选择23个标记来定义包括头部、颈部、左/右肩、左/右肘、左/右手腕、左/右髋、左/右膝和左/右踝在内的14个关节,并仅使用这些关节的轨迹用于训练网络的关节;整个数据集中每个关节的协调从零到一归一化;预处理之后,数据结构由视频的每个奇数帧的裁剪图像和对应的标准化三维关节注释组成。
[0028] 其中,所述的训练和评估,提出一种两阶段的训练战略,在第一阶段使用沙漏模型,并在举重数据集上对其进行微调,学习率为0.00025,经过5个时期;在第二阶段,通过使用双视图图像和相应的归一化三维姿态骨架,在举重数据集上从头开始对多视图集成模型进行训练;对于50个时期,模型的学习率为0.0005;
[0029] 为了评估网络对于单视图和双视图设置的性能,进行两个实验:首先,网络针对单视图设置进行了训练,分别使用90度和135度视图;其次,该网络被训练成使用两个视图共同作为网络输入的双视图设置;在所有的实验中,所有对象的重复和举重任务作为训练数据集,所有对象的重复作为测试数据集。附图说明
[0030] 图1是本发明一种基于多视图深感知器框架的三维姿势估计方法的系统流程图
[0031] 图2是本发明一种基于多视图深感知器框架的三维姿势估计方法的多视图深感知器框架。
[0032] 图3是本发明一种基于多视图深感知器框架的三维姿势估计方法的多视图集成网络。

具体实施方式

[0033] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
[0034] 图1是本发明一种基于多视图深感知器框架的三维姿势估计方法的系统流程图。主要包括特定视图感知器网络,多视图集成网络,分层跳跃连接,数据预处理,训练和评估。
[0035] 特定视图感知器网络从不同的视图中提取二维形状和分层纹理信息,特定视图感知器网络针对各个视图产生映射,由编码器和解码器组成的沙漏网络构建每个关节的高分辨率热图,利用沙漏网络的跳跃连接来实现多视图集成网络,多视图集成网络合成来自所有可用视图的信息,提供准确的三维姿态。
[0036] 其中,为了准备训练图像,从视频中下采样图像;每个视频包括200帧,每秒30帧的速率,只采用奇数帧来防止过度拟合;所有的图像被调整为256×256像素,并被裁剪,使主体位于中心;三维关节注释由动作捕捉系统提供。
[0037] 选择23个标记来定义包括头部、颈部、左/右肩、左/右肘、左/右手腕、左/右髋、左/右膝和左/右踝在内的14个关节,并仅使用这些关节的轨迹用于训练网络的关节;整个数据集中每个关节的协调从零到一归一化;预处理之后,数据结构由视频的每个奇数帧的裁剪图像和对应的标准化三维关节注释组成。
[0038] 提出一种两阶段的训练战略,在第一阶段使用沙漏模型,并在举重数据集上对其进行微调,学习率为0.00025,经过5个时期;在第二阶段,通过使用双视图图像和相应的归一化三维姿态骨架,在举重数据集上从头开始对多视图集成模型进行训练;对于50个时期,模型的学习率为0.0005;
[0039] 为了评估网络对于单视图和双视图设置的性能,进行两个实验:首先,网络针对单视图设置进行了训练,分别使用90度和135度视图;其次,该网络被训练成使用两个视图共同作为网络输入的双视图设置;在所有的实验中,所有对象的重复和举重任务作为训练数据集,所有对象的重复作为测试数据集。
[0040] 图2是本发明一种基于多视图深感知器框架的三维姿势估计方法的多视图深感知器框架。特定视图感知器网络从每个视图提取丰富的信息,其中不仅包括二维形状,还包括用于下一步三维推断的分层纹理信息;每个二维身体姿势由J热图表示,其中J表示身体关节的数量;设 为视图i的输入RGB图像, 为视图i的第s个纹理特征映射, 为视图i的第j个联合热图;然后,针对第i个
视图的特定视图感知器网络(f)映射如下:
[0041]
[0042] 中间监督是通过像素热图损失来执行的:
[0043]
[0044] 其中,‖·‖是欧几里德距离, 是通过高斯核函数从标定好的真实二维姿态渲染的,其平均值等于标定好的真实数据和方差;接着使用由编码器和解码器组成的沙漏网络。
[0045] 编码器使用卷积和合并的图层来处理输入图像,生成低分辨率的特征图,解码器使用上采样和卷积层处理低分辨率特征图,构建每个关节的高分辨率热图;沙漏网络的关键组成部分之一是跳跃连接,即每个汇聚层之前的特征映射,它们直接添加到解码器中的对应部分,防止编码器中高分辨率信息的丢失;这些网络的分层跳跃连接以不同比例共享丰富的纹理信息;因此,建议通过将它们提供给多视图集成网络来将它们用于更高效的三维推理;它们允许使用更丰富的梯度信号,并且可以提供更多的三维提示,而不仅是使用热图和未处理的输入图像的组合。
[0046] 利用沙漏网络的跳跃连接来实现多视图集成网络;在提出的框架中,沙漏网络的编码器部分产生的四个跳跃连接中的每一个都用残差模块处理,并与半沙漏网络中的对应部分相加;为了处理多视图设置,每个跳跃连接应在作为网络输入之前在视图之间连接起来。
[0047] 图3是本发明一种基于多视图深感知器框架的三维姿势估计方法的多视图集成网络。多视图集成网络集成了多个视图的信息来合成三维姿态估计;该网络的输入是针对N个不同视图的特定视图感知器网络的输出的连接,并且输出是三维姿态;每个三维姿势骨架被定义为三维空间中的一组关节协调;因此多视图集成网络(g)的映射如下:
[0048]
[0049] 通过假设三维关节注释可用于训练数据集,损失函数可以定义为:
[0050]
[0051] 其中,pj和 分别是标定好的真实数据和估计关节j的三维坐标;
[0052] 提出一种自下而上的数据驱动方法,它直接从视觉特定感知器网络的输出生成三维姿态骨架;多视图集成网络被设计为编码器。
[0053] 测试两种类型的编码器:首先,编码器由一系列内核和步长为2的卷积层构成,其中特征映射的分辨率在每一层都是一半;其次,一个类似于沙漏网络第一部分的编码器,其中包括最大汇集层和标准卷积层被一堆残差学习模块所取代;第一和第二网络架构分别称为简单的编码器和半沙漏网络;对于两种网络体系结构,编码器输出然后被转发到输出大小为3×J的全连接层,用于估计三维姿态骨架并测量训练的损失函数;可以看出,从残差模块中受益并且周期性插入最大池层的半沙漏网络可以提供比简单编码器网络更精确的三维姿态比较。
[0054] 对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈