首页 / 专利库 / 电信 / 节点 / 子节点 / 一种基于3D人体关键点的时序行为检测方法

一种基于3D人体关键点的时序行为检测方法

阅读:459发布:2023-12-16

专利汇可以提供一种基于3D人体关键点的时序行为检测方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于3D人体关键点的时序行为检测方法,该方法包含:将视频数据作为输入,通过数据预处理将视频数据转换为连续的 帧 图像;利用多层CNN网络进行特征提取,检测出图像中人员目标的边界框;然后经过身体部位 定位 和关联程度分析,得到2D人体关键点坐标,通过构造关键点回归网络实现了2D人体关键点到3D关键点的映射;将3D联合坐标输入 时空 图卷积网络对整个视频序列进行帧级动作识别与分类,通过对同一标签的相邻帧进行分组,获得不同粒度的动作提议段;通过细粒度完整性过滤以精确修正动作的时间边界,实现了复杂场景下的时序行为检测。本发明的方法能够从3D数据中解析出更多有价值的信息,显著提高了时序行为检测与定位的 精度 。,下面是一种基于3D人体关键点的时序行为检测方法专利的具体信息内容。

1.一种基于3D人体关键点的时序行为检测方法,其特征及具体步骤如下:
S1,输入一个未修剪的视频V,通过视频序列预处理将视频数据转换为连续的LRGB图像,记为V={V1,V2,…,VL};
S2,通过多层CNN网络进行特征提取,检测出图像中人员目标的边界框;
S3,经过身体部位定位和关联程度分析,求得所有部位之间的关联程度以建立相对位置关系,得到一组2D人体关键点坐标;
S4,通过构造关键点回归网络,使用匹配对对齐的方式,实现2D人体关键点到3D关键点的映射,构造出一组对应的3D人体关键点坐标;
S5,将S4中得到的3D联合坐标输入时空图卷积网络,通过动作分类器对整个视频序列进行帧级动作识别与分类,得到动作类别的置信度评分,包括背景类别的评分;
S6,通过对置信分数的阈值化和对同一标签的相邻帧进行分组,可以将视频分割成段并产生定位结果,设置不同的阈值以实现不同的定位精度要求,获得不同粒度的动作提议段;
S7,通过对动作提议段进行细粒度完整性过滤以精确修正和检测动作的时间边界;
S8,输出动作的类别以及发生的开始和结束时间。
2.根据权利要求1所述的一种基于3D人体关键点的时序行为检测方法,其特征在于,对于步骤S3,本发明使用的身体部位定位和关联程度分析是在两个分支上同时进行,前者是为了求得所有的关键点,包括头部等18个关键点,后者是为了求得所有部位之间的关联程度以建立相对位置关系;身体部位定位算法由一系列分类器组成,分成多个阶段,每个阶段为人体每个部位重复生成置信图,每一张置信图包含某一种关键点,该置信图与原始图像特征同时用作下一阶段的输入,预测各部位的位置,进而确定人体各关键点的位置,其中,分类器的结构如下:
式(1)中, 表示图像的像素空间,xi是图像中的每个像素的位置,p表示一个具体模型部位, 表示第一阶段中部位p的置信值;
在所述的步骤S3中,关联程度分析是对人体部位的位置和方向进行编码,通过在二维矢量场中矢量的方向判别多人关键点的从属问题,利用矢量之间的位移长度建立人体各部位之间的相对位置关系,从而实现人体不可见关键点的预测与估计;通过两个分支联合学习关键点的位置和它们之间的联系,同时推断这些自下而上的检测和关联的方式,利用贪心分析算法能够对全局上下文进行足够的编码,获得高质量的结果,最终得到人体所有关键点的详细信息。
3.根据权利要求1所述的一种基于3D人体关键点的时序行为检测方法,其特征在于,对于步骤S4,本发明构造的关键点回归网络,其目标是给定一个二维坐标的输入,输出一个三维空间的关键点的坐标估计,即输入数据是一系列二维的点 输出数据是三维空间的一系列坐标点 则回归网络的表示函数为f: 目标函数f*即使得在N个
姿态中有最小的预测错误率,表示为:
式(2)中,在实际操作中,xi表示二维的ground-truth关键点坐标,yi是根据图像估计出的二维关键点的坐标,ζ是一个超参数,通过目标函数就是要找到一个简单的、可扩展的、高效的架构来设计一个神经网络去完成2D关键点到3D关键点的映射任务;
在所述的步骤S4中,匹配对对齐是通过迭代最小化的方式将2D坐标参数UV映射到3D人体模型上,然后拟合到帧图像中;UV映射是将一个2D纹理映射到一个3D模型上,利用场景中人体的已知三维结构,当感知人体运动时,抽象成一组稀疏的点投影,在三维空间中形成对相应关键点的坐标估计。
4.根据权利要求1所述的一种基于3D人体关键点的时序行为检测方法,其特征在于,对于步骤S5,本发明使用时空图卷积网络来对整个视频序列进行帧级动作识别与分类,网络的输入数据是一系列的帧图像,每一帧图像都有一组3D联合坐标,使用图结构规则,充分利用空间和时序结构信息来构建时空图;然后使用多层图卷积网络以提取高层特征,判断时空图节点的邻域子集个数并设计对应的空间划分规则;最后,利用标准的Softmax动作分类器进行动作分类,输出动作类别标签和相应的动作评分,其中,时空图G的构建表示如下:
G=(V,E)                (3)
式(3)中,V表示所有输入帧中关键点构成的3D节点集,E表示所有的有向边构成的边集;
在所述的步骤S5中,构建时空图时,在每一视频帧内部,按照人体的自然骨架连接关系构造3D空间图,同时将相邻两帧的相同关键点连接构成时序边,按照上述规则得到时空图,自然地保留了骨架关键点的空间信息,并使得关键点的运动轨迹以时序边的形式得到表现;具体而言,在时空图中节点集合V={vti|t=1,2...T,i=1,2...N}包含关键点序列上的所有的3D关键点,其中,T表示视频帧数,N表示人体所有关键点的个数,设置为18;当构建时空图时,关键点上的第t帧、第i个关键点的特征向量F(vti)是由关键点的坐标信息和置信度组成的;边的集合E有两个子集组成,分别是每一视频帧帧内关键点的链接Es={vtivtj|(i,j)∈P}以及不同视频帧帧间的链接Et={vtiv(t+1)i},其中,P表示人体所有关键点的集合,i,j分别是关键点集合中的两个任意关键点。
5.根据权利要求1所述的一种基于3D人体关键点的时序行为检测方法,其特征在于,对于步骤S5,本发明使用的多层图卷积网络从2D自然图像或特征图上的卷积运算来看,它们可被视为二维网格,卷积操作输出的特征图也是一个2D网格,当选用步长为1及恰当的padding时,可以使得输出特征图与输入图像保持一样的大小,设一个大小为K×K的卷积核,输入图像为fin,则单个通道在位置x的输出如下:
式(4)中,h,w分别表示输入图像的长和宽,p(x,h,w)表示采样函数,用于计算具有维度c的采样输入特征向量的内积,w(h,w)表示权重函数,权重函数与输入的位置x无关,因此,输入图像上的所有滤镜权重都是共享的,图像域的标准卷积通过对p(x)中的矩形网格进行编码来实现,其中,图像卷积的采样函数可以表示为:
p(x,h,w)=x+p′(h,w)                   (5)
式(5)中,p(h,w)被定义为中心像素x的邻域像素,在时空图上同样定义点vti邻域集的采样函数B(vti)表示为:
B(vti)={vtj|d(vtj,vti≥D)}          (6)
式(6)中,d(vtj,vti)表示为vtj到vti的最小路径,在本算法中D=1,表示取距离为1的为邻域集,随着重新定义采样和权重函数,将式(5)应用到图卷积上,得到新的fout(x)函数,表示为:
式(7)中,如果将图像视为常规2D网格,则该公式可以类似于标准2D卷积,类似于3×3卷积运算,在3×3中有一个9像素的邻域,以像素为中心的3格,然后将邻域组分割成9个子集,每个子集有一个像素,此外,Zti(vti)表示正则化项,等于相应子集的基数,表示为:
Zti(vtj)=|{vtk|lti(vtk)=lti(vtj)}|              (8)
式(8)中,正则化项的出现增加了不同子集的贡献,会自动削弱不重要的特征变量,自动从许多的特征变量中提取出重要的特征变量,减小特征变量的数量级。
6.根据权利要求1所述的一种基于3D人体关键点的时序行为检测方法,其特征在于,对于步骤S6,本发明通过帧级动作识别与分类对视频进行定位与分割,相对于传统的滑动窗口的方法,该方法对噪声的鲁棒性较强,设计的时域平滑策略应用在提议片段上而不是整个视频,可以有效地避免相邻帧分组的挑战以及加速测试过程;为了观察更宽的时间间隔,将每个动作提议片段的边界在两侧拓展了原始段长度的百分比α,初始时将α设置为1/8以进行所有测试,当在合理范围内变化时,模型表现稳定;在视频上滑动时域空间相互不重叠,只保留与至少一个扩展提议片段相重叠的时域空间,每个提案段的类别设置为具有该段中所有帧的最大平均置信度得分的类,如果一个提议段不属于背景,则保留并提取边界,在给定分段中预测类别的分数序列;此外,通过执行高斯核密度估计,得到其平均μ和标准差σ,从扩展段的每一侧边界空间开始并向其中间移动,缩小其时间边界,直到达到一个具有置信度分数不低于μ-σ的帧;最后,将该段的预测分数设置为预测类别在精细边界段中的帧的平均置信度。
7.根据权利要求1所述的一种基于3D人体关键点的时序行为检测方法,其特征在于,对于步骤S7,本发明在去除背景片段后对剩余的动作提议段进行分类,但保留的这些子集中可能仍包含不完整或多余的实例,需使用特定的完整性过滤器来过滤出这些片段以保证动作的完整性,通过位置回归来优化提议段本身的时间区间;具体而言,设计的完整性过滤器包括一组位置回归器和一级时间金字塔结构,前者针对每一个行为类别将其适应到一维时域,通过设置一系列的定位回归{Rl|l∈[1,L]},对于给定的提议段同时对间隔中心和和跨度进行回归,后者汇集提议段区域内的片段分数,并将提议段区域之前和之后的2个短期分类评分进行均衡化;然后,完整性过滤器使用来自时间金字塔结构和周围片段的特征来评估剩余的提议段,那么每个提议段最终检测的置信度SDet表示为:
SDet=Pl×Sc                   (9)
式(9)中,Pl表示位置回归器对提议段L优化后动作在该区间内发生的概率,Sc表示来自时间金字塔结构分类评分的输出。

说明书全文

一种基于3D人体关键点的时序行为检测方法

技术领域

[0001] 本发明属于计算机图形与图像处理领域,涉及一种基于3D人体关键点的时序行为检测方法。

背景技术

[0002] 理解视频中人的动作和行为,是计算机视觉和智能视频分析领域的一个挑战性问题,也是视频内容理解的关键,极具广泛的应用前景,时序行为检测是该领域中的一个重要研究课题。近年来,由于视频量的急剧增长和神经网络的飞快发展,时序行为检测得到了更多的关注,该方面的研究取得了一定的进展。一段视频中可能包含一个或多个行为片段,在给定一段未分割的长视频中,检测出视频中的行为片段,包括其开始时间、结束时间以及行为类别,这对人体行为的理解和应用至关重要,目前的趋势是寻找视频中人体行为的相关性来更精准的定位,寻找可以代替光流的方法来加速模型。时序行为检测的相关算法一般可以分为两个部分,包括时序动作提案生成和动作行为分类,前者产生候选视频时序片段,类似于Faster-RCNN中的RPN网络的作用,后者判断候选视频时序片段的动作类别,两个部分结合在一起,即实现了视频中的时序动作检测。
[0003] 由于时序行为检测和目标检测之间存在一定的相似性,所以很多方法都采用一些与目标检测方法相似的框架,最常见的就是R-CNN系列的方法。在目标检测中,人员目标的边界通常是非常明确的,所以可以标注出较为明确的边界框,但是时序行为的边界很多时候并不是很明确,什么时候定义一个行为开始与结束通常无法给出一个准确的边界。此外,在时序行为检测中是无法只使用静态图像信息的,必须结合时序的信息,如使用RNN读入每图像上用CNN提取的特征或是使用时序卷积等。已有的算法形如SCNN、CDC和TURN等算法,通过使用和改进生成候选区域的方法以对候选区进行动作分类,适用于简单特定的场景。但是在人体遮挡严重、姿态多变以及干扰物存在较多的实际工程场景中,时序行为片段的时间跨度变化可能非常大,最短的行为片段大概1s左右,最长的行为片段则超过了200s,巨大的时长跨度也使得检测效果急剧下降。因此,如何在干扰因素繁多和背景复杂的实际工程场景中,实现准确高效的时序行为检测成为一个亟待解决的难题。

发明内容

[0004] 本发明为了克服上述缺陷,提出了一种基于3D人体关键点的时序行为检测方法,本发明具体步骤如下:
[0005] S1,输入一个未修剪的视频V,通过视频序列预处理将视频数据转换为连续的L帧RGB图像,记为V={V1,V2,…,VL};
[0006] S2,通过多层CNN网络进行特征提取,检测出图像中人员目标的边界框;
[0007] S3,经过身体部位定位和关联程度分析,求得所有部位之间的关联程度以建立相对位置关系,得到一组2D人体关键点坐标;
[0008] S4,通过构造关键点回归网络,使用匹配对对齐的方式,实现2D人体关键点到3D关键点的映射,构造出一组对应的3D人体关键点坐标;
[0009] S5,将S4中得到的3D联合坐标输入时空图卷积网络,通过动作分类器对整个视频序列进行帧级动作识别与分类,得到动作类别的置信度评分,包括背景类别的评分;
[0010] S6,通过对置信分数的阈值化和对同一标签的相邻帧进行分组,可以将视频分割成段并产生定位结果,设置不同的阈值以实现不同的定位精度要求,获得不同粒度的动作提议段;
[0011] S7,通过对动作提议段进行细粒度完整性过滤以精确修正和检测动作的时间边界;
[0012] S8,输出动作的类别以及发生的开始和结束时间。
[0013] 本发明的技术方案特征和改进为:
[0014] 对于步骤S3,本发明使用的身体部位定位和关联程度分析是在两个分支上同时进行,前者是为了求得所有的关键点,包括头部等18个关键点,后者是为了求得所有部位之间的关联程度以建立相对位置关系;身体部位定位算法由一系列分类器组成,分成多个阶段,每个阶段为人体每个部位重复生成置信图,每一张置信图包含某一种关键点,该置信图与原始图像特征同时用作下一阶段的输入,预测各部位的位置,进而确定人体各关键点的位置,其中,分类器的结构如下:
[0015]
[0016] 式(1)中, 表示图像的像素空间,xi是图像中的每个像素的位置,p表示一个具体模型部位, 表示第一阶段中部位p的置信值。
[0017] 优选地,在所述的步骤S3中,关联程度分析是对人体部位的位置和方向进行编码,通过在二维矢量场中矢量的方向判别多人关键点的从属问题,利用矢量之间的位移长度建立人体各部位之间的相对位置关系,从而实现人体不可见关键点的预测与估计;通过两个分支联合学习关键点的位置和它们之间的联系,同时推断这些自下而上的检测和关联的方式,利用贪心分析算法能够对全局上下文进行足够的编码,获得高质量的结果,最终得到人体所有关键点的详细信息。
[0018] 对于步骤S4,本发明构造的关键点回归网络,其目标是给定一个二维坐标的输入,输出一个三维空间的关键点的坐标估计,即输入数据是一系列二维的点 输出数据是三维空间的一系列坐标点 则回归网络的表示函数为 目标函数f*即使得在N个姿态中有最小的预测错误率,表示为:
[0019]
[0020] 式(2)中,在实际操作中,xi表示二维的ground-truth关键点坐标,yi是根据图像估计出的二维关键点的坐标,ζ是一个超参数,通过目标函数就是要找到一个简单的、可扩展的、高效的架构来设计一个神经网络去完成2D关键点到3D关键点的映射任务。
[0021] 优选地,在所述的步骤S4中,匹配对对齐是通过迭代最小化的方式将2D坐标参数UV映射到3D人体模型上,然后拟合到帧图像中;UV映射是将一个2D纹理映射到一个3D模型上,利用场景中人体的已知三维结构,当感知人体运动时,抽象成一组稀疏的点投影,在三维空间中形成对相应关键点的坐标估计。
[0022] 对于步骤S5,本发明使用时空图卷积网络来对整个视频序列进行帧级动作识别与分类,网络的输入数据是一系列的帧图像,每一帧图像都有一组3D联合坐标,使用图结构规则,充分利用空间和时序结构信息来构建时空图;然后使用多层图卷积网络以提取高层特征,判断时空图节点的邻域子集个数并设计对应的空间划分规则;最后,利用标准的Softmax动作分类器进行动作分类,输出动作类别标签和相应的动作评分,其中,时空图G的构建表示如下:
[0023] G=(V,E)  (3)
[0024] 式(3)中,V表示所有输入帧中关键点构成的3D节点集,E表示所有的有向边构成的边集。
[0025] 优选地,在所述的步骤S5中,构建时空图时,在每一视频帧内部,按照人体的自然骨架连接关系构造3D空间图,同时将相邻两帧的相同关键点连接构成时序边,按照上述规则得到时空图,自然地保留了骨架关键点的空间信息,并使得关键点的运动轨迹以时序边的形式得到表现;具体而言,在时空图中节点集合V={vti|t=1,2...T,i=1,2...N}包含关键点序列上的所有的3D关键点,其中,T表示视频帧数,N表示人体所有关键点的个数,设置为18;当构建时空图时,关键点上的第t帧、第i个关键点的特征向量F(vti)是由关键点的坐标信息和置信度组成的;边的集合E有两个子集组成,分别是每一视频帧帧内关键点的链接Es={vtivtj|(i,j)∈P}以及不同视频帧帧间的链接Et={vtiv(t+1)i},其中,P表示人体所有关键点的集合,i,j分别是关键点集合中的两个任意关键点。
[0026] 优选地,在所述的步骤S5中,多层图卷积网络从2D自然图像或特征图上的卷积运算来看,它们可被视为二维网格,卷积操作输出的特征图也是一个2D网格,当选用步长为1及恰当的padding时,可以使得输出特征图与输入图像保持一样的大小,设一个大小为K×K的卷积核,输入图像为fin,则单个通道在位置x的输出如下:
[0027]
[0028] 式(4)中,h,w分别表示输入图像的长和宽,p(x,h,w)表示采样函数,用于计算具有维度c的采样输入特征向量的内积,w(h,w)表示权重函数,权重函数与输入的位置x无关,因此,输入图像上的所有滤镜权重都是共享的,图像域的标准卷积通过对p(x)中的矩形网格进行编码来实现,其中,图像卷积的采样函数可以表示为:
[0029] p(x,h,w)=x+p′(h,w)  (5)
[0030] 式(5)中,p(h,w)被定义为中心像素x的邻域像素,在时空图上同样定义点vti邻域集的采样函数B(vti)表示为:
[0031] B(vti)={vtj|d(vtj,vti≥D)}  (6)
[0032] 式(6)中,d(vtj,vti)表示为vtj到vti的最小路径,在本算法中D=1,表示取距离为1的为邻域集,随着重新定义采样和权重函数,将式(5)应用到图卷积上,得到新的fout(x)函数,表示为:
[0033]
[0034] 式(7)中,如果将图像视为常规2D网格,则该公式可以类似于标准2D卷积,类似于3×3卷积运算,在3×3中有一个9像素的邻域,以像素为中心的3格,然后将邻域组分割成9个子集,每个子集有一个像素,此外,Zti(vti)表示正则化项,等于相应子集的基数,表示为:
[0035] Zti(vtj)=|{vtk|lti(vtk)=lti(vtj)}|  (8)
[0036] 式(8)中,正则化项的出现增加了不同子集的贡献,会自动削弱不重要的特征变量,自动从许多的特征变量中提取出重要的特征变量,减小特征变量的数量级。
[0037] 对于步骤S6,本发明通过帧级动作识别与分类对视频进行定位与分割,相对于传统的滑动窗口的方法,该方法对噪声的鲁棒性较强,设计的时域平滑策略应用在提议片段上而不是整个视频,可以有效地避免相邻帧分组的挑战以及加速测试过程;为了观察更宽的时间间隔,将每个动作提议片段的边界在两侧拓展了原始段长度的百分比α,初始时将α设置为1/8以进行所有测试,当在合理范围内变化时,模型表现稳定;在视频上滑动时域空间相互不重叠,只保留与至少一个扩展提议片段相重叠的时域空间,每个提案段的类别设置为具有该段中所有帧的最大平均置信度得分的类,如果一个提议段不属于背景,则保留并提取边界,在给定分段中预测类别的分数序列;此外,通过执行高斯核密度估计,得到其平均μ和标准差σ,从扩展段的每一侧边界空间开始并向其中间移动,缩小其时间边界,直到达到一个具有置信度分数不低于μ-σ的帧;最后,将该段的预测分数设置为预测类别在精细边界段中的帧的平均置信度。
[0038] 对于步骤S7,本发明在去除背景片段后对剩余的动作提议段进行分类,但保留的这些子集中可能仍包含不完整或多余的实例,需使用特定的完整性过滤器来过滤出这些片段以保证动作的完整性,通过位置回归来优化提议段本身的时间区间;具体而言,设计的完整性过滤器包括一组位置回归器和一级时间金字塔结构,前者针对每一个行为类别将其适应到一维时域,通过设置一系列的定位回归{Rl|l∈[1,L]},对于给定的提议段同时对间隔中心和和跨度进行回归,后者汇集提议段区域内的片段分数,并将提议段区域之前和之后的2个短期分类评分进行均衡化;然后,完整性过滤器使用来自时间金字塔结构和周围片段的特征来评估剩余的提议段,那么每个提议段最终检测的置信度SDet表示为:
[0039] SDet=Pl×Sc  (9)
[0040] 式(9)中,Pl表示位置回归器对提议段L优化后动作在该区间内发生的概率,Sc表示来自时间金字塔结构分类评分的输出。
[0041] 本发明的基于3D人体关键点的时序行为检测方法,解决了现有技术对复杂场景下时序行为检测误差大且实时性差的问题,具有以下优点:
[0042] (1)本发明的方法分析并设计了一个网络结构,比之前已有的方法能够更好地进行人体3D关键点坐标的估计,包含了人体姿态的全部信息,能够从3D数据中解析出更多有使用价值的信息,不仅精度高,速度也快,具有广泛的应用场景;
[0043] (2)本发明的方法能够应用于海洋平台这个复杂场景中,实现了精准的时序行为检测,并在特定的实际应用场景中首次尝试结合人体3D关键点信息进行动作检测与分析,实现了一套时间序列动作检测任务的通用框架;
[0044] (3)本发明的方法在人体遮挡严重和干扰物较多的实际工程场景中,通过构造关键点回归网络,使用匹配对对齐的方式,实现了2D人体关键点到3D关键点的映射,模型在视频每帧动作标注中优于目前先进的方法,并且在广泛的检测阈值下显著提高了时序动作定位的精度。附图说明
[0045] 图1为本发明中基于3D人体关键点的时序行为检测方法的流程图
[0046] 图2为本发明中关键点回归网络的结构示意图。
[0047] 图3为本发明中时空图卷积网络的结构示意图。

具体实施方式

[0048] 下面结合附图以及具体实施方式对本发明作进一步详细说明:
[0049] 一种基于3D人体关键点的时序行为检测方法,如图1所示,为本发明的基于3D人体关键点的时序行为检测方法的流程图,该方法包含:
[0050] S1,数据预处理,输入一个未修剪的视频V,通过视频序列预处理将视频数据转换为连续的L帧RGB图像。为了产生随机的提取帧,设定每隔24帧进行一次哈希函数计算,每次选择一个随机函数random,取每帧所在的帧编号为它的哈希地址,得到随机生成的帧编号,即为提取帧。
[0051] S2,目标边界检测,通过多次卷积操作对单帧静态图提取特征以得到特征图,为解决复杂场景下干扰目标对人员目标检测的影响,对不同尺寸的单帧静态图产生一组固定大小的默认边界框集合,对该组默认边界框内的区域进行特征提取,主要是对人员目标的形体表征提取主要特征,以形成不同层次的特征图单元。作为图像数据集,将每个层次的特征图单元以卷积的方式平铺特征映射,使得每个默认边界框与相对应的特征图单元的位置固定。在所述的每个特征图单元上使用小卷积核卷积滤波器预测每个默认边界框中人员的实际边界框,将该实际边界框作为目标包围盒,并计算出实际置信度;将实际置信度与预设置信度进行判别,以去除无效的包围盒,以修正目标包围盒位置,得到离散化人员目标包围盒。
[0052] S3,2D关键点获取,关键点检测在身体部位定位和关联程度分析两个分支上同时进行,一个分支用于预测身体部位位置的二维置信度图S,进行身体部位定位得到人体所有可见的关键点;另一个分支用于预测像素点在骨架中的二维矢量场L,进行关联程度分析得到人体不可见的关键点。通过每一个阶段计算一次损失,之后把S和L以及原始输入继续输入下一个阶段进行训练,随着迭代次数的增加,在已知的关键点位置的基础上,利用矢量之间的位移长度建立人体各部位之间的相对位置关系,从而实现人体不可见关键点的预测与估计。
[0053] 其中,身体部位定位算法由一系列预测器组成,分成多个阶段,每个阶段为人体每个部位重复生成置信图,每一张置信图包含某一种关键点,该置信图与原始图像特征同时用作下一阶段的输入,预测各部位的位置,进而确定人体各关键点的位置。关联程度分析是对人体部位的位置和方向进行编码,通过在二维矢量场中矢量的方向判别多人关键点的从属问题,利用矢量之间的位移长度建立人体各部位之间的相对位置关系,从而实现人体不可见关键点的预测与估计,最终得到人体所有关键点的详细信息。
[0054] S4,关键点回归,通过将从RGB图像中获取到的2D人体关键点坐标输入到关键点回归网络,利用匹配对对齐的方式,实现了2D人体关键点到3D关键点的映射,输出一个三维空间的关键点的坐标估计,关键点回归网络的结构示意图如图2所示。对于输入的一系列二维的关键点坐标,关键点回归网络中利用Resnet残差网络结构进行数据处理,整个网络分为2个残差block,每个block中有两个线性全连接层(Linear),每个全连接层后面都跟着批处理正则化层(batch normalization)、ReLU层和Dropout层。除此之外,整个网络还在block前加了一个全连接层,用来将输入的18*2的关键点升维到1024维,18*2表示的是18个关键点,每个关键点的坐标是二维的;同样的,在网络最后产生预测之前也加了一个全连接层,用来将1024维的数据降维到18*3,每个关键点的坐标是三维的。
[0055] 整个网络一般有2个这样的残差块,所以一共有6个线性层,而该模型大概有4-5百万个参数需要训练,算法通过使用2D与3D姿态的坐标分别作为输入与输出。虽然二维坐标所携带的信息较少,但它们的低维性非常吸引人,例如能够把整个数据集都储存在GPU中以供训练,这样会大大地减少训练时长,而且这种方式也可以很自然地训练超参数。
[0056] 批处理正则化层和Dropout层可以使网络模型在有噪声的2D观测数据中的ground-truth表现良好,性能会得以提升,带来的代价就是训练时长稍稍增加。通过对每一层的权值进行最大范数约束,使其最大范数小于或等于1,结合批处理正则化,当训练和测试实例的分布不同时,这可以使训练稳定并提升泛化效果。
[0057] 在处理3D姿态估计问题的大多数算法中,线性ReLU层一般都是基于卷积神经网络的,因为卷积神经网络具有平移不变性。但是,因为本算法以2D关键点坐标作为输入,所以不需要这个特性,可以采用更加节省成本的线性层,而残差连接则是一个标准的非线性层的选择。它是一种促进深度卷积神经网络训练的技术,可以提高泛化性能,降低训练时间,在测试中残差连接的使用降低了10%的错误率。
[0058] S5,时空图卷积,使用时空图卷积网络来对整个视频序列进行帧级动作识别与分类,网络的输入数据是一系列的帧图像,每一帧图像都有一组3D联合坐标,使用图结构规则,充分利用空间和时序结构信息来构建时空图,时空图卷积网络的结构示意图如图3所示。构建时空图时帧内按照人体的自然骨架连接关系构造空间图,相邻两帧的相同关键点连接构成时序边,经过ST-GCNs网络,最终利用标准的Softmax分类器得到每一类动作的类别评分,将评分最高的动作类别作为最终的输出。连续的视频帧通过对置信分数的阈值化将同一动作类别标签的相邻帧进行分组,利用视频分割成段并产生定位分段的结果,通过与ground-truth进行对比,不断修正分段的结果,以不同的颜色进行分段结果的区分。其中,绿色表示ground-truth中真实的动作分段结果,蓝色表示通过网络定位分段的结果,但该结果含有冗余的非动作视频片段,黄色表示完全属于ground-truth中真实的动作分段结果,但可能只是其中的一部分,红色表示通过网络定位分段的错误结果。
[0059] 对于空间上的骨架划分规则,把中心像素相邻的像素集合,即邻域集按照空间顺序划分为一系列集合,每个集合正好包含图像一个像素,这些集合构成了邻域集的一个划分。若将节点的1邻域划分为一个子集,标记为唯一划分;若将节点的1邻域分为两个子集,即节点本身的子集与邻节点子集,标记为基于距离的划分;若将节点的1邻域划分为三个子集,包括节点本身、空间位置上比本节点更靠近整个骨架重心的邻节点集合以及更远离重心的邻节点集合,根据运动分析对向心运动与离心运动进行定义,标记为空间构型划分。具体的,三种划分规则表示如下:
[0060]
[0061] 式(10)中,rj和ri分别表示为两个子集之间的向心距离与离心距离,使用时空图卷积网络不仅仅只是将数据当做2D或是3D坐标来处理,还需要根据不同的划分规则来计算fout。在单帧内,使用唯一划分策略的ST-GCN的表示如下:
[0062]
[0063] 式(11)中,通过图的邻接矩阵A与单位矩阵I表示单帧内的骨骼关键点的链接,Λii可以表示为Λii=∑j(Aij+Iij),多个输出通道C的权重矢量被堆叠以形成权重矩阵W,实际上,在时空图中输入的特征图作为张量(C,V,T)的维度。
[0064] S6,提议段生成,由于网络结构是十分紧凑的,需要很少的存储,所以帧级的动作识别与分类可以直接从原始视频中训练,以一种端到端的方式进行动作提议段的预测,而不需要缓存中间的特征。相比SCNN网络,虽然本发明通过对每一视频帧进行预测而增加了工作量,且随着视频长度的增加,为了更高的精度而降低了效率,但是在提议片段较短的情况下,由于这些提议段通常密集重叠,视频片段级方法必须逐个处理大量的片段,而本发明只需要对所有的视频帧图像处理一次,因此它可以避免冗余计算。由于GPU的内存限制,实际上算法在视频中使用一个24帧的重叠时间窗口,并将每个窗口单独送入网络以及时获得密集的预测。从时间边界注释中,可以获得每一帧的动作标签,相同窗口中的框架可以有不同的标签。为了防止在训练过程中包含太多的背景帧,本方法只保留至少有一帧属于动作的窗口,因此,在给定的一组视频数据中,可以获得与帧级标签窗口相对应的动作提议片段集合。
[0065] S7,细粒度完整性过滤,将动作的置信评分和相应的动作提议段输入到完整性过滤器中以精细修正动作发生的时间边界,设计的完整性过滤器包括一组位置回归器和一级时间金字塔结构。位置回归器对于给定的提议段同时对间隔中心和和跨度进行回归,汇集提议段区域内的片段分数,过滤出背景并将提议段区域之前和之后的2个短期分类评分进行均衡化;然后使用来自时间金字塔结构和周围片段的特征来评估行走动作剩余的提议段,得到行走的完整动作提议段。在计算损失函数时,增加了基于IoU分数的重叠损失,所以损失函数Lf表示如下:
[0066] Lf=Lsoft+θLoverlap  (12)
[0067] 式(12)中,Lsoft表示为常用的softmax损失函数,θ为比例系数,初始值设置为1,Loverlap为基于IoU分数的重叠损失,具体计算方式如下:
[0068]
[0069] 式(13)中,kn表示该片段的真实类别,vn表示为IoU,Pn为动作分类器输出的分数,α还是一个超参数,该损失函数的作用是根据IoU的值调整预测的结果,使得输出的分数不仅能对动作的类别进行评估,还能够估计与ground-truth的重叠程度,从而精细地修正动作发生的时间边界。
[0070] S8,输出动作类别和对应的时间边界,包括动作发生的开始与结束时间,即实现了视频序列中基于3D人体关键点的时序行为检测。
[0071] 综上所述,本发明的基于3D人体关键点的时序行为检测方法适用于人体遮挡严重和干扰物较多的实际工程场景中,并在特定的实际应用场景中尝试结合人体3D关键点信息进行动作检测与分析,建立了一套专针对时序行为检测任务的端到端集成系统,可以很好地进行人体3D关键点坐标的估计以及处理多种活动类别,可适用于多个领域,具有广泛的应用场景。
[0072] 尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈