专利汇可以提供一种基于3D人体关键点的时序行为检测方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于3D人体关键点的时序行为检测方法,该方法包含:将视频数据作为输入,通过数据预处理将视频数据转换为连续的 帧 图像;利用多层CNN网络进行特征提取,检测出图像中人员目标的边界框;然后经过身体部位 定位 和关联程度分析,得到2D人体关键点坐标,通过构造关键点回归网络实现了2D人体关键点到3D关键点的映射;将3D联合坐标输入 时空 图卷积网络对整个视频序列进行帧级动作识别与分类,通过对同一标签的相邻帧进行分组,获得不同粒度的动作提议段;通过细粒度完整性过滤以精确修正动作的时间边界,实现了复杂场景下的时序行为检测。本发明的方法能够从3D数据中解析出更多有价值的信息,显著提高了时序行为检测与定位的 精度 。,下面是一种基于3D人体关键点的时序行为检测方法专利的具体信息内容。
1.一种基于3D人体关键点的时序行为检测方法,其特征及具体步骤如下:
S1,输入一个未修剪的视频V,通过视频序列预处理将视频数据转换为连续的L帧RGB图像,记为V={V1,V2,…,VL};
S2,通过多层CNN网络进行特征提取,检测出图像中人员目标的边界框;
S3,经过身体部位定位和关联程度分析,求得所有部位之间的关联程度以建立相对位置关系,得到一组2D人体关键点坐标;
S4,通过构造关键点回归网络,使用匹配对对齐的方式,实现2D人体关键点到3D关键点的映射,构造出一组对应的3D人体关键点坐标;
S5,将S4中得到的3D联合坐标输入时空图卷积网络,通过动作分类器对整个视频序列进行帧级动作识别与分类,得到动作类别的置信度评分,包括背景类别的评分;
S6,通过对置信分数的阈值化和对同一标签的相邻帧进行分组,可以将视频分割成段并产生定位结果,设置不同的阈值以实现不同的定位精度要求,获得不同粒度的动作提议段;
S7,通过对动作提议段进行细粒度完整性过滤以精确修正和检测动作的时间边界;
S8,输出动作的类别以及发生的开始和结束时间。
2.根据权利要求1所述的一种基于3D人体关键点的时序行为检测方法,其特征在于,对于步骤S3,本发明使用的身体部位定位和关联程度分析是在两个分支上同时进行,前者是为了求得所有的关键点,包括头部等18个关键点,后者是为了求得所有部位之间的关联程度以建立相对位置关系;身体部位定位算法由一系列分类器组成,分成多个阶段,每个阶段为人体每个部位重复生成置信图,每一张置信图包含某一种关键点,该置信图与原始图像特征同时用作下一阶段的输入,预测各部位的位置,进而确定人体各关键点的位置,其中,分类器的结构如下:
式(1)中, 表示图像的像素空间,xi是图像中的每个像素的位置,p表示一个具体模型部位, 表示第一阶段中部位p的置信值;
在所述的步骤S3中,关联程度分析是对人体部位的位置和方向进行编码,通过在二维矢量场中矢量的方向判别多人关键点的从属问题,利用矢量之间的位移长度建立人体各部位之间的相对位置关系,从而实现人体不可见关键点的预测与估计;通过两个分支联合学习关键点的位置和它们之间的联系,同时推断这些自下而上的检测和关联的方式,利用贪心分析算法能够对全局上下文进行足够的编码,获得高质量的结果,最终得到人体所有关键点的详细信息。
3.根据权利要求1所述的一种基于3D人体关键点的时序行为检测方法,其特征在于,对于步骤S4,本发明构造的关键点回归网络,其目标是给定一个二维坐标的输入,输出一个三维空间的关键点的坐标估计,即输入数据是一系列二维的点 输出数据是三维空间的一系列坐标点 则回归网络的表示函数为f: 目标函数f*即使得在N个
姿态中有最小的预测错误率,表示为:
式(2)中,在实际操作中,xi表示二维的ground-truth关键点坐标,yi是根据图像估计出的二维关键点的坐标,ζ是一个超参数,通过目标函数就是要找到一个简单的、可扩展的、高效的架构来设计一个神经网络去完成2D关键点到3D关键点的映射任务;
在所述的步骤S4中,匹配对对齐是通过迭代最小化的方式将2D坐标参数UV映射到3D人体模型上,然后拟合到帧图像中;UV映射是将一个2D纹理映射到一个3D模型上,利用场景中人体的已知三维结构,当感知人体运动时,抽象成一组稀疏的点投影,在三维空间中形成对相应关键点的坐标估计。
4.根据权利要求1所述的一种基于3D人体关键点的时序行为检测方法,其特征在于,对于步骤S5,本发明使用时空图卷积网络来对整个视频序列进行帧级动作识别与分类,网络的输入数据是一系列的帧图像,每一帧图像都有一组3D联合坐标,使用图结构规则,充分利用空间和时序结构信息来构建时空图;然后使用多层图卷积网络以提取高层特征,判断时空图节点的邻域子集个数并设计对应的空间划分规则;最后,利用标准的Softmax动作分类器进行动作分类,输出动作类别标签和相应的动作评分,其中,时空图G的构建表示如下:
G=(V,E) (3)
式(3)中,V表示所有输入帧中关键点构成的3D节点集,E表示所有的有向边构成的边集;
在所述的步骤S5中,构建时空图时,在每一视频帧内部,按照人体的自然骨架连接关系构造3D空间图,同时将相邻两帧的相同关键点连接构成时序边,按照上述规则得到时空图,自然地保留了骨架关键点的空间信息,并使得关键点的运动轨迹以时序边的形式得到表现;具体而言,在时空图中节点集合V={vti|t=1,2...T,i=1,2...N}包含关键点序列上的所有的3D关键点,其中,T表示视频帧数,N表示人体所有关键点的个数,设置为18;当构建时空图时,关键点上的第t帧、第i个关键点的特征向量F(vti)是由关键点的坐标信息和置信度组成的;边的集合E有两个子集组成,分别是每一视频帧帧内关键点的链接Es={vtivtj|(i,j)∈P}以及不同视频帧帧间的链接Et={vtiv(t+1)i},其中,P表示人体所有关键点的集合,i,j分别是关键点集合中的两个任意关键点。
5.根据权利要求1所述的一种基于3D人体关键点的时序行为检测方法,其特征在于,对于步骤S5,本发明使用的多层图卷积网络从2D自然图像或特征图上的卷积运算来看,它们可被视为二维网格,卷积操作输出的特征图也是一个2D网格,当选用步长为1及恰当的padding时,可以使得输出特征图与输入图像保持一样的大小,设一个大小为K×K的卷积核,输入图像为fin,则单个通道在位置x的输出如下:
式(4)中,h,w分别表示输入图像的长和宽,p(x,h,w)表示采样函数,用于计算具有维度c的采样输入特征向量的内积,w(h,w)表示权重函数,权重函数与输入的位置x无关,因此,输入图像上的所有滤镜权重都是共享的,图像域的标准卷积通过对p(x)中的矩形网格进行编码来实现,其中,图像卷积的采样函数可以表示为:
p(x,h,w)=x+p′(h,w) (5)
式(5)中,p(h,w)被定义为中心像素x的邻域像素,在时空图上同样定义点vti邻域集的采样函数B(vti)表示为:
B(vti)={vtj|d(vtj,vti≥D)} (6)
式(6)中,d(vtj,vti)表示为vtj到vti的最小路径,在本算法中D=1,表示取距离为1的为邻域集,随着重新定义采样和权重函数,将式(5)应用到图卷积上,得到新的fout(x)函数,表示为:
式(7)中,如果将图像视为常规2D网格,则该公式可以类似于标准2D卷积,类似于3×3卷积运算,在3×3中有一个9像素的邻域,以像素为中心的3格,然后将邻域组分割成9个子集,每个子集有一个像素,此外,Zti(vti)表示正则化项,等于相应子集的基数,表示为:
Zti(vtj)=|{vtk|lti(vtk)=lti(vtj)}| (8)
式(8)中,正则化项的出现增加了不同子集的贡献,会自动削弱不重要的特征变量,自动从许多的特征变量中提取出重要的特征变量,减小特征变量的数量级。
6.根据权利要求1所述的一种基于3D人体关键点的时序行为检测方法,其特征在于,对于步骤S6,本发明通过帧级动作识别与分类对视频进行定位与分割,相对于传统的滑动窗口的方法,该方法对噪声的鲁棒性较强,设计的时域平滑策略应用在提议片段上而不是整个视频,可以有效地避免相邻帧分组的挑战以及加速测试过程;为了观察更宽的时间间隔,将每个动作提议片段的边界在两侧拓展了原始段长度的百分比α,初始时将α设置为1/8以进行所有测试,当在合理范围内变化时,模型表现稳定;在视频上滑动时域空间相互不重叠,只保留与至少一个扩展提议片段相重叠的时域空间,每个提案段的类别设置为具有该段中所有帧的最大平均置信度得分的类,如果一个提议段不属于背景,则保留并提取边界,在给定分段中预测类别的分数序列;此外,通过执行高斯核密度估计,得到其平均μ和标准差σ,从扩展段的每一侧边界空间开始并向其中间移动,缩小其时间边界,直到达到一个具有置信度分数不低于μ-σ的帧;最后,将该段的预测分数设置为预测类别在精细边界段中的帧的平均置信度。
7.根据权利要求1所述的一种基于3D人体关键点的时序行为检测方法,其特征在于,对于步骤S7,本发明在去除背景片段后对剩余的动作提议段进行分类,但保留的这些子集中可能仍包含不完整或多余的实例,需使用特定的完整性过滤器来过滤出这些片段以保证动作的完整性,通过位置回归来优化提议段本身的时间区间;具体而言,设计的完整性过滤器包括一组位置回归器和一级时间金字塔结构,前者针对每一个行为类别将其适应到一维时域,通过设置一系列的定位回归{Rl|l∈[1,L]},对于给定的提议段同时对间隔中心和和跨度进行回归,后者汇集提议段区域内的片段分数,并将提议段区域之前和之后的2个短期分类评分进行均衡化;然后,完整性过滤器使用来自时间金字塔结构和周围片段的特征来评估剩余的提议段,那么每个提议段最终检测的置信度SDet表示为:
SDet=Pl×Sc (9)
式(9)中,Pl表示位置回归器对提议段L优化后动作在该区间内发生的概率,Sc表示来自时间金字塔结构分类评分的输出。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种基于CML的智能变电站设备网络结点连锁失效风险分析方法 | 2020-05-08 | 991 |
一种公共卫生医疗信息区域平台新型架构和实现方法 | 2020-05-08 | 412 |
一种区块链共识方法及装置 | 2020-05-08 | 256 |
一种基于RPL路由协议的IPv6无线传感网时间同步方法 | 2020-05-11 | 440 |
信息的传输方法及装置、存储介质和电子装置 | 2020-05-11 | 195 |
一种数据库处理方法、装置、存储介质及电子设备 | 2020-05-08 | 738 |
功率控制的方法及装置、上行传输的发送方法及装置 | 2020-05-11 | 847 |
资源配置的确定、指示方法及装置 | 2020-05-11 | 762 |
直播视频的回看方法、装置、电子设备、系统及存储介质 | 2020-05-08 | 510 |
一种基于EMMC的分布式存储装置 | 2020-05-08 | 449 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。