首页 / 技术领域 / 动作捕捉 / 融合关节捕捉的三流自适应图卷积模型的动作识别方法

融合关节捕捉的三流自适应图卷积模型的动作识别方法

热词 卷积 agcn 关节 骨骼 自适应 时空 三流 注意力 模型 stam
专利类型 发明公开 法律事件 公开; 实质审查;
专利有效性 实质审查 当前状态 实质审查
申请号 CN202310306777.X 申请日 2023-03-27
公开(公告)号 CN116343334A 公开(公告)日 2023-06-27
申请人 青岛科技大学; 申请人类型 学校
发明人 冯宇平; 周青霞; 高帅; 安文志; 李云文; 戴家康; 陶康达; 第一发明人 冯宇平
权利人 青岛科技大学 权利人类型 学校
当前权利人 青岛科技大学 当前权利人类型 学校
省份 当前专利权人所在省份:山东省 城市 当前专利权人所在城市:山东省青岛市
具体地址 当前专利权人所在详细地址:山东省青岛市崂山区松岭路99号 邮编 当前专利权人邮编:266000
主IPC国际分类 G06V40/20 所有IPC国际分类 G06V40/20G06V10/82G06N3/0464G06N3/08
专利引用数量 0 专利被引用数量 2
专利权利要求数量 10 专利文献类型 A
专利代理机构 青岛发思特专利商标代理有限公司 专利代理人 宫兆俭;
摘要 本 发明 涉及 图像识别 技术领域,具体涉及一种融合关节捕捉的三流自适应图卷积模型的动作识别方法。本发明步骤如下:S1、使用空间注意 力 模 块 来处理 帧 内关节信息和骨骼 位置 信息的动态相关性;使用时间注意力模块来关注帧间骨骼运动信息的特征相关性;S2、利用高斯嵌入函数处理关节信息,在高斯嵌入函数归一化操作后加入一维卷积层来聚合CNN通道维度,在邻接矩阵后加入动态比例系数帮助模型有效收敛,引入骨骼运动信息构建三流自适应图卷积模型;S3、采用Openpose 姿态 估计 算法 对输入的 视频帧 进行特征提取,得到骨架数据,用三流自适应图卷积模型进行行为识别。本发明所提出的模型在人体动作识别方面的准确率具有优势。
权利要求

1.一种融合关节捕捉的三流自适应图卷积模型的动作识别方法,其特征在于,包括如下步骤:
S1、引入时空注意来捕捉人体骨架序列的时空特征:使用空间注意力模块来处理内关节信息和骨骼位置信息的动态相关性;使用时间注意力模块来关注帧间骨骼运动信息的特征相关性;
S2、构建融合关节捕捉三流自适应图卷积模型:利用高斯嵌入函数处理关节信息,在高斯嵌入函数归一化操作后加入一维卷积层来聚合CNN通道维度,在邻接矩阵后加入动态比例系数帮助模型有效收敛,引入骨骼运动信息构建三流自适应图卷积模型,包括如下小步:
S21、用图卷积对骨架序列在时间和空间两个维度进行建模;
S22、改进的自适应图卷积模型在高斯嵌入函数归一化操作之后加入1维卷积层,利用CNN融合通道维度的信息,及时捕捉关节间的全局上下文信息;在邻接矩阵Ak后加入动态比例系数α,使邻接矩阵仅作用于训练的早期阶段,增加自适应图卷积模型的灵活性;在三个图融合之后加入残差结构,保证模型的稳定性
S23、将时空注意力机制STAM融入自适应图卷积模型:对自适应图卷积模型帧数进行一次下采样,以此来减少参数量,提高网络训练速度;加入时空注意力模块STAM,同时引入残差结构,提高模型的稳定性;
S24、加入骨骼运动信息的三流自适应图卷积模型:提取骨架特征信息中的关节点信息、骨骼位置信息和骨骼运动信息,构建三流自适应图卷积模型,三流自适应图卷积模型每个分支单独训练各自得到对应的softmax层分数,经过融合得到最终的预测结果;
S3、验证三流自适应图卷积模型的识别准确率:采用Openpose姿态估计算法对输入的视频帧进行特征提取,得到骨架数据,用三流自适应图卷积模型进行行为识别。
2.如权利要求1所述的融合关节捕捉的三流自适应图卷积模型的动作识别方法,其特征在于,所述步骤S1中,时空注意力模块包含时间和空间两个维度的信息,时空注意力模块帮助网络在复杂视频中关注到最具判别力的时空区域,同时排除其他无关区域的干扰;时空注意力模块嵌入网络的任何位置而不影响网络原本的结构。
3.如权利要求2所述的融合关节捕捉的三流自适应图卷积模型的动作识别方法,其特征在于,所述步骤S1中,空间注意力模块用于空间维度上把握不同区域对目标区域的影响程度,对输入特征 进行相应运算得到关节i和关节j之间关联强度
Si,j,再将隐藏状态的注意力权重归一化到[0,1]范围内,具体计算公式如下所示:
式中:C×T×N为输入特征的维度,C为通道数,T为帧数,N为关节数,Np为不同位置的特征图。
4.如权利要求1所述的融合关节捕捉的三流自适应图卷积模型的动作识别方法,其特征在于,所述步骤S1中,时间注意力模块用于突出不同时间段的人体骨骼信息之间最具关注度的时域片段
将输入特征 通过一个卷积核为1×1的卷积层将特征维度变为1
×N,Ei,j表示时间i和时间j之间的依赖程度,最后要对其进行权值归一化,具体计算公式如下所示。
5.如权利要求4所述的融合关节捕捉的三流自适应图卷积模型的动作识别方法,其特征在于,所述步骤S21中,骨架序列中含有N个节点和T个视频帧,构建无向图为G=(V,E),其中V={vti|t=1,2,,T,i=1,2,...,N}代表节点集合,E={Es,Et}为边集合,Es表示同一帧上人体骨架的自然连接,属于帧内连接,Et表示同一关节点在相邻帧上的连接,属于帧间连接,则图卷积运算如公式(5)所示:
‑1/2 ‑1/2
式中:⊙表示点积运算,Wk为权重,Kv的值为3,Ak=Dk AkDk 为邻接矩阵,对于每一个邻接矩阵Ak都要点乘一个可学习的掩码矩阵Mk。
6.如权利要求5所述的融合关节捕捉的三流自适应图卷积模型的动作识别方法,其特征在于,所述步骤S22中,改进的自适应图卷积模型的输出特征fout计算步骤如下:
首先,第n层输入特征fin的维度为C×T×N,将其映射到高斯嵌入函数θk和 中计算关节相关性,将两个嵌入图重新排列为CeT×N和N×CeT两个矩阵,计算公式(6)如下:
其次,将两个矩阵相乘进行归一化操作得到N×N的相似度矩阵,再经过输出通道为1的CNN,聚合通道维度的特征信息得到公式(7)中Ck:
最后,将αAk、Bk和Ck相加融合组成自适应图卷积模型的邻接矩阵,自适应图卷积模型第n层的输出特征fout表示为公式(8):
式中:α为动态比例系数,自定义数值帮助模型有效收敛;Wk、Bk、θk、为可学习的参数;
动态比例系数α,其原理为α随训练轮次的增加而减小,使代表人体物理结构的邻接矩阵Ak在实验后期的作用减弱,从而突出可自适应生成矩阵Bk与Ck对人体骨架特征提取的灵活性,α的计算公式如下:
α=1‑0.02bEpoch,α∈[0,1]                              (9)
式中:bEpoch为迭代次数Epoch的值,α的值在0到1之间。
7.如权利要求6所述的融合关节捕捉的三流自适应图卷积模型的动作识别方法,其特征在于,所述步骤S23中,改进的自适应图卷积模型包含九个自适应图卷积块,其中自适应图卷积块由自适应图卷积和时间卷积串联组成;九个自适应图卷积块分别对应B1~B9,输出通道维度对应64、64、64、128、128、128、256、256、256,在B4和B7中对帧数进行一次下采样,以此来减少参数量,提高网络训练速度;在B3和B4之间加入时空注意力模块STAM,同时在相邻自适应图卷积块之间引入残差结构。
8.如权利要求7所述的融合关节捕捉的三流自适应图卷积模型的动作识别方法,其特征在于,所述S24中,加入骨骼运动信息的三流自适应图卷积模型包括如下具体步骤:
首先,将骨骼位置信息用于动作识别,根据人体骨架的关节点信息和骨骼位置信息构建双流网络;
其次,在提取关节点信息和骨骼位置信息分别作为J‑Stream、B‑Stream两个支流的输入的基础上,加入骨骼运动信息作为B‑M‑Stream的输入构建三流自适应图卷积模型;
再次,将靠近骨架重心的关节定义为源关节Jsource,远离重心的关节定义为目标关节Jtarget,t帧的关节Jt的骨骼信息表示为从其源关节指向目标关节的向量Bt=Jttarget‑Jtsource;
最后,将中心关节指定给自建的值为0的空骨骼,骨骼和关节的图形和网络一一对应,骨骼运动信息用公式表示为MBt=Bt+1‑Bt,三个网络分支单独训练各自得到对应的softmax层分数,经过融合得到最终的预测结果。
9.如权利要求1所述的融合关节捕捉的三流自适应图卷积模型的动作识别方法,其特征在于,所述步骤S3中,验证三流自适应图卷积模型的识别准确率的数据集包括:
Kinetics数据集:为一个大规模的人类行为数据集,大于30万个视频片段,每段时长有
10s左右,总计包含400个动作类别;采用骨骼序列数据集Kinetics‑Skeleton进行训练与测试,评价指标为Top‑1和Top‑5,其中训练集为240000个片段,测试集为20000个片段;
NTU‑RGB+D数据集:为动作识别中应用最广的数据集,有56880个动作片段,包括60个动作类,使用三个不同度的相机拍摄,每个骨架包含25个关节;根据训练集和测试集的不同划分方法,采用了两种评价指标:X‑Sub和X‑view,其中,X‑Sub按照人物ID来划分训练集和测试集,X‑view则根据相机的不同来划分训练集和测试集。
10.如权利要求9所述的融合关节捕捉的三流自适应图卷积模型的动作识别方法,其特征在于,所述步骤S3中,Kinetics数据集采用单序列150帧,NTU‑RGB+D数据集统一采用单序列300帧;深度学习框架为PyTorch1.12.1,优化策略采用随机梯度下降SGD,单次参加训练的样本数为32,迭代次数设置为50次,前30个Epoch的学习率设置为0.1,之后学习率降低为
0.01。

说明书全文

融合关节捕捉的三流自适应图卷积模型的动作识别方法

技术领域

[0001] 本发明涉及图像识别技术领域,具体涉及一种融合关节捕捉的三流自适应图卷积模型的动作识别方法。

背景技术

[0002] 动作识别技术在智能监控、人机交互、运动分析、视频信息检索等方面有着广泛应用,其主要任务是根据已有的视频序列识别出一个或多个人体目标所做出的行为动作,比如射击、击掌、奔跑等。早期的骨骼动作识别方法,大部分使用RGB或灰度视频作为输入的数据,利用RNN或CNN网络进行识别分类。随着深度学习的不断发展,利用图卷积模型(GCN)和骨骼特征信息进行动作识别的方法被广泛应用于人体动作的识别分类。
[0003] Yan等人首先将GCN应用于动作识别,他们提出通过距离采样函数来构建图卷积层,以此作为基本构建时空图卷积模型(ST‑GCN)。Li等人充分利用注意思想,提出基于注意力机制构建动作结构图卷积模型(AS‑GCN)。Shi等人提出一种将人体骨架的关节信息与骨骼信息融合的双流框架,通过自适应图卷积模型来自适应地学习样本的图形拓扑,从而构建了双流自适应图卷积模型(2s‑AGCN)。Shi等人将动作识别模型的识别效率考虑在内,提出自适应地为每个样本选择最优模型大小,构建了在精度和效率之间更好平衡的自适应语义分组网络(AdaSGN)。Li等人识别速度和识别率不高的问题,提出了一种轻量级图卷积模型。然而,这些算法仍存在对全局上下文信息的捕捉和对模型时空特征的提取不充分等的问题。

发明内容

[0004] 本发明要解决的技术问题是:克服现有技术的不足,提供一种融合关节捕捉的三流自适应图卷积模型的动作识别方法。
[0005] 本发明的技术方案为:
[0006] 一种融合关节捕捉的三流自适应图卷积模型的动作识别方法,包括如下步骤:
[0007] S1、引入时空注意力模块来捕捉人体骨架序列的时空特征:使用空间注意力模块来处理内关节信息和骨骼位置信息的动态相关性;使用时间注意力模块来关注帧间骨骼运动信息的特征相关性;
[0008] S2、构建融合关节捕捉三流自适应图卷积模型:利用高斯嵌入函数处理关节信息,在高斯嵌入函数归一化操作后加入一维卷积层来聚合CNN通道维度,在邻接矩阵后加入动态比例系数帮助模型有效收敛,引入骨骼运动信息构建三流自适应图卷积模型,包括如下小步:
[0009] S21、用图卷积对骨架序列在时间和空间两个维度进行建模;
[0010] S22、改进的自适应图卷积模型在高斯嵌入函数归一化操作之后加入1维卷积层,利用CNN融合通道维度的信息,及时捕捉关节间的全局上下文信息;在邻接矩阵Ak后加入动态比例系数α,使邻接矩阵仅作用于训练的早期阶段,增加自适应图卷积模型的灵活性;在三个图融合之后加入残差结构,保证模型的稳定性
[0011] S23、将时空注意力机制STAM融入自适应图卷积模型:对自适应图卷积模型帧数进行一次下采样,以此来减少参数量,提高网络训练速度;加入时空注意力模块STAM,同时引入残差结构,提高模型的稳定性;
[0012] S24、加入骨骼运动信息的三流自适应图卷积模型:提取骨架特征信息中的关节点信息、骨骼位置信息和骨骼运动信息,构建三流自适应图卷积模型,三流自适应图卷积模型每个分支单独训练各自得到对应的softmax层分数,经过融合得到最终的预测结果;
[0013] S3、验证三流自适应图卷积模型的识别准确率:采用Openpose姿态估计算法对输入的视频帧进行特征提取,得到骨架数据,用三流自适应图卷积模型进行行为识别。
[0014] 优选地,所述步骤S1中,时空注意力模块包含时间和空间两个维度的信息,时空注意力模块帮助网络在复杂视频中关注到最具判别力的时空区域,同时排除其他无关区域的干扰;时空注意力模块嵌入网络的任何位置而不影响网络原本的结构。
[0015] 优选地,所述步骤S1中,空间注意力模块用于空间维度上把握不同区域对目标区域的影响程度,对输入特征 进行相应运算得到关节i和关节j之间关联强度Si,j,再将隐藏状态的注意力权重归一化到[0,1]范围内,具体计算公式如下所示:
[0016]
[0017]
[0018] 式中:C×T×N为输入特征的维度,C为通道数,T为帧数,N为关节数,Np为不同位置的特征图。
[0019] 优选地,所述步骤S1中,时间注意力模块用于突出不同时间段的人体骨骼信息之间最具关注度的时域片段
[0020] 将输入特征 通过一个卷积核为1×1的卷积层将特征维度变为1×N,Ei,j表示时间i和时间j之间的依赖程度,最后要对其进行权值归一化,具体计算公式如下所示。
[0021]
[0022]
[0023] 优选地,所述步骤S21中,骨架序列中含有N个节点和T个视频帧,构建无向图为G=(V,E),其中V={vti|t=1,2,,T,i=1,2,,...,N}代表节点集合,E={Es,Et}为边集合,Es表示同一帧上人体骨架的自然连接,属于帧内连接,Et表示同一关节点在相邻帧上的连接,属于帧间连接,则图卷积运算如公式(5)所示:
[0024]
[0025] 式中:表示点积运算,Wk为权重,Kv的值为3, 为邻接矩阵,对于每一个邻接矩阵Ak都要点乘一个可学习的掩码矩阵Mk。
[0026] 优选地,所述步骤S22中,改进的自适应图卷积模型的输出特征fout计算步骤如下:
[0027] 首先,第n层输入特征fin的维度为C×T×N,将其映射到高斯嵌入函数θk和 中计算关节相关性,将两个嵌入图重新排列为CeT×N和N×CeT两个矩阵,计算公式(6)如下:
[0028]
[0029] 其次,将两个矩阵相乘进行归一化操作得到N×N的相似度矩阵,再经过输出通道为1的CNN,聚合通道维度的特征信息得到公式(7)中Ck:
[0030]
[0031] 最后,将αAk、Bk和Ck相加融合组成自适应图卷积模型的邻接矩阵,自适应图卷积模型第n层的输出特征fout表示为公式(8):
[0032]
[0033] 式中:α为动态比例系数,自定义数值帮助模型有效收敛;Wk、Bk、θk、 为可学习的参数;
[0034] 动态比例系数α,其原理为α随训练轮次的增加而减小,使代表人体物理结构的邻接矩阵Ak在实验后期的作用减弱,从而突出可自适应生成矩阵Bk与Ck对人体骨架特征提取的灵活性,α的计算公式如下:
[0035] α=1‑0.02bEpoch,α∈[0,1]                              (9)[0036] 式中:bEpoch为迭代次数Epoch的值,α的值在0到1之间。
[0037] 优选地,所述步骤S23中,改进的自适应图卷积模型包含九个自适应图卷积块,其中自适应图卷积块由自适应图卷积和时间卷积串联组成;九个自适应图卷积块分别对应B1~B9,输出通道维度对应64、64、64、128、128、128、256、256、256,在B4和B7中对帧数进行一次下采样,以此来减少参数量,提高网络训练速度;在B3和B4之间加入时空注意力模块STAM,同时在相邻自适应图卷积块之间引入残差结构。
[0038] 优选地,所述S24中,加入骨骼运动信息的三流自适应图卷积模型包括如下具体步骤:
[0039] 首先,将骨骼位置信息用于动作识别,根据人体骨架的关节点信息和骨骼位置信息构建双流网络;
[0040] 其次,在提取关节点信息和骨骼位置信息分别作为J‑Stream、B‑Stream两个支流的输入的基础上,加入骨骼运动信息作为B‑M‑Stream的输入构建三流自适应图卷积模型;
[0041] 再次,将靠近骨架重心的关节定义为源关节Jsource,远离重心的关节定义为目标关节Jtarget,t帧的关节Jt的骨骼信息表示为从其源关节指向目标关节的向量Bt=Jttarget‑Jtsource;
[0042] 最后,将中心关节指定给自建的值为0的空骨骼,骨骼和关节的图形和网络一一对应,骨骼运动信息用公式表示为MBt=Bt+1‑Bt,三个网络分支单独训练各自得到对应的softmax层分数,经过融合得到最终的预测结果。
[0043] 优选地,所述步骤S3中,验证三流自适应图卷积模型的识别准确率的数据集包括:
[0044] Kinetics数据集:为一个大规模的人类行为数据集,大于30万个视频片段,每段时长有10s左右,总计包含400个动作类别;采用骨骼序列数据集Kinetics‑Skeleton进行训练与测试,评价指标为Top‑1和Top‑5,其中训练集为240000个片段,测试集为20000个片段;
[0045] NTU‑RGB+D数据集:为动作识别中应用最广的数据集,有56880个动作片段,包括60个动作类,使用三个不同度的相机拍摄,每个骨架包含25个关节;根据训练集和测试集的不同划分方法,采用了两种评价指标:X‑Sub和X‑view,其中,X‑Sub按照人物ID来划分训练集和测试集,X‑view则根据相机的不同来划分训练集和测试集。
[0046] 优选地,所述步骤S3中,Kinetics数据集采用单序列150帧,NTU‑RGB+D数据集统一采用单序列300帧;深度学习框架为PyTorch1.12.1,优化策略采用随机梯度下降SGD,单次参加训练的样本数为32,迭代次数设置为50次,前30个Epoch的学习率设置为0.1,之后学习率降低为0.01。
[0047] 本发明与现有技术相比,具有以下有益效果:
[0048] (1)引入时空注意力机制来捕捉人体骨架序列的时空特征,使用空间注意力机制来处理帧内关节信息和骨骼位置信息的动态相关性,使用时间注意力机制来关注帧间骨骼运动信息的特征相关性;
[0049] (2)提出一种改进的自适应图卷积模型,利用高斯嵌入函数处理关节信息,在高斯嵌入函数归一化操作后加入一维卷积层来聚合通道维度,同时在邻接矩阵A后加入动态比例系数来帮助模型有效收敛;
[0050] (3)将时空注意力机制融入改进的自适应图卷积模型中,以人体骨架关节点、人体骨骼位置和骨骼运动三种特征为输入,构建三流自适应图卷积模型来识别人体动作,得到结合时空注意力机制的三流自适应图卷积模型。为评估该网络的有效性,在两个大型数据集NTU‑RGB+D和Kinetics上进行实验,结果表明本发明所提出的模型在人体动作识别方面的准确率具有优势。附图说明
[0051] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0052] 图1是本发明的流程原理框图
[0053] 图2是基于人体骨架构建的时空图。
[0054] 图3是改进的自适应图卷积层的结构图。
[0055] 图4是改进的自适应图卷积模型的结构图。
[0056] 图5是3s‑STAM‑AGCN结构图。
[0057] 图6(a)是骨架喝数据可视化结果图。
[0058] 图6(b)是骨架敬礼数据可视化结果图。
[0059] 图6(c)是骨架摔倒数据可视化结果图。
[0060] 图6(d)是骨架踢人数据可视化结果图。
[0061] 图7是三种α取值下损失变化图。
[0062] 图8是识别准确率柱状对比图。

具体实施方式

[0063] 为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
[0064] 实施例1
[0065] 如图1所示,本实施例提供了一种融合关节捕捉的三流自适应图卷积模型的动作识别方法,目的是通过可嵌入的时空注意力机制捕捉人体关节间的时空特征,同时利用骨骼位置信息和骨骼运动信息提高网络对人体骨架特征信息的提取能力。
[0066] S1、时空注意力模块:视频序列同时包含时间和空间两个维度的信息,注意力机制可以帮助网络在复杂视频中关注到最具判别力的时空区域,同时排除其他无关区域的干扰。本发明引入一种轻量级的时空注意力模块,该模块可以嵌入网络的任何位置而不影响网络原本的结构。
[0067] S11、空间注意力模块:在空间维度上,不同位置的节点状况相互影响,为捕捉特征之间的动态相关性,本模型引入空间注意力机制来把握不同区域对目标区域的影响程度。对输入特征 进行相应运算得到关节i和关节j之间关联强度Si,j,再
将隐藏状态的注意力权重归一化到[0,1]范围内。具体计算公式如下所示:
[0068]
[0069]
[0070] 式中:C×T×N为输入特征的维度,C为通道数,T为帧数,N为关节数。Np表示不同位置的特征图。
[0071] S12、时间注意力模块:不同时间段的人体骨骼信息之间存在一定的相关性,使用时间注意力模块可以突出最具关注度的时域片段。将输入特征 通过一个卷积核为1×1的卷积层将特征维度变为1×N,Ei,j表示时间i和时间j之间的依赖程度,最后要对其进行权值归一化。具体计算公式如下所示。
[0072]
[0073]
[0074] S2、三流自适应图卷积模型
[0075] S21、图卷积:骨架序列由视频帧中所有人体关节点的坐标数据组成,由于人体骨架为拓扑结构,可用图卷积对其在时间和空间两个维度进行建模,基于人体骨架构建的模型如图2所示。具体来讲,一段骨架序列中含有N个节点和T个视频帧,可构建无向图为G=(V,E),其中V={vti|t=1,2,,T,i=1,2,...,N}代表节点集合,E={Es,Et}为边集合,Es表示同一帧上人体骨架的自然连接,属于帧内连接,Et表示同一关节点在相邻帧上的连接,属于帧间连接。图卷积运算如公式(5)所示:
[0076]
[0077] 式中:⊙表示点积运算,Wk为权重,Kv的值为3, 为邻接矩阵,对于每一个邻接矩阵Ak都要点乘一个可学习的掩码矩阵Mk。
[0078] S22、自适应图卷积层:图卷积中的邻接矩阵Ak仅能表示单一的人体结构图,缺乏对所有动作类别样本建模的灵活性,双流自适应图卷积模型2s‑AGCN中提出的自适应图卷积层(AGCL)可以有效地解决这个问题。首先介绍2s‑AGCN中的自适应图卷积层,记为原始AGCL。原始的AGCL定义了三种邻接矩阵,分别对应三种类型的图,矩阵Ak由人体本身物理结构所定义,等同于2.1节图卷积模型中邻接矩阵;矩阵Bk中的元素完全由训练数据学习得到,可表示关节点之间的联系强弱;矩阵Ck仅靠数据驱动生成,用于捕捉全局上下文信息,为每个样本生成唯一的图结构。
[0079] 本发明借鉴2s‑AGCN思想,提出一种改进的AGCL,如图3所示。与原始AGCL相比,本发明改进的AGCL在高斯嵌入函数归一化操作之后加入1维卷积层,利用CNN融合通道维度的信息,及时捕捉关节间的全局上下文信息;在邻接矩阵Ak后加入动态比例系数α,使Ak仅作用于训练的早期阶段,增加自适应图卷积模型的灵活性;在三个图融合之后加入残差结构res(1×1),可以保证模型的稳定性。
[0080] AGCL的输出特征fout计算步骤如下:首先,第n层输入特征fin的维度为C×T×N,将其映射到高斯嵌入函数θk和 中计算关节相关性,将两个嵌入图重新排列为CeT×N和N×CeT两个矩阵,计算公式(6)如下:
[0081]
[0082] 其次,将两个矩阵相乘进行归一化操作得到N×N的相似度矩阵,再经过输出通道为1的CNN,聚合通道维度的特征信息得到公式(7)中Ck:
[0083]
[0084] 最后,将αAk、Bk和Ck相加融合组成自适应图卷积模型的邻接矩阵,自适应图卷积模型第n层的输出特征fout表示为公式(8):
[0085]
[0086] 式中:α为动态比例系数,自定义数值帮助模型有效收敛;Wk、Bk、θk、 为可学习的参数;
[0087] 动态比例系数α,其原理为α随训练轮次的增加而减小,使代表人体物理结构的邻接矩阵Ak在实验后期的作用减弱,从而突出可自适应生成矩阵Bk与Ck对人体骨架特征提取的灵活性,α的计算公式如下:
[0088] α=1‑0.02bEpoch,α∈[0,1]                              (9)[0089] 式中:bEpoch为迭代次数Epoch的值,α的值在0到1之间。
[0090] S23、引入时空注意力机制的自适应图卷积模型:本发明将时空注意力机制STAM融入自适应图卷积模型AGCN中,改进的AGCN如图4所示。AGCN包含9个自适应图卷积块(AGCB),其中AGCB由自适应图卷积(Convs)和时间卷积(Convt)串联组成。九个AGCB分别对应图中的B1~B9,输出通道维度对应64、64、64、128、128、128、256、256、256,在B4和B7中对帧数进行一次下采样,以此来减少参数量,提高网络训练速度。在B3和B4之间加入时空注意力模块STAM,同时在相邻AGCN之间引入残差结构,从而提高网络的稳定性。
[0091] S24、加入骨骼运动信息的三流自适应图卷积模型:原始骨架序列仅包含骨架数据的关节信息,即关节点的二维或三维坐标。为尽可能多地获取骨架序列中的信息,提高网络的识别能力,本发明分别提取骨架特征信息中的关节点信息、骨骼位置信息和骨骼运动信息,设计一种三流自适应图卷积模型进行动作识别。
[0092] 现有的动作识别方法很少将人体骨架中的的骨骼位置信息和骨骼运动信息利用起来,2s‑AGCN首先将骨骼位置信息用于动作识别,根据人体骨架的关节点信息和骨骼位置信息构建了双流网络。本发明在提取关节点信息和骨骼位置信息分别作为J‑Stream、B‑Stream两个支流的输入的基础上,加入骨骼运动信息作为B‑M‑Stream的输入构建三流自适应图卷积模型,如图5所示。将靠近骨架重心的关节定义为源关节Jsource,远离重心的关节定义为目标关节Jtarget,t帧的关节Jt的骨骼信息表示为从其源关节指向目标关节的向量Bt=Jttarget‑Jtsource。本发明将中心关节指定给自建的值为0的空骨骼,骨骼和关节的图形和网络[便可以一一对应 。骨骼运动信息用公式表示为MBt=Bt+1‑Bt。三个网络分支单独训练各自得到对应的softmax层分数,经过融合得到最终的预测结果。
[0093] 在建模训练的过程中,J‑Stream、B‑Stream和B‑M‑Stream三个支流对信息采集和处理的侧重点不同,J‑Stream支流处理视频每一帧图像中人体骨架关节点之间的关系,B‑Stream支流采集帧内人体骨骼位置信息,B‑M‑Stream支流利用帧间骨骼运动信息来捕捉时空维度上的动作关联性信息。三个支流分数相加融合时可以相互补充,通过AGCN所提取的特征以实现更为精准的动作分类,弥补支流单独作用时处理信息的不足。另外,本发明模型加入时空注意力机制,可以保证空间维度和时间维度特征信息的有效性。
[0094] S3、实验结果与分析
[0095] S31、实验数据集:
[0096] Kinetics数据集:Kinetics是一个大规模的人类行为数据集,大约有30万个视频片段,每段时长有10s左右,总计包含400个动作类别。采用骨骼序列数据集Kinetics‑Skeleton进行训练与测试,评价指标为Top‑1和Top‑5,其中训练集为240000个片段,测试集为20000个片段。
[0097] NTU‑RGB+D数据集:NTU‑RGB+D是动作识别中应用最广的数据集,有56880个动作片段,包括60个动作类,使用三个不同角度的相机拍摄,每个骨架包含25个关节。根据训练集和测试集的不同划分方法,采用了两种评价指标:Cross‑subject(X‑Sub)和Cross‑view(X‑view)。X‑Sub按照人物ID来划分训练集和测试集,X‑view则根据相机的不同来划分训练集和测试集。
[0098] 本实验抽取20个具有代表性的动作进行测试,所选动作如表1所示,每个动作选取80%作为训练集,10%为测试集,10%为验证集。
[0099] 表1实验选取的20个动作表
[0100]
[0101] S32、实验配置:实验中,NTU‑RGB+D数据集统一采用单序列300帧,Kinetics数据集采用单序列150帧。深度学习框架为PyTorch1.12.1,优化策略采用随机梯度下降(Stochastic Gradient Descent,SGD),单次参加训练的样本数(Batch_Size)为32,为方便进行对比实验,迭代次数(Epoch)设置为50次,前30个Epoch的学习率设置为0.1,之后学习率降低为0.01。
[0102] S33、实验过程
[0103] S331、数据处理:骨架动作识别所需输入数据为骨架数据,一般从高精度的深度摄像设备和姿态估计算法中获得。本实验采用Openpose姿态估计算法,该算法对输入的视频帧进行特征提取,得到置信度和关联度,然后将同一个人的关节点连接起来,最终合并成一个完整的人的整体骨架。对实验所选取的20个动作进行Openpose处理,将骨架数据结果可视化。骨架数据可视化结果图如图6(a)‑图6(d)所示。
[0104] S332、消融实验
[0105] 1)自适应图卷积层改进前后网络性能比较实验
[0106] 本发明在改进的自适应图卷积层AGCL中加入动态比例系数α,为测试比例系数对网络的作用,将α的取值设置为三种情况:α=0,α=1和α随轮次动态改变。图7为在不同α的取值情况下的网络损失值曲线的变化情况,从图中可以看出α设置为随轮次下降时,网络收敛速度更快。实验验证了加入比例系数后提高了人体拓扑结构邻接矩阵Ak提取人体特征信息的速度和有效性。
[0107] 2)模型有效性验证实验
[0108] 为验证时空注意力机制和改进的自适应图卷积层AGCL的有效性,以2s‑AGCN为基准,分别结合STAM和改进的AGCL,实验关节流、骨骼流和双流网络在NTU RGB+D数据集X‑View下的效果,结果如表2所示。
[0109] 由表2可知,在NTU RGB+D数据集X‑View下:加入时空注意力机制STAM的2s‑AGCN相比于2s‑AGCN,关节流和骨骼流的识别准确率分别提升了0.3%和0.5%,双流提高0.4%,验证了时空注意力机制的有效性;使用改进的AGCL后2s‑AGCN比原2s‑AGCN,关节流和骨骼流的识别准确率分别提升了0.7%和0.5%,双流提高0.6%,验证了改进的AGCL对人体骨架时空特征提取的有效性;结合时空注意力机制和改进的自适应图卷积层的3s‑STAM‑AGCN相比于2s‑AGCN,关节流和骨骼流的识别准确率分别提升了1.1%和0.9%,双流提升了1.1%。消融对比实验结果充分验证了时空注意力机制、改进的自适应图卷积层AGCL的有效性。
[0110] 表2 NTU‑RGB+D数据集X‑View下消融实验的准确率(%)表
[0111]
[0112] 3)双流三流对比实验
[0113] 为验证本模型三流识别效果最优,在NTU RGB+D数据集X‑View和X‑Sub两个划分标准下,对双流和三流网络进行对比实验。由表3可知,以关节流和骨骼流合成的双流网络在X‑View和X‑Sub上的准确率分别为96.2%和89.3%;以关节流、骨骼位置流和骨骼运动流合成的三流网络在X‑View和X‑Sub上的准确率分别为96.9%和90.6%;三流网络比双流网络识别准确率分别提升了0.7%和1.3%,验证了三流网络相比于双流网络的优越性。
[0114] 表3NTU RGB+D上3s‑STAM‑AGCN模型各支流识别准确率(%)表
[0115]
[0116] S333、与其他方法对比实验
[0117] 为体现本发明提出的3s‑STAM‑AGCN模型性能的优越性,在NTU RGB+D和Kinetics两个数据集上与国内外先进方法进行比较。比较结果如表4和表5所示。
[0118] 从表4中的结果对比可以得出,基于GCN方法的性能通常优于其他三种方法;本发明模型的识别准确率相较于基于GCN代表性的方法ST‑GCN,在X‑Sub和X‑View上分别提高9.1%和8.6%;本发明模型相较于2s‑AGCN方法,在X‑Sub和X‑View上分别提高2.1%和
1.8%;在X‑Sub和X‑View两种划分协议下,本发明模型的识别准确率分别达到90.6%和
96.9%,效果最优。
[0119] 由表5可知,本发明所提出的3s‑STAM‑AGCN模型在Top‑1和Top‑5上的识别准确率分别达到37.3%和61.2%,比基于GCN代表性的方法ST‑GCN提高6.6%和8.4%,比2s‑AGCN提高1.2%和2.5%,同时准确率高于表中经典方法,结果表明该模型的优越性。
[0120] 表4NTU RGB+D数据集上不同方法准确率对比(%)表
[0121]
[0122] 表5Kinetics数据集上不同方法准确率对比(%)表
[0123]
[0124] 为进一步分析3s‑STAM‑AGCN模型有效性,在NTU RGB+D数据集X‑Sub指标下以2s‑AGCN为基准,比较3s‑STAM‑AGCN和2s‑AGCN对20种动作的识别准确率。图8的结果表明,本发明方法的大多数动作的识别准确率得到明显提高,验证了该模型的优越性。
[0125] 综合上述分析,相较于其他方法,3s‑STAM‑AGCN模型在提取时空特征和全局上下文信息上展现更强的性能。3s‑STAM‑AGCN模型在大规模数据集NTU RGB+D和Kinetics上取得较高的识别准确率。
[0126] 本发明在2s‑AGCN的基础上,通过加入时空注意力机制、改进自适应图卷积层和加入骨骼运动信息作为第三支流的输入,提出了一种结合时空注意力机制的三流自适应图卷积模型3s‑STAM‑AGCN。在Kinetics和NTURGB+D两个数据集上的实验表明,增加骨骼运动信息与时空注意力机制在一定程度上丰富了时空特征信息,增强了全局上下文之间的联系;改进的自适应图卷积层则提升了网络训练时的收敛速度,增加了网络的灵活性和稳定性。
本发明提出的算法在两个数据集上的准确率指标均有所提升,证明本发明方法在人体动作识方面上的有效性,但面对背景复杂和部分涉及交互的场景,动作识别准确率提升不足,因此三流网络架构还需要考虑消除复杂背景干扰的影响。在今后的工作中将会针对结合场景信息和交互信息对提高模型识别准确率进行研究。
[0127] 尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
QQ群二维码
意见反馈