首页 / 专利库 / 专利权 / 发明 / 基于3D卷积和SPP的多模态动态手势识别方法

基于3D卷积和SPP的多模态动态手势识别方法

阅读:555发布:2021-01-20

专利汇可以提供基于3D卷积和SPP的多模态动态手势识别方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了基于3D卷积和SPP的多模态动态 手势识别 方法,包括如下步骤:数据预处理,从RGB视频序列中提取光流特征和灰度特征,分别得到光流序列样本和灰度序列样本,并将每个光流序列样本和灰度序列样本及深度序列样本规整为32 帧 ,每个样本维度为32×112×112;数据增强,通过平移、翻转、加噪及仿射变换,扩增序列样本数据集;神经网络训练,将灰度序列样本、光流序列样本、深度序列样本分别输入相同的网络结构,分别训练三个网络进行手势判别;模型集成,将三个网络对序列样本的分类结果进行集成,得到最终的判别结果;采用本发明技术方案能够提高手势识别的准确度。,下面是基于3D卷积和SPP的多模态动态手势识别方法专利的具体信息内容。

1.一种基于3D卷积和SPP的多模态动态手势识别方法,其特征在于,包括:
数据预处理步骤,从RGB视频序列中提取光流特征和灰度特征,分别得到光流序列样本和灰度序列样本,并将每个光流序列样本和灰度序列样本及深度序列样本规整为32,每个样本维度为32×112×112;
数据增强步骤,通过平移、翻转、加噪及仿射变换,扩增序列样本数据集;
神经网络训练步骤,将灰度序列样本、光流序列样本、深度序列样本分别输入相同的网络结构,分别训练三个网络进行手势判别;
模型集成步骤,将三个网络对序列样本的分类结果进行集成,得到最终的判别结果。
2.根据权利要求1所述基于3D卷积和SPP的多模态动态手势识别方法,其特征在于,所述数据预处理步骤过程如下:
对SKIG数据集包含的1080个RGB视频序列,利用iDT算法提取光流特征,得到1080个光流序列样本;
对RGB视频序列的每帧图像进行灰度化,得到1080个灰度序列样本;
不同的手势序列样本具有不同的时长,采用重复帧或者最近邻域丢弃帧的方法将每个序列样本规整为固定的32帧,每帧维度为112×112,作为神经网络的输入。
3.根据权利要求2所述基于3D卷积和SPP的多模态动态手势识别方法,其特征在于,所述iDT算法如下:
iDT算法假设相邻两帧图像之间的关系用一个投影变换矩阵描述,后一帧图像由前一帧图像通过投影变换得到;
相邻两帧之间采用SURF特征和密集光流的方法,进行特征匹配,利用RANSAC算法估计投影变换矩阵。
4.根据权利要求1所述基于3D卷积和SPP的多模态动态手势识别方法,其特征在于,所述数据增强步骤过程如下:
对同一个手势对应的光流序列样本、灰度序列样本及深度序列样本进行相同方式的变换,变换方式包括:
平移操作如下,将每一个序列样本的每个通道上像素点(x,y)沿x轴平移Δx个单位,沿y轴平移Δy个单位,即(x′,y′)=(x+Δx,y+Δy)。其中Δx是[-0.1×w,0.1×w]中的任意一个整数,Δy是[-0.1×h,0.1×h]中的任意一个整数,w为每帧图像相应的宽度,h为每帧图像相应的长度;
翻转操作如下,将每一个序列样本的每个通道的数据进行镜像平翻转和镜像上下翻转;
加噪操作如下,对每一个序列样本的每个通道的数据添加高斯白噪声,添加的噪声服从均值为0、方差为0.1的高斯分布;
仿射变换操作如下,对每一个序列样本的每个通道的数据进行设定度的旋转,包括
0°、45°、90°、135°、180°、225°、270°、315°。
5.根据权利要求1所述基于3D卷积和SPP的多模态动态手势识别方法,其特征在于,所述神经网络训练步骤过程如下:
将同一个手势对应的灰度序列样本、光流序列样本、深度序列样本分别输入相同的网络结构,分别训练三个神经网络进行手势判别,具体地,光流序列样本训练得到第一神经网络,灰度序列样本训练得到第二神经网络,深度序列样本训练得到第三神经网络;
所述神经网络由3D卷积神经网络、SPP及全连接层构成,使用3D卷积神经网络同时提取手势的时空特征,然后使用SPP提取全局及局部特征,输入两层全连接层及softmax得到手势分类的分数。
6.根据权利要求5所述基于3D卷积和SPP的多模态动态手势识别方法,其特征在于,所述3D卷积神经网络包括5个卷积层;
每个卷积层包含卷积操作和池化两个操作,卷积操作采用的卷积核大小均为3×3×3,步长为1×1×1;
第一卷积操作、第二卷积操作、第三卷积操作分别包含64、128、256个卷积核,并在卷积操作后采用BN层及ReLU激活函数,第一个池化操作的池化窗口为1×2×2,步长为2×2×2,第二池化操作、第三池化操作的池化窗口均为2×2×2,步长为2×2×2;
第四卷积操作、第五卷积操作均包含512个卷积核,第四池化操作、第五池化操作的池化窗口为2×2×2,步长为2×1×1,其中,第一池化操作、第二池化操作、第三池化操作、第四池化操作和第五池化操作均采用均值池化方法。
7.根据权利要求5所述基于3D卷积和SPP的多模态动态手势识别方法,其特征在于,所述SPP网络对3D卷积神经网络得到的特征图进行不同尺度的空间金字塔池化,得到(16+4+
1)×512维的特征向量,并将所述(16+4+1)×512维的特征向量输入两个全连接层,神经元个数均为1024,再将结果输入到softmax层,得到10类手势的分数。
8.根据权利要求1所述基于3D卷积和SPP的多模态动态手势识别方法,其特征在于,所述模型集成将三个网络对序列样本的手势分类分数对应相乘,将样本判别为分数最高的手势类别。

说明书全文

基于3D卷积和SPP的多模态动态手势识别方法

技术领域

[0001] 本发明涉及图像识别技术领域,具体涉及基于3D卷积和SPP的多模态动态手势识别方法。

背景技术

[0002] 手势是人机交互的重要方式之一,手势识别是利用计算机对人们做出的手势动作进行识别。手势识别包括静态手势识别和动态手势识别,静态手势识别着重于某一图像的手部形状,相对比较简单。动态手势识别不仅关注手部形状,更关注手势在时空维度上的轨迹和形状变化。由于动态手势本身具有多样性和差异性,使得动态手势的识别准确率仍较低,是人工智能领域中具有挑战性的一个研究方向。
[0003] 随着深度学习的发展,利用深度卷积神经网络进行动态手势识别受到学者们的关注。然而,常见的2D卷积神经网络用于处理视频图像序列时,容易丢失目标在时间维度上的信息,无法有效提取目标在时空维度的变化信息,进而影响网络的识别精度。因此,视频时空维度的特征学习是实现人体动态手势识别的关键。

发明内容

[0004] 为了解决上述技术问题,本发明实施例提供了一种基于3D卷积和SPP的多模态动态手势识别方法,包括:
[0005] 数据预处理步骤,从RGB视频序列中提取光流特征和灰度特征,分别得到光流序列样本和灰度序列样本,并将每个光流序列样本和灰度序列样本及深度序列样本规整为32帧,每个样本维度为32×112×112;
[0006] 数据增强步骤,通过平移、翻转、加噪及仿射变换,扩增序列样本数据集;
[0007] 神经网络训练步骤,将灰度序列样本、光流序列样本、深度序列样本分别输入相同的网络结构,分别训练三个网络进行手势判别;
[0008] 模型集成步骤,将三个网络对序列样本的分类结果进行集成,得到最终的判别结果。
[0009] 作为优选方案,所述数据预处理步骤过程如下:
[0010] 对SKIG数据集包含的1080个RGB视频序列,利用iDT算法提取光流特征,得到1080个光流序列样本;
[0011] 对RGB视频序列的每帧图像进行灰度化,得到1080个灰度序列样本;
[0012] 不同的手势序列样本具有不同的时长,采用重复帧或者最近邻域丢弃帧的方法将每个序列样本规整为固定的32帧,每帧维度为112×112,作为神经网络的输入。
[0013] 作为优选方案,所述iDT算法如下:
[0014] iDT算法假设相邻两帧图像之间的关系用一个投影变换矩阵描述,后一帧图像由前一帧图像通过投影变换得到;
[0015] 相邻两帧之间采用SURF特征和密集光流的方法,进行特征匹配,利用RANSAC算法估计投影变换矩阵。
[0016] 作为优选方案,所述数据增强步骤过程如下:
[0017] 对同一个手势对应的光流序列样本、灰度序列样本及深度序列样本进行相同方式的变换,变换方式包括:
[0018] 平移操作如下,将每一个序列样本的每个通道上像素点(x,y)沿x轴平移Δx个单位,沿y轴平移Δy个单位,即(x′,y′)=(x+Δx,y+Δy)。其中Δx是[-0.1×w,0.1×w]中的任意一个整数,Δy是[-0.1×h,0.1×h]中的任意一个整数,w为每帧图像相应的宽度,h为每帧图像相应的长度;
[0019] 翻转操作如下,将每一个序列样本的每个通道的数据进行镜像平翻转和镜像上下翻转;
[0020] 加噪操作如下,对每一个序列样本的每个通道的数据添加高斯白噪声,添加的噪声服从均值为0、方差为0.1的高斯分布;
[0021] 仿射变换操作如下,对每一个序列样本的每个通道的数据进行设定度的旋转,包括0°、45°、90°、135°、180°、225°、270°、315°。
[0022] 作为优选方案,所述神经网络训练步骤过程如下:
[0023] 将同一个手势对应的灰度序列样本、光流序列样本、深度序列样本分别输入相同的网络结构,分别训练三个神经网络进行手势判别,具体地,光流序列样本训练得到第一神经网络,灰度序列样本训练得到第二神经网络,深度序列样本训练得到第三神经网络;
[0024] 所述神经网络由3D卷积神经网络、SPP及全连接层构成,使用3D卷积神经网络同时提取手势的时空特征,然后使用SPP提取全局及局部特征,输入两层全连接层及softmax得到手势分类的分数。
[0025] 作为优选方案,所述3D卷积神经网络包括5个卷积层;
[0026] 每个卷积层包含卷积操作和池化两个操作,卷积操作采用的卷积核大小均为3×3×3,步长为1×1×1;
[0027] 第一卷积操作、第二卷积操作、第三卷积操作分别包含64、128、256个卷积核,并在卷积操作后采用BN层及ReLU激活函数,第一个池化操作的池化窗口为1×2×2,步长为2×2×2,第二池化操作、第三池化操作的池化窗口均为2×2×2,步长为2×2×2;
[0028] 第四卷积操作、第五卷积操作均包含512个卷积核,第四池化操作、第五池化操作的池化窗口为2×2×2,步长为2×1×1,其中,第一池化操作、第二池化操作、第三池化操作、第四池化操作和第五池化操作均采用均值池化方法。
[0029] 作为优选方案,所述SPP网络对3D卷积神经网络得到的特征图进行不同尺度的空间金字塔池化,得到(16+4+1)×512维的特征向量,并将所述(16+4+1)×512维的特征向量输入两个全连接层,神经元个数均为1024,再将结果输入到softmax层,得到10类手势的分数。
[0030] 作为优选方案,所述模型集成将三个网络对序列样本的手势分类分数对应相乘,将样本判别为分数最高的手势类别。
[0031] 本发明相对于现有技术具有如下的优点及效果:
[0032] (1)本发明通过利用平移、翻转、加噪及仿射变换进行数据扩增,提高手势分类模型的泛化能
[0033] (2)本发明将序列样本输入3D卷积神经网络同时提取时空特征,同时利用SPP网络提取局部特征和全局特征,实现了准确率高的动态手势识别;
[0034] (3)本发明将多模态序列样本作为输入,分别训练三个手势分类器,并通过模型集成提高手势识别系统的识别准确率。附图说明
[0035] 图1是本发明公开的基于3D卷积和SPP的多模态动态手势识别方法的总体流程图
[0036] 图2是本发明公开的基于3D卷积和SPP的多模态动态手势识别方法中神经网络结构示意图。

具体实施方式

[0037] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0038] 实施例一:
[0039] 本实施例所用的数据集SKIG包含2160个手势视频序列,其中有1080个RGB视频序列和1080个深度视频序列,所有的序列由Kinect传感器同时捕获,包含10类手势。
[0040] 如图1所示,基于3D卷积和SPP的多模态动态手势识别方法,其步骤依次为:数据预处理步骤、数据增强步骤、神经网络训练步骤、模型集成步骤。
[0041] 数据预处理步骤,对SKIG数据集包含的1080个RGB视频序列,利用iDT算法提取光流特征,得到1080个光流序列样本。对RGB视频序列的每帧图像进行灰度化,得到1080个灰度序列样本。不同的手势序列样本具有不同的时长,采用重复帧或者最近邻域丢弃帧的方法将每个序列样本规整为固定的32帧,每帧维度为112×112,即每个序列样本维度为32×112×112,作为神经网络的输入。
[0042] iDT算法假设相邻两帧图像之间的关系可以用一个投影变换矩阵描述,后一帧图像可以由前一帧图像通过投影变换得到,从而解决相邻两帧图像变化比较小的问题。相邻两帧之间采用SURF特征和密集光流的方法,进行特征匹配,利用RANSAC算法估计投影变换矩阵。
[0043] 数据增强步骤,对同一个手势对应的光流序列样本、灰度序列样本及深度序列样本进行相同方式的变换,扩增序列样本数据集,变换方式包括:
[0044] 平移操作如下:
[0045] 将每一个序列样本的每个通道上像素点(x,y)沿x轴平移Δx个单位,沿y轴平移Δy个单位,即(x′,y′)=(x+Δx,y+Δy)。其中Δx是[-0.1×w,0.1×w]中的任意一个整数,Δy是[-0.1×h,0.1×h]中的任意一个整数,w为每帧图像相应的宽度,h为每帧图像相应的长度。
[0046] 翻转操作如下:
[0047] 将每一个序列样本的每个通道的数据进行镜像水平翻转和镜像上下翻转。
[0048] 加噪操作如下:
[0049] 对每一个序列样本的每个通道的数据添加高斯白噪声,添加的噪声服从均值为0、方差为0.1的高斯分布。
[0050] 仿射变换操作如下:
[0051] 对每一个序列样本的每个通道的数据进行设定角度的旋转,包括0°、45°、90°、135°、180°、225°、270°、315°。
[0052] 神经网络训练步骤,将同一个手势对应的灰度序列样本、光流序列样本、深度序列样本分别输入相同的网络结构,分别训练三个神经网络进行手势判别。具体地,光流序列样本训练得到第一神经网络,灰度序列样本训练得到第二神经网络,深度序列样本训练得到第三神经网络。
[0053] 模型集成步骤,将三个网络对序列样本的手势分类分数对应相乘,将样本判别为分数最高的手势类别。
[0054] 如图2所示,神经网络由3D卷积神经网络、SPP及全连接层构成,使用3D卷积神经网络同时提取手势的时空特征,然后使用SPP提取全局及局部特征,输入两层全连接层及softmax得到手势分类的分数。
[0055] 3D卷积神经网络包括5个卷积层,每个卷积层包含卷积操作和池化两个操作,卷积操作采用的卷积核大小均为3×3×3,步长为1×1×1。
[0056] 第一卷积操作C1、第二卷积操作C2、第三卷积操作C3分别包含64、128、256个卷积核,并在卷积操作后采用BN层及ReLU激活函数,第一个池化操作P1的池化窗口为1×2×2,步长为2×2×2,第二池化操作P2、第三池化操作P3的池化窗口均为2×2×2,步长为2×2×2;
[0057] 第四卷积操作C4、第五卷积操作C5均包含512个卷积核,第四池化操作P4、第五池化操作P5的池化窗口为2×2×2,步长为2×1×1,其中,第一池化操作P1、第二池化操作P2、第三池化操作P3、第四池化操作P4和第五池化操作P5均采用均值池化方法。
[0058] SPP网络对3D卷积神经网络得到的特征图进行不同尺度的空间金字塔池化,得到(16+4+1)×512维的特征向量。将得到的特征向量输入两个全连接层,神经元个数均为1024,再将结果输入到softmax层,得到10类手势的分数。
[0059] 综上所述,本实施例公开了基于3D卷积和SPP的多模态动态手势识别方法,该方法通过利用平移、翻转、加噪及仿射变换进行数据扩增,提高手势分类模型的泛化能力。该方法将序列样本输入3D卷积神经网络同时提取时空特征,同时利用SPP网络提取局部特征和全局特征,实现了准确率高的动态手势识别。此外,该方法将多模态序列样本作为输入,分别训练三个手势分类器,并通过模型集成提高手势识别系统的识别准确率。
[0060] 上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈