专利汇可以提供基于3D卷积和SPP的多模态动态手势识别方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了基于3D卷积和SPP的多模态动态 手势识别 方法,包括如下步骤:数据预处理,从RGB视频序列中提取光流特征和灰度特征,分别得到光流序列样本和灰度序列样本,并将每个光流序列样本和灰度序列样本及深度序列样本规整为32 帧 ,每个样本维度为32×112×112;数据增强,通过平移、翻转、加噪及仿射变换,扩增序列样本数据集;神经网络训练,将灰度序列样本、光流序列样本、深度序列样本分别输入相同的网络结构,分别训练三个网络进行手势判别;模型集成,将三个网络对序列样本的分类结果进行集成,得到最终的判别结果;采用本发明技术方案能够提高手势识别的准确度。,下面是基于3D卷积和SPP的多模态动态手势识别方法专利的具体信息内容。
1.一种基于3D卷积和SPP的多模态动态手势识别方法,其特征在于,包括:
数据预处理步骤,从RGB视频序列中提取光流特征和灰度特征,分别得到光流序列样本和灰度序列样本,并将每个光流序列样本和灰度序列样本及深度序列样本规整为32帧,每个样本维度为32×112×112;
数据增强步骤,通过平移、翻转、加噪及仿射变换,扩增序列样本数据集;
神经网络训练步骤,将灰度序列样本、光流序列样本、深度序列样本分别输入相同的网络结构,分别训练三个网络进行手势判别;
模型集成步骤,将三个网络对序列样本的分类结果进行集成,得到最终的判别结果。
2.根据权利要求1所述基于3D卷积和SPP的多模态动态手势识别方法,其特征在于,所述数据预处理步骤过程如下:
对SKIG数据集包含的1080个RGB视频序列,利用iDT算法提取光流特征,得到1080个光流序列样本;
对RGB视频序列的每帧图像进行灰度化,得到1080个灰度序列样本;
不同的手势序列样本具有不同的时长,采用重复帧或者最近邻域丢弃帧的方法将每个序列样本规整为固定的32帧,每帧维度为112×112,作为神经网络的输入。
3.根据权利要求2所述基于3D卷积和SPP的多模态动态手势识别方法,其特征在于,所述iDT算法如下:
iDT算法假设相邻两帧图像之间的关系用一个投影变换矩阵描述,后一帧图像由前一帧图像通过投影变换得到;
相邻两帧之间采用SURF特征和密集光流的方法,进行特征匹配,利用RANSAC算法估计投影变换矩阵。
4.根据权利要求1所述基于3D卷积和SPP的多模态动态手势识别方法,其特征在于,所述数据增强步骤过程如下:
对同一个手势对应的光流序列样本、灰度序列样本及深度序列样本进行相同方式的变换,变换方式包括:
平移操作如下,将每一个序列样本的每个通道上像素点(x,y)沿x轴平移Δx个单位,沿y轴平移Δy个单位,即(x′,y′)=(x+Δx,y+Δy)。其中Δx是[-0.1×w,0.1×w]中的任意一个整数,Δy是[-0.1×h,0.1×h]中的任意一个整数,w为每帧图像相应的宽度,h为每帧图像相应的长度;
翻转操作如下,将每一个序列样本的每个通道的数据进行镜像水平翻转和镜像上下翻转;
加噪操作如下,对每一个序列样本的每个通道的数据添加高斯白噪声,添加的噪声服从均值为0、方差为0.1的高斯分布;
仿射变换操作如下,对每一个序列样本的每个通道的数据进行设定角度的旋转,包括
0°、45°、90°、135°、180°、225°、270°、315°。
5.根据权利要求1所述基于3D卷积和SPP的多模态动态手势识别方法,其特征在于,所述神经网络训练步骤过程如下:
将同一个手势对应的灰度序列样本、光流序列样本、深度序列样本分别输入相同的网络结构,分别训练三个神经网络进行手势判别,具体地,光流序列样本训练得到第一神经网络,灰度序列样本训练得到第二神经网络,深度序列样本训练得到第三神经网络;
所述神经网络由3D卷积神经网络、SPP及全连接层构成,使用3D卷积神经网络同时提取手势的时空特征,然后使用SPP提取全局及局部特征,输入两层全连接层及softmax得到手势分类的分数。
6.根据权利要求5所述基于3D卷积和SPP的多模态动态手势识别方法,其特征在于,所述3D卷积神经网络包括5个卷积层;
每个卷积层包含卷积操作和池化两个操作,卷积操作采用的卷积核大小均为3×3×3,步长为1×1×1;
第一卷积操作、第二卷积操作、第三卷积操作分别包含64、128、256个卷积核,并在卷积操作后采用BN层及ReLU激活函数,第一个池化操作的池化窗口为1×2×2,步长为2×2×2,第二池化操作、第三池化操作的池化窗口均为2×2×2,步长为2×2×2;
第四卷积操作、第五卷积操作均包含512个卷积核,第四池化操作、第五池化操作的池化窗口为2×2×2,步长为2×1×1,其中,第一池化操作、第二池化操作、第三池化操作、第四池化操作和第五池化操作均采用均值池化方法。
7.根据权利要求5所述基于3D卷积和SPP的多模态动态手势识别方法,其特征在于,所述SPP网络对3D卷积神经网络得到的特征图进行不同尺度的空间金字塔池化,得到(16+4+
1)×512维的特征向量,并将所述(16+4+1)×512维的特征向量输入两个全连接层,神经元个数均为1024,再将结果输入到softmax层,得到10类手势的分数。
8.根据权利要求1所述基于3D卷积和SPP的多模态动态手势识别方法,其特征在于,所述模型集成将三个网络对序列样本的手势分类分数对应相乘,将样本判别为分数最高的手势类别。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
加热装置 | 2020-05-11 | 588 |
时间提前值的管理 | 2020-05-13 | 396 |
无线通信的方法、终端设备和网络设备 | 2020-05-13 | 540 |
包括电磁干扰滤波器的感应灶具 | 2020-05-11 | 68 |
非连续接收的方法、终端设备和网络设备 | 2020-05-13 | 434 |
无线通信系统中终端选择资源并发送信号的方法和设备 | 2020-05-12 | 82 |
基站装置和由该基站装置执行寻呼的方法,以及终端装置和由该终端装置支持寻呼的方法 | 2020-05-12 | 513 |
用户装置及基站装置 | 2020-05-12 | 578 |
上行链路功率控制 | 2020-05-13 | 915 |
无线通信系统及用于处理无线通信增强切换的方法 | 2020-05-13 | 281 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。