专利汇可以提供一种融合全局时空特征的卷积神经网络人体动作识别方法专利检索,专利查询,专利分析的服务。并且一种融合全局 时空 特征的 卷积神经网络 人体动作识别方法,它属于人体动作识别技术领域。本 发明 解决了传统动作识别方法存在的动作识别的准确率较低的问题。本发明选用InceptionV3 基础 网络结构,建立空间通道网络和全局时域通道网络,将UCF101视频数据集切割成单 帧 静态图像,将单帧静态图像分为训练和测试集对空间通道网络训练和测试;计算训练和测试集中单帧静态图像对应的 能量 运动历史图,对全局时域通道网络进行训练和测试;对训练好的空间通道网络和全局时域通道网络的参数微调,将概率平均值最大的类别作为待识别视频序列的每帧静态图像的动作识别结果,本发明方法的动作识别准确率可以达到87%以上。本发明可以应用于人体动作识别技术领域用。,下面是一种融合全局时空特征的卷积神经网络人体动作识别方法专利的具体信息内容。
1.一种融合全局时空特征的卷积神经网络人体动作识别方法,其特征在于,该方法的具体步骤为:
步骤一、选用InceptionV3为基础网络结构,建立空间通道卷积神经网络;
步骤二、迁移在ImageNet数据集上预训练好的InceptionV3基础网络结构模型的前10层参数至步骤一建立的空间通道卷积神经网络;将UCF101视频数据集切割为单帧静态图像,将切割好的单帧静态图像随机分成训练集和测试集数据,对空间通道卷积神经网络进行训练和测试;
步骤三、采集待识别视频序列,将待识别视频序列切割为每帧静态图像来作为训练集和测试集数据,对步骤二训练好的空间通道卷积神经网络的参数进行微调后,利用训练集和测试集的每帧静态图像对空间通道卷积神经网络进行训练和测试,输出待识别视频序列的每帧静态图像对应的各个类别的概率值P1,P2,…,PN;
步骤四、建立全局时域通道卷积神经网络,所述全局时域通道卷积神经网络仅在空间通道卷积神经网络的输入层之后增加一层卷积核尺寸为3×3的卷积层,其余的网络结构与空间通道卷积神经网络相同;
步骤五、利用步骤二训练集中每帧静态图像对应的能量运动历史图来训练步骤四建立的全局时域通道卷积神经网络;利用步骤二测试集中每帧静态图像对应的能量运动历史图来测试全局时域通道卷积神经网络;
步骤六、对步骤五训练好的全局时域通道卷积神经网络的参数进行微调后,利用步骤三训练集和测试集的每帧静态图像对应的能量运动历史图对全局时域通道卷积神经网络进行训练和测试,输出待识别视频序列每帧静态图像对应的能量运动历史图的各个类别的概率值P1′,P2′,…,PN′;
步骤七、在待识别视频序列中,分别将每帧静态图像对应的空间通道卷积神经网络输出与全局时域通道卷积神经网络输出融合,即计算出每帧静态图像的每个类别的概率平均值 将概率平均值最大的类别作为每帧静态图像的动作识
别结果。
2.根据权利要求1所述的一种融合全局时空特征的卷积神经网络人体动作识别方法,其特征在于,所述步骤一的具体过程为:
选用InceptionV3为基础网络结构,去掉基础网络结构最后的全连接层后,从前往后依次增加神经元个数为1024的全连接层、神经元个数为256的全连接层和神经元个数为N个动作类别的全连接层。
3.根据权利要求2所述的一种融合全局时空特征的卷积神经网络人体动作识别方法,其特征在于,所述步骤二的具体过程为:
迁移在ImageNet数据集上预训练好的InceptionV3基础网络结构模型的前10层的参数,即将模型的第1个卷积层到第3个Inception模块的参数迁移至步骤一建立的空间通道卷积神经网络,将UCF101视频数据集切割为尺寸299×299的标准输入单帧静态图像,将切割好的单帧静态图像随机分成训练集和测试集数据,将训练集中的静态图像依次输入空间通道卷积神经网络,采用Adam梯度下降法进行训练,mini-batch大小设置为32,参数采用Keras默认参数,若对测试集静态图像的识别准确率至少连续10次都未增加,则停止训练。
4.根据权利要求3所述的一种融合全局时空特征的卷积神经网络人体动作识别方法,其特征在于,所述步骤三中采集摔倒动作数据集作为待识别视频序列,待识别视频序列包括摔倒、走路和坐下的动作,每个动作包含M个视频序列,将M个视频序列随机分为训练集和测试集,且每个视频序列切割为K帧静态图像;
对空间通道卷积神经网络的参数进行微调,即修改空间通道卷积神经网络最后一层的输出类别为3;
将训练集静态图像依次输入参数微调后的空间通道卷积神经网络,采用Adam梯度下降法训练最后一层全连接层,训练至少10次epoch后,采用随机梯度下降法训练最后两层全连接层,学习率设置为0.0001,Momentum设置为0.9,若对测试集静态图像的识别准确率至少连续10次都未增加,则停止训练;
在空间通道卷积神经网络中采用多帧融合的方式进行动作识别,将输入的当前帧静态图像和之前帧静态图像的输出取平均;输出待识别视频序列的每帧静态图像对应的3个类别的概率值P1,P2和P3。
5.根据权利要求4所述的一种融合全局时空特征的卷积神经网络人体动作识别方法,其特征在于,所述步骤五的具体过程为:
将步骤二训练集的单帧静态图像的能量运动历史图依次输入建立好的全局时域通道卷积神经网络,采用Adam梯度下降法来训练全局时域通道卷积神经网络,mini-batch大小设置为32,参数采用Keras默认参数,若测试集的动作识别准确率至少连续10次都未增加,则停止训练;
第t帧静态图像对应的能量运动历史图中的坐标为(x,y)的像素点的灰度值为Hτ(x,y,t),按照更新函数得到:
式中:(x,y)是第t帧静态图像对应的能量运动历史图中的像素点的位置,max代表取0和Hτ(x,y,t-1)-δ中较大的值,Hτ(x,y,t-1)是第t-1帧静态图像对应的能量运动历史图中的坐标为(x,y)的像素点的灰度值;τ为持续时间,δ为衰退参数;
ψ(x,y,t)为更新函数,判断各个像素点在当前帧是否为前景,若为前景则ψ(x,y,t)等于1,否则ψ(x,y,t)等于0;
ψ(x,y,t)通过帧间差分法得到:
D(x,y,t)=|I(x,y,t)-I(x,y,te)|
式中:I(x,y,t)是第t帧静态图像中位于(x,y)坐标的像素点的灰度值;I(x,y,te)是前一有效帧静态图像中位于(x,y)坐标的像素点的灰度值;ξ是用来判别前景和背景的阈值;D(x,y,t)是I(x,y,t)与I(x,y,te)的差的绝对值;
计算能量运动历史图的过程为:
若当前帧静态图像为有效帧,则更新一次能量运动历史图,否则不更新;
有效帧的判断原则是:设第一帧静态图像为有效帧,若当前帧静态图像相对于前一有效帧静态图像的运动能量大于阈值μ,则当前帧为有效帧;
定义Et为第t帧静态图像It相对于前一个有效帧静态图像Ite的运动能量:
其中:C为第t帧静态图像相对于前一有效帧静态图像的有位移的像素点的个数;h和w分别是第t帧静态图像的宽度和高度;dt(x,y)是第t帧静态图像中像素点(x,y)相对于前一有效帧静态图像的位移; 是第t帧静态图像与前一有效帧静态图像之间像素点(x,y)在水平方向的位移, 是第t帧静态图像与前一有效帧静态图像之间像素点(x,y)在竖直方向的位移;
计算全局性的稠密光流:
式中: 是第t帧静态图像与前一有效帧静态图像之间水平方向和竖直方向的光流;
CalcOpticalFlowFarneback是光流函数。
6.根据权利要求5所述的一种融合全局时空特征的卷积神经网络人体动作识别方法,其特征在于,所述步骤六根据步骤三中采集的摔倒动作数据集,对全局时域通道卷积神经网络的参数进行微调,即修改全局时域通道卷积神经网络最后一层的输出类别为3;
将训练集中每帧静态图像对应的能量运动历史图依次输入参数微调后的全局时域通道卷积神经网络,采用Adam梯度下降法训练最后一层全连接层,至少训练10次epoch后,采用随机梯度下降法训练最后两层全连接层,学习率设置为0.0001,Momentum设置为0.9,若对测试集能量运动历史图的识别准确率至少连续10次都未增加,则停止训练;输出待识别视频序列每帧静态图像对应的能量运动历史图的3个类别的概率值P1′,P2′和P3′。
7.根据权利要求6所述的一种融合全局时空特征的卷积神经网络人体动作识别方法,其特征在于,计算出所述摔倒动作数据集的每帧静态图像的每个类别的概率平均值和 将概率平均值最大的类别作为每帧静态图像的动作识别结果。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
铁路货车转向架侧架断裂故障图像识别方法 | 2020-05-08 | 924 |
基于压力测量的模式切换装置及方法 | 2020-05-12 | 159 |
人流量检测装置及检测方法 | 2020-05-08 | 561 |
一种演播室系统和节目视频制作方法及装置 | 2020-05-08 | 159 |
一种图像处理的方法、图像合成的方法以及相关装置 | 2020-05-08 | 51 |
一种图像增强处理方法、装置、设备及存储介质 | 2020-05-11 | 207 |
一种基于异常追踪的视频异常行为检测方法 | 2020-05-08 | 117 |
一种基于多尺度水平集的眼底血管图像分割系统及方法 | 2020-05-11 | 89 |
一种面向特制量体衣的椭圆精确识别方法 | 2020-05-11 | 223 |
一种字符分割方法、装置以及计算机可读存储介质 | 2020-05-11 | 674 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。