首页 / 专利库 / 数学与统计 / 优化算法 / 基于孪生三维卷积神经网络的行为分类方法

基于孪生三维卷积神经网络的行为分类方法

阅读:1038发布:2020-05-21

专利汇可以提供基于孪生三维卷积神经网络的行为分类方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于孪生三维 卷积神经网络 的行为分类方法,步骤1,调整图像 帧 的长、宽到孪生三维卷积神经网络要求的大小;步骤2,把图像帧序列按连续16帧一组进行分组,把每组图像帧输入孪生三维卷积神经网络,提取抽象时间特征与抽象空间特征,把抽象时间特征输入到反卷积网络,得到光流场;步骤3,计算得到总损失函数为,表达式为:L=Lcls+αLflow;步骤4,利用反向传播技术优化网络参数,使网络性能达到最优。本发明 算法 具有速度与准确率上的双重优势。,下面是基于孪生三维卷积神经网络的行为分类方法专利的具体信息内容。

1.一种基于孪生三维卷积神经网络的行为分类方法,其特征在于,该方法具体包括以下步骤:
步骤1,调整图像的长、宽到孪生三维卷积神经网络要求的大小;
步骤2,把图像帧序列按连续16帧一组进行分组,把每组图像帧输入孪生三维卷积神经网络,提取抽象时间特征与抽象空间特征,把抽象时间特征输入到反卷积网络,得到光流场;
步骤3,拼接步骤2中得到的抽象时间特征与抽象空间特征,并把提取的一个视频中全部图像帧组的特征取算数平均,平均值输入分类器,获得视频中行为的类别的预测向量,与训练数据标签做运算得到第一损失函数Lcls,表达式如下:
其中, pclass表示类别的预测向量,a表示训练数据的标签向
量,aj表示第j维的训练数据的标签向量a,j表示向量中的维度,N表示一个训练批次中视频的数量;
把步骤2中得到的光流场与训练数据的标签光流场做运算得到第二损失函数Lflow,表达式如下:
其中,(i,j)为光流场中像素点的坐标,I表示光流场中像素点坐标的集合,u,v表示网络预测的光流场在两个方向上的分量,其中u表示网络预测的光流场的平分量,v表示网络预测的光流场的垂直分量,ug,vg表示标签光流场在两个方向的分量,其中ug表示标签光流场的水平分量,vg表示标签光流场的垂直分量,Nf表示一个视频中图像帧的数量,N表示一个训练批次中视频的数量;
总损失函数为上述第一、第二两个损失函数的加权相加,表达式如下:
L=Lcls+αLflow
其中,α为平衡两个损失函数的权重;
步骤4,使用Adam优化器以及反向传播算法更新网络参数,直到总损失函数L的值不再下降为止,得到最终的网络参数。

说明书全文

基于孪生三维卷积神经网络的行为分类方法

技术领域

[0001] 本发明涉及视频语音理解邻域,特别涉及一种视频中行为的分类方法。

背景技术

[0002] 行为分类是视频理解领域的重要分支,生成视频锦集、文字描述视频内容等更高层次的任务都以行为分类为基础。行为分类是一种通过提取视频的抽象语义信息并根据语义信息判断视频所包含的动作类别的技术。目前,视频分类问题尚无最优解,一类算法只利用了视频的空间特征,忽略了视频的时间特征,使得分类算法的效果不尽人意;另一类算法同时利用了时间与空间两种特征,这类方法通过光流场描述视频时间特征,并把时间特征抽象后用于行为分类,但是光流场的计算速度无法应用于实时行为分类的场景,并且光流场不是描述视频时间特征的最佳方法,基于光流场的行为分类算法的性能依旧有很大的提升空间。
[0003] 随着深度神经网络技术的发展,许多新颖有效的框架可以提取和抽象不同种类的特征。

发明内容

[0004] 本发明旨在提出一种基于孪生三维卷积神经网络的行为分类方法,该方法通过绕过光流场提取过程,以达到提升行为分类算法速度的目的;此外算法还将引入新的时间信息抽象方式,以达到提升行为分类算法性能的目的。
[0005] 本发明的一种基于孪生三维卷积神经网络的行为分类方法,该方法包括以下步骤:
[0006] 步骤1,调整图像的长、宽到孪生三维卷积神经网络要求的大小;
[0007] 步骤2,把图像帧序列按连续16帧一组进行分组,把每组图像帧输入孪生三维卷积神经网络,提取抽象时间特征与抽象空间特征,把抽象时间特征输入到反卷积网络,得到光流场;
[0008] 步骤3,拼接步骤2中得到的抽象时间特征与抽象空间特征,并把提取的一个视频中全部图像帧组的特征取算数平均,平均值输入分类器,获得视频中行为的类别的预测向量,与训练数据标签做运算得到第一损失函数Lcls,表达式如下:
[0009]
[0010] 其中, pclass表示类别的预测向量,a表示训练数据的标签向量,aj表示第j维的训练数据的标签向量a,j表示向量中的维度,N表示一个训练批次中视频的数量;
[0011] 把步骤2中得到的光流场与训练数据的标签光流场做运算得到第二损失函数Lflow,表达式如下:
[0012]
[0013] 其中,(i,j)为光流场中像素点的坐标,I表示光流场中像素点坐标的集合,u,v表示网络预测的光流场在两个方向上的分量,其中u表示网络预测的光流场的平分量, v表示网络预测的光流场的垂直分量,ug,vg表示标签光流场在两个方向的分量,其中 ug表示标签光流场的水平分量,vg表示标签光流场的垂直分量,Nf表示一个视频中图像帧的数量,N表示一个训练批次中视频的数量;
[0014] 总损失函数为上述第一、第二两个损失函数的加权相加,表达式如下:
[0015] L=Lcls+αLflow
[0016] 其中,α为平衡两个损失函数的权重;
[0017] 步骤4,使用Adam优化器以及反向传播算法更新网络参数,直到总损失函数L 的值不再下降为止,得到最终的网络参数。
[0018] 与现有技术相比,本发明的一种基于孪生三维卷积神经网络的行为分类方法在算法上具有速度与准确率上的双重优势。附图说明
[0019] 图1是孪生三维卷积神经网络框架及流程示意图。

具体实施方式

[0020] 下面结合附图和实施例对本发明技术方案进行详细描述。
[0021] 如图1所示,为本发明所基于的的孪生三维卷积神经网络框架示意图。包括抽象时间特征分支网络与抽象空间特征分支网络,两支分支的结构相同,使用的卷积核都为三维卷积核。抽象时间特征经过反卷积网络生成光流场。抽象特征的拼接为首尾相接,即其中fcat表示拼接后的特征,fs表示抽象空间特征,ft表示抽象时间特征,且fs, 分类器由全连接层构成,全连接层的输出维度等于需要划分的种类数量。
[0022] 本发明的基于孪生三维卷积神经网络的行为分类方法整体流程,具体包括以下步骤:
[0023] 步骤1,调整图像帧的长、宽到孪生三维卷积神经网络要求的大小;
[0024] 步骤2,把图像帧序列按连续16帧一组进行分组,把每组图像帧输入孪生三维卷积神经网络,提取抽象时间特征与抽象空间特征,把抽象时间特征输入到反卷积网络,得到光流场;
[0025] 步骤3,拼接步骤2中得到的抽象时间特征与抽象空间特征,并把提取的一个视频中全部图像帧组的特征取算数平均,平均值输入分类器,获得视频中行为的类别的预测向量,与训练数据标签做运算得到第一损失函数Lcls,表达式如下:
[0026]
[0027] 其中, pclass表示类别的预测向量,a表示训练数据的标签向量,aj表示第j维的训练数据的标签向量a,j表示向量中的维度,N表示一个训练批次中视频的数量;
[0028] 把步骤2中得到的光流场与训练数据的标签光流场做运算得到第二损失函数Lflow,表达式如下:
[0029]
[0030] 其中,(i,j)为光流场中像素点的坐标,I表示光流场中像素点坐标的集合,u,v表示网络预测的光流场在两个方向上的分量,其中u表示网络预测的光流场的水平分量, v表示网络预测的光流场的垂直分量,ug,vg表示标签光流场在两个方向的分量,其中 ug表示标签光流场的水平分量,vg表示标签光流场的垂直分量,Nf表示一个视频中图像帧的数量,N表示一个训练批次中视频的数量;
[0031] 总损失函数为上述第一、第二两个损失函数的加权相加,表达式如下:
[0032] L=Lcls+αLflow
[0033] 其中,α为平衡两个损失函数的权重;
[0034] 步骤4,使用Adam优化器以及反向传播算法更新网络参数,直到总损失函数L 的值不再下降为止,得到最终的网络参数。
[0035] 本发明需要使用网络实现相应功能,网络中两支分支的结构相同,具体结构及参数如表1所示。
[0036] 表1
[0037] 层名 卷积核结构,通道数,步长Conv1a 3×3×3,64,stride,1×1×1
Pool1 1×2×2,stride1,1×2×2
Conv2a 3×3×3,128,stride,1×1×1
Pool2 2×2×2,stride,2×2×2
Conv3a 3×3×3,256,stride,1×1×1
Conv3b 3×3×3,256,stride,1×1×1
Pool3 2×2×2,stride,2×2×2
Conv4a 3×3×3,512,stride,1×1×1
Conv4b 3×3×3,512,stride,1×1×1
Pool4 2×2×2,stride,2×2×2
Conv5a 3×3×3,512,stride,1×1×1
Conv5b 3×3×3,512,stride,1×1×1
Pool5 2×2×2,stride,2×2×2
[0038] 所用反卷积网络结构与参数如表2所示。
[0039] 表2
[0040]
[0041]
[0042] 中的调整图像帧的长宽为112×112,步骤3中权重α为0.3,反向传播选用的优化器为随机梯度下降优化器,一个训练批次包含30个视频,初始学习率为0.003,并且每迭代 150k此下降一半,迭代1.9m此后停止。
[0043] 在常用行为分类数据集UCF101上进行了实验。衡量算法准确性的指标为准确率,实验结果汇总在表1中,为突显算法的优越性,一些主流算法被列入表3作为对比。从准确率来看,本发明的算法性能优异,可准确判别大多数行为的类别。
[0044] 表1
[0045]算法 准确率
C3D 85.2%
Two Stream 88.0%
MoFAP 88.3%
LTC 91.7%
本发明 92.1%
[0046] 此外,本发明的算法避开了传统的光流提取方法,速度大幅提高,在Tesla V100 GPU 平台上,以320×240作为输入视频的分辨率,可达到500帧每秒(500FPS)的速度。而基于光流提取的行为分类算法,都无法达到实时处理视频(25FPS)的速度,由此可看出本发明算法在速度与准确率上的双重优势。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈