基于孪生三维卷积神经网络的行为分类方法专利检索-优化算法数学与统计专利检索查询-专利查询网

基于孪生三维 卷积神经网络的行为分类方法

阅读：1038发布：2020-05-21

专利汇可以提供基于孪生三维卷积神经网络的行为分类方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于孪生三维卷积神经网络的行为分类方法，步骤1，调整图像帧的长、宽到孪生三维卷积神经网络要求的大小；步骤2，把图像帧序列按连续16帧一组进行分组，把每组图像帧输入孪生三维卷积神经网络，提取抽象时间特征与抽象空间特征，把抽象时间特征输入到反卷积网络，得到光流场；步骤3，计算得到总损失函数为，表达式为：L＝Lcls+αLflow；步骤4，利用反向传播技术优化网络参数，使网络性能达到最优。本发明算法具有速度与准确率上的双重优势。，下面是基于孪生三维卷积神经网络的行为分类方法专利的具体信息内容。

权利要求

1.一种基于孪生三维卷积神经网络的行为分类方法，其特征在于，该方法具体包括以下步骤：
步骤1，调整图像帧的长、宽到孪生三维卷积神经网络要求的大小；
步骤2，把图像帧序列按连续16帧一组进行分组，把每组图像帧输入孪生三维卷积神经网络，提取抽象时间特征与抽象空间特征，把抽象时间特征输入到反卷积网络，得到光流场；
步骤3，拼接步骤2中得到的抽象时间特征与抽象空间特征，并把提取的一个视频中全部图像帧组的特征取算数平均，平均值输入分类器，获得视频中行为的类别的预测向量，与训练数据标签做运算得到第一损失函数Lcls，表达式如下：
其中， pclass表示类别的预测向量，a表示训练数据的标签向
量，aj表示第j维的训练数据的标签向量a，j表示向量中的维度，N表示一个训练批次中视频的数量；
把步骤2中得到的光流场与训练数据的标签光流场做运算得到第二损失函数Lflow，表达式如下：
其中，(i,j)为光流场中像素点的坐标，I表示光流场中像素点坐标的集合，u,v表示网络预测的光流场在两个方向上的分量，其中u表示网络预测的光流场的水平分量，v表示网络预测的光流场的垂直分量，ug,vg表示标签光流场在两个方向的分量，其中ug表示标签光流场的水平分量，vg表示标签光流场的垂直分量，Nf表示一个视频中图像帧的数量，N表示一个训练批次中视频的数量；
总损失函数为上述第一、第二两个损失函数的加权相加，表达式如下：
L＝Lcls+αLflow
其中，α为平衡两个损失函数的权重；
步骤4，使用Adam优化器以及反向传播算法更新网络参数，直到总损失函数L的值不再下降为止，得到最终的网络参数。

说明书全文

基于孪生三维卷积神经网络的行为分类方法

技术领域

[0001] 本发明涉及视频语音理解邻域，特别涉及一种视频中行为的分类方法。

背景技术

[0002] 行为分类是视频理解领域的重要分支，生成视频锦集、文字描述视频内容等更高层次的任务都以行为分类为基础。行为分类是一种通过提取视频的抽象语义信息并根据语义信息判断视频所包含的动作类别的技术。目前，视频分类问题尚无最优解，一类算法只利用了视频的空间特征，忽略了视频的时间特征，使得分类算法的效果不尽人意；另一类算法同时利用了时间与空间两种特征，这类方法通过光流场描述视频时间特征，并把时间特征抽象后用于行为分类，但是光流场的计算速度无法应用于实时行为分类的场景，并且光流场不是描述视频时间特征的最佳方法，基于光流场的行为分类算法的性能依旧有很大的提升空间。

[0003] 随着深度神经网络技术的发展，许多新颖有效的框架可以提取和抽象不同种类的特征。

发明内容

[0004] 本发明旨在提出一种基于孪生三维卷积神经网络的行为分类方法，该方法通过绕过光流场提取过程，以达到提升行为分类算法速度的目的；此外算法还将引入新的时间信息抽象方式，以达到提升行为分类算法性能的目的。

[0005] 本发明的一种基于孪生三维卷积神经网络的行为分类方法，该方法包括以下步骤：

[0006] 步骤1，调整图像帧的长、宽到孪生三维卷积神经网络要求的大小；

[0007] 步骤2，把图像帧序列按连续16帧一组进行分组，把每组图像帧输入孪生三维卷积神经网络，提取抽象时间特征与抽象空间特征，把抽象时间特征输入到反卷积网络，得到光流场；

[0008] 步骤3，拼接步骤2中得到的抽象时间特征与抽象空间特征，并把提取的一个视频中全部图像帧组的特征取算数平均，平均值输入分类器，获得视频中行为的类别的预测向量，与训练数据标签做运算得到第一损失函数Lcls，表达式如下：

[0009]

[0010] 其中， pclass表示类别的预测向量，a表示训练数据的标签向量，aj表示第j维的训练数据的标签向量a，j表示向量中的维度，N表示一个训练批次中视频的数量；

[0011] 把步骤2中得到的光流场与训练数据的标签光流场做运算得到第二损失函数Lflow，表达式如下：

[0012]

[0013] 其中，(i,j)为光流场中像素点的坐标，I表示光流场中像素点坐标的集合，u,v表示网络预测的光流场在两个方向上的分量，其中u表示网络预测的光流场的水平分量， v表示网络预测的光流场的垂直分量，ug,vg表示标签光流场在两个方向的分量，其中 ug表示标签光流场的水平分量，vg表示标签光流场的垂直分量，Nf表示一个视频中图像帧的数量，N表示一个训练批次中视频的数量；

[0014] 总损失函数为上述第一、第二两个损失函数的加权相加，表达式如下：

[0015] L＝Lcls+αLflow

[0016] 其中，α为平衡两个损失函数的权重；

[0017] 步骤4，使用Adam优化器以及反向传播算法更新网络参数，直到总损失函数L 的值不再下降为止，得到最终的网络参数。

[0018] 与现有技术相比，本发明的一种基于孪生三维卷积神经网络的行为分类方法在算法上具有速度与准确率上的双重优势。附图说明

[0019] 图1是孪生三维卷积神经网络框架及流程示意图。

具体实施方式

[0020] 下面结合附图和实施例对本发明技术方案进行详细描述。

[0021] 如图1所示，为本发明所基于的的孪生三维卷积神经网络框架示意图。包括抽象时间特征分支网络与抽象空间特征分支网络，两支分支的结构相同，使用的卷积核都为三维卷积核。抽象时间特征经过反卷积网络生成光流场。抽象特征的拼接为首尾相接，即其中fcat表示拼接后的特征，fs表示抽象空间特征，ft表示抽象时间特征，且fs, 分类器由全连接层构成，全连接层的输出维度等于需要划分的种类数量。

[0022] 本发明的基于孪生三维卷积神经网络的行为分类方法整体流程，具体包括以下步骤：

[0023] 步骤1，调整图像帧的长、宽到孪生三维卷积神经网络要求的大小；

[0024] 步骤2，把图像帧序列按连续16帧一组进行分组，把每组图像帧输入孪生三维卷积神经网络，提取抽象时间特征与抽象空间特征，把抽象时间特征输入到反卷积网络，得到光流场；

[0025] 步骤3，拼接步骤2中得到的抽象时间特征与抽象空间特征，并把提取的一个视频中全部图像帧组的特征取算数平均，平均值输入分类器，获得视频中行为的类别的预测向量，与训练数据标签做运算得到第一损失函数Lcls，表达式如下：

[0026]

[0027] 其中， pclass表示类别的预测向量，a表示训练数据的标签向量，aj表示第j维的训练数据的标签向量a，j表示向量中的维度，N表示一个训练批次中视频的数量；

[0028] 把步骤2中得到的光流场与训练数据的标签光流场做运算得到第二损失函数Lflow，表达式如下：

[0029]

[0030] 其中，(i,j)为光流场中像素点的坐标，I表示光流场中像素点坐标的集合，u,v表示网络预测的光流场在两个方向上的分量，其中u表示网络预测的光流场的水平分量， v表示网络预测的光流场的垂直分量，ug,vg表示标签光流场在两个方向的分量，其中 ug表示标签光流场的水平分量，vg表示标签光流场的垂直分量，Nf表示一个视频中图像帧的数量，N表示一个训练批次中视频的数量；

[0031] 总损失函数为上述第一、第二两个损失函数的加权相加，表达式如下：

[0032] L＝Lcls+αLflow

[0033] 其中，α为平衡两个损失函数的权重；

[0034] 步骤4，使用Adam优化器以及反向传播算法更新网络参数，直到总损失函数L 的值不再下降为止，得到最终的网络参数。

[0035] 本发明需要使用网络实现相应功能，网络中两支分支的结构相同，具体结构及参数如表1所示。

[0036] 表1

[0037] 层名卷积核结构，通道数，步长Conv1a 3×3×3，64，stride，1×1×1
Pool1 1×2×2，stride1，1×2×2
Conv2a 3×3×3，128，stride，1×1×1
Pool2 2×2×2，stride，2×2×2
Conv3a 3×3×3，256，stride，1×1×1
Conv3b 3×3×3，256，stride，1×1×1
Pool3 2×2×2，stride，2×2×2
Conv4a 3×3×3，512，stride，1×1×1
Conv4b 3×3×3，512，stride，1×1×1
Pool4 2×2×2，stride，2×2×2
Conv5a 3×3×3，512，stride，1×1×1
Conv5b 3×3×3，512，stride，1×1×1
Pool5 2×2×2，stride，2×2×2

[0038] 所用反卷积网络结构与参数如表2所示。

[0039] 表2

[0040]

[0041]

[0042] 中的调整图像帧的长宽为112×112，步骤3中权重α为0.3，反向传播选用的优化器为随机梯度下降优化器，一个训练批次包含30个视频，初始学习率为0.003，并且每迭代 150k此下降一半，迭代1.9m此后停止。

[0043] 在常用行为分类数据集UCF101上进行了实验。衡量算法准确性的指标为准确率，实验结果汇总在表1中，为突显算法的优越性，一些主流算法被列入表3作为对比。从准确率来看，本发明的算法性能优异，可准确判别大多数行为的类别。

[0044] 表1

[0045]算法准确率
C3D 85.2％
Two Stream 88.0％
MoFAP 88.3％
LTC 91.7％
本发明 92.1％

[0046] 此外，本发明的算法避开了传统的光流提取方法，速度大幅提高，在Tesla V100 GPU 平台上，以320×240作为输入视频的分辨率，可达到500帧每秒(500FPS)的速度。而基于光流提取的行为分类算法，都无法达到实时处理视频(25FPS)的速度，由此可看出本发明算法在速度与准确率上的双重优势。

标题	发布/更新时间	阅读量
带宽压缩中的预测方法	2020-05-08	213
一种基于反演滑模控制的AGV路径跟踪方法	2020-05-11	0
一种无线体域网能耗和时延加权最小的安全路由选择方法	2020-05-08	982
一种基于区块链和竞拍博弈的网络资源安全共享方法	2020-05-08	582
储能式充电桩参与电网需求侧响应联合运行优化模型与求解算法	2020-05-08	238
一种电采暖设备接入的配电网供电能力优化方法和装置	2020-05-08	494
一种基于部件特征的航空发动机多故障并发诊断方法	2020-05-08	324
雨雪天气条件下的运动目标检测方法	2020-05-08	195
面向慢性病康复的精准运动大数据智能预测、分析及优化系统	2020-05-08	200
一种基于分布式编码的随机梯度下降优化方法	2020-05-11	565

基于孪生三维卷积神经网络的行为分类方法

基于孪生三维卷积神经网络的行为分类方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：