首页 / 专利库 / 人工智能 / 机器学习 / 监督学习 / 一种基于卷积神经网络和深度核网络的视频行为识别方法

一种基于卷积神经网络和深度核网络的视频行为识别方法

阅读:915发布:2020-05-11

专利汇可以提供一种基于卷积神经网络和深度核网络的视频行为识别方法专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种基于 卷积神经网络 和深度核网络的视频行为识别方法,包括以下步骤:步骤1:采集视频并按行为类别进行分类;步骤2:对筛选后的视频进行预处理;步骤3:用经过预处理后的数据训练模型;步骤4:采集待检测视频并进行预处理;步骤5:根据步骤3得到的训练好的模型用步骤4得到的预处理后的数据作为输入进行行为识别;步骤6:根据步骤5的识别结果就可以得到与待识别视频相似度最高的行为类别。,下面是一种基于卷积神经网络和深度核网络的视频行为识别方法专利的具体信息内容。

1.一种基于卷积神经网络和深度核网络的视频行为识别方法,其特征在于,包括如下步骤:
步骤1:采集视频并按行为类别进行分类;
步骤2:对视频进行预处理;
步骤3:用经过预处理后的视频数据训练模型;
步骤4:采集待检测视频并进行预处理;
步骤5:根据步骤3得到的训练好的模型,用步骤4得到的预处理后的数据作为输入进行行为识别;
步骤6:根据步骤5的识别结果,得到与待识别视频相似度最高的行为类别。
2.根据权利要求1所述的方法,步骤2包括如下步骤:
步骤2-1,将采集的视频分割成三个部分,每个部分持续的时间相同;
步骤2-2,从分割的每个部分中采样得到长度为T的视频片段,并且计算得到对应的光流场;
步骤2-3,在视频片段和光流场上裁剪,得到大小为H×W×c×T的连续彩色图像序列,以及大小为H×W×2L×T的光流场序列,其中H和W分别表示裁剪图像的高度和宽度,c表示彩色图像的通道数,L表示堆叠的光流场的数量。
3.根据权利要求2所述的方法,其特征在于,步骤3包括如下步骤:
步骤3-1,构造神经网络模型;
步骤3-2,初始化神经网络模型;
步骤3-3,用步骤2得到的连续彩色图像序列以及光流或翘曲光流场序列对神经网络模型进行训练,并保存训练好的模型。
4.根据权利要求3所述的方法,其特征在于,步骤3-1包括:
构造神经网络模型,所述模型包括卷积神经网络和深度核网络;所述模型将三个视频片段分别输入至卷积神经网络提取外观特征后,再输入至深度核网络提取时变特征,最后再融合三个视频片段的输出特征以获取对完整视频的行为预测;
其中,深度核网络包括三个构造,每个构造块通过三次操作对输入特征向量完成三次变换,第一次变换使用公式 第二次变换使用公式 其中x为输
入特征向量,θ为激活函数,Z为基底向量组成的矩阵,||·||2表示向量的2范数,T表示矩阵的转置,前两次变换的组合用函数φ表示, 第三次变换为
步长为2的最大化池化,用以增加平移不变性及扩大感受野。
5.根据权利要求4所述的方法,其特征在于,对于第二次变换 计算在使用反向传播算法训练网络参数阶段所需用到的梯度:
T
令X=θ(ZZ),并且 L=l(Y),其中X,Y为矩阵,函数f的功能是求矩阵的次方,l为损失函数,L为损失值,此时已知损失值相对于矩阵Y的梯度 目标是计算损失值相对于矩阵X梯度
6.根据权利要求5所述的方法,其特征在于,所述计算损失值相对于矩阵X梯度 具体包括如下步骤:
步骤3-1-1,对矩阵X进行特征分解,X=QΛQT,其中Q为正交矩阵,Λ为对矩阵且对角线元素依次为矩阵X的D个特征值λ1,λ2,...,λD,λD表示第D个特征值;
步骤3-1-2,计算得到
步骤3-1-3,计算得到 其中符号 表示矩阵阿达乘积,R是
新引入的矩阵,其第i行第j列元素 λi,λj为矩阵X的特征值。
7.根据权利要求6所述的方法,其特征在于,步骤3-2包括:
使用ImageNet数据集预训练卷积神经网络,并且使用监督学习初始化深度核网络的参数;学习率值初始化为0.001,并且每1000次迭代后其值减半。
8.根据权利要求7所述的方法,其特征在于,步骤4包括:采集待检测视频并利用步骤2中的方法对视频进行预处理。
9.根据权利要求8所述的方法,其特征在于,步骤5中,将步骤4中得到的预处理后的视频数据作为输入,使用步骤3中训练好的神经网络模型对输入进行检测,判断输入的视频所属的类别。

说明书全文

一种基于卷积神经网络和深度核网络的视频行为识别方法

技术领域

[0001] 本发明属于视觉识别技术领域,具体涉及一种基于卷积神经网络和深度核网络的视频行为识别方法。

背景技术

[0002] 深度神经网络在解决计算机视觉问题如图像分类和物体检测等方面取得了显著的进步。然而,到目前为止,在视频中识别出人的行为依然是一项具有挑战性的任务。视频中出现的视点变化、遮挡以及光照变化大大增加了该问题的难度。在目前的视频行为识别方法中,双流网络模型是其中最成功的模型之一,它由两个分别输入RGB图像和光流的独立的卷积神经网络组成,最后将两个网络的输出融合到一起得到对整个视频的预测。但是,由于双流网络的光流输入仅仅涉及两个相邻的帧,所以它无法描述在一个长时间段内的动作序列的演化。除此之外,现有的深度学习方法大多通过在视频上使用时序最大池的方法编码时序特征,而这样做会导致时变信息的丢失。

发明内容

[0003] 发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于卷积神经网络和深度核网络的视频行为识别方法,其核心在与通过采集不同种类的行为类别的视频,根据不同视频的特征信息来训练深度学习模型,从而达到识别视频行为类别的目的。具体包含以下步骤:
[0004] 步骤1:采集视频并按行为类别进行分类;
[0005] 步骤2:对视频进行预处理;
[0006] 步骤3:用经过预处理后的视频数据训练模型;
[0007] 步骤4:采集待检测视频并进行预处理;
[0008] 步骤5:根据步骤3得到的训练好的模型,用步骤4得到的预处理后的数据作为输入进行行为识别;
[0009] 步骤6:根据步骤5的识别结果,得到与待识别视频相似度最高的行为类别。
[0010] 步骤1对视频进行采集并分类,其视频包括:利用现有的大型行为视频数据集,如HMDB-51,UCF-101等,或从网络和现实中自行获取行为视频并标注分类。
[0011] 步骤2中的预处理是为了满足深度学习模型对数据的要求,从而提高识别的准确性。步骤2包括如下步骤:
[0012] 步骤2-1,将采集的视频分割成三个部分,每个部分持续的时间相同;
[0013] 步骤2-2,从分割的每个部分中采样得到长度为T的视频片段,并且计算得到对应的光流场;
[0014] 步骤2-3,在视频片段和光流场上裁剪,得到大小为H×W×c×T的连续彩色图像序列,以及大小为H×W×2L×T的光流场序列,其中H和W分别表示裁剪图像的高度和宽度,c表示彩色图像的通道数,L表示堆叠的光流场的数量。
[0015] 步骤3包括如下步骤:
[0016] 步骤3-1,构造神经网络模型;
[0017] 步骤3-2,初始化神经网络模型;
[0018] 步骤3-3,用步骤2得到的连续彩色RGB图像序列以及光流或翘曲光流场序列对神经网络模型进行训练,并保存训练好的模型。
[0019] 步骤3-1包括:
[0020] 构造神经网络模型,所述模型包括卷积神经网络和深度核网络;所述模型将三个视频片段分别输入至卷积神经网络提取外观特征后,再输入至深度核网络提取时变特征,最后再融合三个视频片段的输出特征以获取对完整视频的行为预测;
[0021] 其中,深度核网络包括三个构造,每个构造块通过三次操作对输入特征向量完成三次变换,第一次变换使用公式 第二次变换使用公式 其中x为输入特征向量,θ为激活函数,Z为基底向量组成的矩阵,||·||2表示向量的2范数,T表示矩阵的转置,前两次变换的组合用函数φ表示, 第三次
变换为步长为2的最大化池化,用以增加平移不变性及扩大感受野。
[0022] 对于第二次变换 计算在使用反向传播算法训练网络参数阶段所需用到的梯度:
[0023] 令X=θ(ZTZ),并且 L=l(Y),其中X,Y为矩阵,函数f的功能是求矩阵的 次方,l为损失函数,L为损失值,此时已知损失值相对于矩阵Y的梯度 目标是计算损失值相对于矩阵X梯度
[0024] 所述计算损失值相对于矩阵X梯度 具体包括如下步骤:
[0025] 步骤3-1-1,对矩阵X进行特征分解,X=QΛQT,其中Q为正交矩阵,Λ为对矩阵且对角线元素依次为矩阵X的D个特征值λ1,λ2,...,λD,λD表示第D个特征值;
[0026] 步骤3-1-2,计算得到
[0027] 步骤3-1-3,计算得到 其中符号 表示矩阵阿达乘积,R是新引入的矩阵,其第i行第j列元素 λi,λj为矩阵X的特征
值。
[0028] 在实际训练过程中,可以在深度核网络中堆叠多层以取得更好的结果。
[0029] 步骤3-2包括:
[0030] 使用ImageNet数据集预训练卷积神经网络,并且使用监督学习初始化深度核网络的参数;学习率值初始化为0.001,并且每1000次迭代后其值减半。
[0031] 步骤4包括:采集待检测视频并利用步骤2中的方法对视频进行预处理。
[0032] 步骤5中,将步骤4中得到的预处理后的视频数据作为输入,使用步骤3中训练好的神经网络模型对输入进行检测,判断输入的视频所属的类别。
[0033] 步骤6中,根据步骤5的识别结果就可以得到与待识别视频相似度最高的行为类别。
[0034] 本发明提出了一个名为时间分段卷积核网络的方法用于视频行为识别。本发明利用卷积神经网络提取视频的形态特征,并通过深度核网络提取视频的时变特征。与先前的方法相比,本发明的方法通过视频的空间和时间信息进行分别处理的方法实现了对可变长度的输入序列的处理。
[0035] 有益效果
[0036] 本发明提供的一种基于卷积神经网络和深度核网络的视频行为识别方法,有益效果在于:
[0037] (1)本方法通过深度核网络完成对视频序列的建模。
[0038] (2)本方法提出了一种端到端的通过矩阵反向传播实现核空间特征近似的训练方法。
[0039] 本方法通过深度核网络对视频中的多个稀疏视频片段进行处理,并融合所有片段的得分从而实现对整个视频的预测。附图说明
[0040] 下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
[0041] 图1为本发明的网络示意图。
[0042] 图2为深度核网络的构造块示意图。

具体实施方式

[0043] 实施例
[0044] 参照图1所示,一种基于卷积神经网络和深度核网络的视频行为识别方法,具体包括如下步骤:
[0045] 步骤1:采集101类视频并按行为类别进行分类;
[0046] 步骤2:对筛选后的视频进行预处理;
[0047] 步骤3:用经过预处理后的数据训练模型;
[0048] 步骤4:采集待检测视频并进行预处理;
[0049] 步骤5:根据步骤3得到的训练好的模型用步骤4得到的预处理后的数据作为输入进行行为识别;
[0050] 步骤6:根据步骤5的识别结果就可以得到与待识别视频相似度最高的行为类别。
[0051] 步骤1对视频进行采集并分类,利用UCF-101数据集获得101类具有不同类别的视频集合。
[0052] 步骤2中为了满足深度学习模型对数据的要求,从而提高识别的准确性,将给定视频分割成三个持续时间相等的部分,从每个部分采样得到长度为T的视频片段,并且计算得到对应的光流场。接着在视频片段和光流场上裁剪,得到大小为H×W×c×T的连续彩色图像序列,以及大小为H×W×2L×T的光流场序列,其中H和W分别表示裁剪图像的高度和宽度,c表示彩色图像的通道数,L表示堆叠的光流场的数量。
[0053] 可以设置H=W=224,c=3,T=32,L=10。
[0054] 步骤3用101类不同类别的视频数据对模型进行训练,如图1所示结构图,图中Video指待处理的视频,Video Clip指截取的视频片段,CNNs指卷积神经网络,Kernel Nets指深度核网络,Prediction指对视频行为的预测,Fusion指的是融合三个视频片段的输出特征。图2所示为深度核网络的一个构造块的组成,图中x为输入特征向量,OP1、OP2、OP3分别对应于步骤3-1所涉及的3次变换,函数φ表示前两次变换的组合,time=0指的是视频的第0帧。卷积神经网络用于提取视频的外观特征,深度核网络提取视频的时变特征,接着通过融合三个视频片段的输出特征作出相应预测。
[0055] 步骤4中对待检测视频的预处理与步骤二一样,在这里不再具体描述。
[0056] 步骤5中,将步骤4中得到的预处理后的数据作为输入,使用步骤3中训练好的模型对输入进行检测。
[0057] 步骤6中,根据步骤5的识别结果就可以得到与待识别视频相似度最高的行为类别。设定视频的候选行为共有n种,步骤5的输出结果为向量[p1,p2,...,pn],p1+p2+...+pn=1,其中pi(0≤pi≤1,i=1,2,...,n)表示待识别视频的行为类别是i的概率。本步骤判定,待识别视频的行为类别为j,满足pj≥pi(i=1,2,...,n)。例如视频的候选行为共有3种,分别是踢足球,爬山和跳。步骤5的输出结果为[0.1,0.7,0.2],则本步骤判定,待识别视频的行为类别是爬山。
[0058] 本发明提供了一种基于卷积神经网络和深度核网络的视频行为识别方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈