首页 / 专利库 / 摄影 / 运动模糊 / 一种基于优化视频关键帧提取的短视频分类方法及系统

一种基于优化视频关键提取的短视频分类方法及系统

阅读:213发布:2020-05-08

专利汇可以提供一种基于优化视频关键提取的短视频分类方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于优化视频关键 帧 提取的短视频分类方法及系统,分类方法包括步骤:S1、提取短视频密集帧;S2、计算所述密集帧中各图像帧的信息量;S3、选取信息量最大的多个图像帧作为所述短视频的关键帧;S4、拼接所述关键帧生成短视频张量,将所述短视频张量输入3D-CNN分类模型,基于所述3D-CNN分类模型对所述短视频张量进行特征学习,输出短视频类别。本发明基于信息量对 视频帧 进行筛选,避免了视频抖动造成 抽取 的帧产生 运动模糊 或者由于画面切换导致抽取的帧为纯色的问题,提升了分类的准确性。,下面是一种基于优化视频关键提取的短视频分类方法及系统专利的具体信息内容。

1.一种基于优化视频关键提取的短视频分类方法,其特征在于,包括步骤:
S1、提取短视频密集帧;
S2、计算所述密集帧中各图像帧的信息量;
S3、选取信息量最大的多个图像帧作为所述短视频的关键帧;
S4、拼接所述关键帧生成短视频张量,将所述短视频张量输入3D-CNN分类模型,基于所述3D-CNN分类模型对所述短视频张量进行特征学习,输出短视频类别。
2.根据权利要求1所述的短视频分类方法,其特征在于,所述密集帧的数量为所述关键帧数量的m倍,m≥2。
3.根据权利要求1所述的短视频分类方法,其特征在于,所述步骤S2具体为:
S21、对密集帧中各图像帧进行灰度化,彩色图像三个颜色通道分别用R、G、B表示,则灰度图Grad为:
Grad(i,j)=0.299*R(i,j)+0.587*G(i,j)+0.114*B(i,j)
S22、计算所述灰度化后图像帧的信息熵:
其中,P(i)是某个像素值i在图像中出现的概率,图像像素值取值范围为0~255。
4.根据权利要求1所述的短视频分类方法,其特征在于,所述短视频张量为N×W×H×C大小,其中N为关键帧的帧数,W对应每个图像帧的宽,H对应每帧图像的高,C对应每帧图像的通道数。
5.根据权利要求4所述的短视频分类方法,其特征在于,所述3D-CNN包括一个硬连线层、三个3D卷积层、两个下采样层一个全连接层、一个输出层;所述硬连线层通过对关键帧进行处理产生多个通道信息;3D卷积层用于提取多种特征;下采样层组件用于对特征进行降维;全连接层用于将二维特征组合成一维特征;输出层包括Softmax分类器,用于基于所述一维特征为短视频分类输出。
6.一种基于优化视频关键帧提取的短视频分类系统,其特征在于,包括:
截帧模,用于提取短视频密集帧;
信息量计算模块,用于计算所述密集帧中各图像帧的信息量;
关键帧选取模块,用于选取信息量最大的多个图像帧作为所述短视频的关键帧;
分类模块,用于拼接所述关键帧生成短视频张量,将所述短视频张量输入3D-CNN分类模型,基于所述3D-CNN分类模型对所述短视频张量进行特征学习,输出短视频类别。
7.根据权利要求6所述的短视频分类系统,其特征在于,所述密集帧的数量为所述关键帧数量的m倍,m≥2。
8.根据权利要求6所述的短视频分类系统,其特征在于,所述信息量计算模块包括:
灰度化模块,用于对密集帧中各图像帧进行灰度化,彩色图像三个颜色通道分别用R、G、B表示,则灰度图Grad为:
Grad(i,j)=0.299*R(i,j)+0.587*G(i,j)+0.114*B(i,j)
计算模块,用于计算所述灰度化后图像帧的信息熵:
其中,P(i)是某个像素值i在图像中出现的概率,图像像素值取值范围为0~255。
9.根据权利要求6所述的短视频分类系统,其特征在于,所述短视频张量为N×W×H×C大小,其中N为关键帧的帧数,W对应每个图像帧的宽,H对应每帧图像的高,C对应每帧图像的通道数。
10.根据权利要求9所述的短视频分类系统,其特征在于,所述3D-CNN包括一个硬连线层、三个3D卷积层、两个下采样层一个全连接层、一个输出层;所述硬连线层通过对关键帧进行处理产生多个通道信息;3D卷积层用于提取多种特征;下采样层组件用于对特征进行降维;全连接层用于将二维特征组合成一维特征;输出层包括Softmax分类器,用于基于所述一维特征为短视频分类输出。

说明书全文

一种基于优化视频关键提取的短视频分类方法及系统

技术领域

[0001] 本发明涉及短视频处理领域,具体涉及一种基于优化视频关键帧提取的短视频分类方法及系统。

背景技术

[0002] 近年来,短视频作为信息的载体已经被广泛的使用和传播,因为短视频表达的内容更丰富和更直观。但是,一些不法分子会利用短视频传播一些不健康或者违法的视频来牟取私利,因此在短视频平台在发布短视频之前都应当对目标视频进行分类,过滤掉非法视频。同时,由于个体兴趣爱好的不同,对每个用户推荐的视频也应各不相同,因此利用短视频分类对不同类别推荐给不同用户也是必不可少。
[0003] 目前视频分类处理流程为:1.视频帧提取,2.利用机器学习深度学习方法对帧进行分类,3.将学习到的类别作为最终视频类别进行输出。对于步骤1,目前方法也是集中在对视频进行等间隔抽取或者按照时间差抽取。对于步骤2,随着数据量的增长,利用深度学习方法能有效提升算法准确性,且由于视频帧为多输入,故目前使用长短时记忆网络(Long Short Term Memory Network,LSTM)对视频帧进行分类的应用较多。
[0004] 原有针对短视频分类的技术存在以下几点问题:
[0005] (1)在视频帧提取过程中通过等间隔抽取的视频帧随机性太大,通常会存在由于视频抖动造成抽取的帧产生运动模糊或者由于画面切换导致抽取的帧为纯色,如果这些帧也被放入后续模型中进行训练或者预测,将影响分类的准确性。
[0006] (2)由于视频帧序列为二维图像,而如果调用LSTM方法需要输入一维向量,之间存在二维到一维映射关系,目前采用的方法为先将将每帧图像输入主流的神经网络架构(resnet-50,vgg-16)中输出最后一个全连接层作为一维向量,最后将多个有顺序的一维向量输入LSTM中进行分类。不难发现,该主流方法利用了2个网络模型,将消耗大量计算资源并且严重影响分类时间效率。
[0007] 公开号为CN 109977773 A的发明专利申请公开了一种基于多目标检测30CNN的人体行为识别方法及系统,该方法包括:1)对视频进行预处理,将视频流转化为图像帧;2)采用目前比较成熟的SSD检测技术对视频中的目标对象进行标定裁剪;3)建立图像帧数据和标定裁剪数据的特征提取网络结构;4)建立特征融合模型,将步骤3)中提取的两种特征进行融合;5)利用Softmax回归模型分类器进行分类;6)根据实际的应用场景或公共数据集,对训练好的模型进行微调。该专利申请采用3D-CNN(3D Convolutional Neural Networks)代替特征提取+LSTM对上文中的输入直接进行分类,降低了资源损耗和提高时间效率,使处理过程达到实时。
[0008] 然而,上述专利申请对视频帧的截取仍然存在由于视频抖动造成抽取的帧产生运动模糊或者由于画面切换导致抽取的帧为纯色,造成分类准确性低的问题。因此,如何通过对视频帧的截取以提高分类准确性是本领域亟待解决的问题。

发明内容

[0009] 本发明的目的是针对现有技术缺陷,提供了一种基于优化视频关键帧提取的短视频分类方法及系统。本发明基于信息量对视频帧进行筛选,避免了视频抖动造成抽取的帧产生运动模糊或者由于画面切换导致抽取的帧为纯色的问题,提升了分类的准确性。
[0010] 为了实现以上目的,本发明采用以下技术方案:
[0011] 一种基于优化视频关键帧提取的短视频分类方法,包括步骤:
[0012] S1、提取短视频密集帧;
[0013] S2、计算所述密集帧中各图像帧的信息量;
[0014] S3、选取信息量最大的多个图像帧作为所述短视频的关键帧;
[0015] S4、拼接所述关键帧生成短视频张量,将所述短视频张量输入3D-CNN分类模型,基于所述3D-CNN分类模型对所述短视频张量进行特征学习,输出短视频类别。
[0016] 进一步地,所述密集帧的数量为所述关键帧数量的m倍,m≥2。
[0017] 进一步地,所述步骤S2具体为:
[0018] S21、对密集帧中各图像帧进行灰度化,彩色图像三个颜色通道分别用R、G、B表示,则灰度图Grad为:
[0019] Grad(i,j)=0.299*R(i,j)+0.587*G(i,j)+0.114*B(i,j)
[0020] S22、计算所述灰度化后图像帧的信息熵:
[0021]
[0022] 其中,P(i)是某个像素值i在图像中出现的概率,图像像素值取值范围为0~255。
[0023] 进一步地,所述短视频张量为N×W×H×C大小,其中N为关键帧的帧数,W对应每个图像帧的宽,H对应每帧图像的高,C对应每帧图像的通道数。
[0024] 进一步地,所述3D-CNN包括一个硬连线层、三个3D卷积层、两个下采样层一个全连接层、一个输出层;所述硬连线层通过对关键帧进行处理产生多个通道信息;3D卷积层用于提取多种特征;下采样层组件用于对特征进行降维;全连接层用于将二维特征组合成一维特征;输出层包括Softmax分类器,用于基于所述一维特征为短视频分类输出。
[0025] 本发明还提出一种基于优化视频关键帧提取的短视频分类系统,包括:
[0026] 截帧模,用于提取短视频密集帧;
[0027] 信息量计算模块,用于计算所述密集帧中各图像帧的信息量;
[0028] 关键帧选取模块,用于选取信息量最大的多个图像帧作为所述短视频的关键帧;
[0029] 分类模块,用于拼接所述关键帧生成短视频张量,将所述短视频张量输入3D-CNN分类模型,基于所述3D-CNN分类模型对所述短视频张量进行特征学习,输出短视频类别。
[0030] 进一步地,所述密集帧的数量为所述关键帧数量的m倍,m≥2。
[0031] 进一步地,所述信息量计算模块包括:
[0032] 灰度化模块,用于对密集帧中各图像帧进行灰度化,彩色图像三个颜色通道分别用R、G、B表示,则灰度图Grad为:
[0033] Grad(i,j)=0.299LR(i,j)+0.587*G(i,j)+0.114*B(i,j)
[0034] 计算模块,用于计算所述灰度化后图像帧的信息熵:
[0035]
[0036] 其中,P(i)是某个像素值i在图像中出现的概率,图像像素值取值范围为0~255。
[0037] 进一步地,所述短视频张量为N×W×H×C大小,其中N为关键帧的帧数,W对应每个图像帧的宽,H对应每帧图像的高,C对应每帧图像的通道数。
[0038] 进一步地,所述3D-CNN包括一个硬连线层、三个3D卷积层、两个下采样层一个全连接层、一个输出层;所述硬连线层通过对关键帧进行处理产生多个通道信息;3D卷积层用于提取多种特征;下采样层组件用于对特征进行降维;全连接层用于将二维特征组合成一维特征;输出层包括Softmax分类器,用于基于所述一维特征为短视频分类输出。
[0039] 本发明与现有技术相比,具有如下效果:
[0040] (1)本发明首先进行密集帧的提取,并基于信息量对视频帧进行筛选,使提取的短视频关键帧都含有丰富的信息,避免了视频抖动造成抽取的帧产生运动模糊或者由于画面切换导致抽取的帧为纯色的问题,提升了基于关键帧进行短视频分类的分类准确性;
[0041] (2)本发明对密集帧进行筛选,筛选出预定数量的关键帧,在提升分类准确性的同时,并不需要增加关键帧特征提取的数量,分类效率高;
[0042] (3)本发明利用3D-CNN代替特征提取+LSTM对短视频直接进行分类,即采用一个模型同时实现特征提取及分类,降低了资源损耗和提高时间效率,使处理过程达到实时;
[0043] (4)本发明采用3D-CNN进行图像帧的时空特征抽取,以全面获取短视频的信息特征。附图说明
[0044] 图1是实施例一提供的一种基于优化视频关键帧提取的短视频分类方法流程图
[0045] 图2是3D-CNN网络结构示意图;
[0046] 图3是实施例二提供的一种基于优化视频关键帧提取的短视频分类系统结构图。

具体实施方式

[0047] 以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0048] 需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
[0049] 下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
[0050] 实施例一
[0051] 如图1所示,本实施例提出了一种基于优化视频关键帧提取的短视频分类方法,包括:
[0052] S1、提取短视频密集帧;
[0053] 通常意义上的30fps、60fps短视频代表着该短视频1秒钟由30或60张图片构成,而如果一个10秒钟的短视频就对应300或者600张图像。如果对短视频中所有图像帧进行处理无疑会影响系统的性能,现有的短视频截帧通常是按照一定时间间隔对短视频进行截帧处理,将短视频分解成多个图像帧,例如按照1秒钟的间隔抽取图像帧。如上所述,在视频帧提取过程中通过等间隔抽取的视频帧随机性太大,通常会存在由于视频抖动造成抽取的帧产生运动模糊或者由于画面切换导致抽取的帧为纯色,如果这些帧也被放入后续模型中进行训练或者预测,将影响分类的准确性。因此,本发明对短视频进行分类,与传统的视频分类一样,本发明对短视频进行截帧处理,但是本发明会对截帧的图像帧进行进一步筛选,对一个短视频提取的图像帧进行后续分析,避免模糊帧或纯色帧等对短视频分类的影响。同时,为了避免筛选后的图像帧数量过少不能很好地表征短视频的信息,本发明首先提取短视频密集帧,所谓密集帧是指对短视频按照较小的间隔时间进行截帧。
[0054] 具体地,通常密集帧的数量n由对短视频进行信息表示时需要的关键帧的数量决定。例如,对于一段T秒钟的短视频,如果需要N张关键图片帧来表征短视频的信息,现有技术就是按照T/N秒钟的间隔抽取N张图片帧,并直接将抽取的N张图片帧作为关键帧用于表示短视频的信息。对于本申请,密集帧的数量n通常为关键帧数量的几倍,可取n=3N,因此,可以按照T/n秒钟的间隔抽取n张图片帧。
[0055] S2、计算所述密集帧中各图像帧的信息量;
[0056] 为了避免模糊帧或纯色帧等对短视频分类的影响,本发明计算密集帧中各图像帧的信息量。具体地,本发明采用信息熵来表征图像帧的信息量。在计算信息熵之前,由于视频的图像帧通常为彩色图像,那么需要将原始图像进行灰度化。通常人眼看到的彩色图像均由RGB三个色彩分量组成,每个分量的值一般从0到255。本发明的图像帧通常也为RGB格式,但是RGB并不能反映图像的形态特征,只是从光学的原理上进行颜色的调配。灰度图像上每个像素的颜色值又称为灰度,指黑白图像中点的颜色深度,范围一般从0到255,白色为255,黑色为0。所谓灰度值是指色彩的浓淡程度,灰度直方图是指一幅数字图像中,对应每一个灰度值统计出具有该灰度值的象素数。灰度就是没有色彩,RGB色彩分量全部相等。例如,一个256级灰度的图象,如果RGB三个量相同时,如:RGB(100,100,100)就代表灰度为
100,RGB(50,50,50)代表灰度为50。
[0057] 目前主流的灰度化方法有:最大值法、平均值法和加权平均法。假设生成的灰度图用Grad,彩色图像三个颜色通道分别用R,G,B表示,那么有
[0058] 最大值法:
[0059] Grad(i,j)=max(R(i,j),G(i,j),B(i,j))
[0060] 平均值法:
[0061] Crad(i,j)=(R(i,j)+G(i,j)+B(i,j))/3
[0062] 加权平均法:
[0063] Grad(i,j)=0.299*R(i,j)+0.587*G(i,j)+0.114*B(i,j)
[0064] 由于人眼对绿色最敏感,对蓝色敏感度最低,通常采用加权平均法对图像进行灰度化。本发明不对具体的灰度化方法进行限定,优选地,本发明利用加权平均法进行图像灰度化。
[0065] 因此,基于灰度化后的图像,计算的图像帧的信息熵信息熵计算公式如下:
[0066]
[0067] 其中,P(i)是某个像素值i在图像中出现的概率,图像像素值取值范围为0~255。
[0068] 上述信息熵计算公式表明灰度值出现的概率越相近,则图像信息量量越大,图像内容越丰富。
[0069] S3、选取信息量最大的多个图像帧作为所述短视频的关键帧;
[0070] 本发明采用信息熵表征图像帧的信息量,信息熵越大,其包含的信息量越大。为了避免模糊帧或纯色帧等对短视频分类的影响,同时降低特征提取的数据处理量,提高短视频的分类效率,本发明基于信息熵对密集帧进行筛选,选取信息量最大的多个图像帧作为所述短视频的关键帧。
[0071] 具体地,通过计算n个图像帧的信息熵可以得到信息熵集合EN={E1,E2,…,En},其中E1,E2,…,En代表第1个视频帧到第n个视频帧的信息熵,其中,j=1,2,..n,其中j为图像帧的编号。计算出所有图像帧的信息量后,根据信息量由大到小的顺序对信息熵集合重新排序,并根据重新排序的信息熵集合输出其对应的图像帧的编号集合PN={P1,P2,…,Pn}。例如,第1个视频帧到第n个视频帧的信息熵组成的信息熵集合为EN={3,6,2,5},其中第1个图像帧的信息熵为3,第2个图像帧的信息熵为6,第3个图像帧的信息熵为2,第4个图像帧的信息熵为5。计算出各图像帧的信息熵后,将信息熵按照从大到小的值进行排序,得到排序后的信息熵集合为{6,5,3,2},依次对应的是第2个、第4个、第1个、第3个图像帧的信息熵。因此,PN={2,4,1,3}。因此选取信息量最大的多个图像帧作为所述短视频的关键帧具体为选取PN中排序前N的图像帧编号所对应的图像帧。如果关键帧数量为2帧,则取PN中前两个元素对应的帧。同理,对于长度为n的序列PN,取该集合内元素序号小于N的帧编号所对应的图像帧。
[0072] S4、拼接所述关键帧生成短视频张量,将所述短视频张量输入3D-CNN分类模型,基于所述3D-CNN分类模型对所述短视频张量进行特征学习,输出短视频类别。
[0073] 随着深度学习卷积神经网络(Convolutional Neural Networks,CNN)在图像领域的发展,现有的视频特征提取通常采用2D-CNN进行关键帧的特征提取,然后通过融合算法把关键帧的特征结合在一起。对于2D-CNN,通常是将短视频的每一图像帧当作一张特征图,因此,2D-CNN输入的是F=(W×H×C),其中,W对应每个图像帧的宽,H对应每帧图像的高,C对应每帧图像的通道数,输出每张图像帧的特征向量,并将各特征向量组合成短视频的特征。
[0074] 然而,2D-CNN将各图像帧作为静态的图片进行独立的特征提取,而没有考虑时间维度上的运动信息,因此,本发明采用3D-CNN进行图像帧的时空特征抽取,以全面获取短视频的信息特征。
[0075] 因此,抽取出N个关键帧后,本发明将选出的N个视频帧拼接成一个N×W×H×C大小的张量,其中N为关键帧的帧数,W对应每个图像帧的宽,H对应每帧图像的高,C对应每帧图像的通道数。因此,一个短视频对应一个N×W×H×C大小的张量。并将得到的短视频张量作为3D-CNN分类模型的输入。
[0076] 本发明利用深度学习模型3D-CNN提取短视频特征,并基于提取的特征对短视频进行分类。3D-CNN分类模型的具体生成如下:
[0077] 构建3D-CNN卷积神经网络;通过短视频样本数据对3D-CNN卷积神经网络进行训练,得到3D-CNN分类模型;基于所述3D-CNN分类模型,提取短视频特征,输出短视频类别。
[0078] 3D-CNN基本结构组件为3D卷积层、硬连线hardwired层、下采样层、全连接层和输出层。其中hardwired层通过对原始帧进行处理产生多个通道信息,然后对多个通道进行处理。3D卷积层是三维的卷积核,该组件负责提取多种特征。下采样层组件负责对特征图进行降维,全连接层组件负责将二维特征组合成一维特征并用于最后输出层的分类输出。3D-CNN中,通常包括一个硬连线hardwired层、一个全连接层和一个输出层。3D卷积层、下采样层的数量可以根据实际情况进行选择,在此不作限定。下采样层通常设置在卷积层之后,全连接层位于最后一个卷积层和输出层之间。
[0079] 图2示出了3D-CNN包括三个3D卷积层和两个下采样层。首先通过hardwired层提取每个图像帧的通道信息,然后采用一个7×7×3的第一3D卷积核在每个通道分别进行卷积,其中7×7是空间维,3是时间维。接着通过第一下采样层用2x2窗口进行下采样。再对下采样后的特征通过7×6×3的第二3D卷积核在每个通道分别进行卷积,其中7×6是空间维,3是时间维。接着通过第二下采样层用3×3窗口进行下采样。再次采用只在空间维度上面卷积,图2中采用7×4的第三3D卷积核。最后使用全连接层将第三3D卷积核生成的每个特征与第二下采样层中的所有特征全连接,生成短视频的特征向量。最终生成的特征向量输入输出层进行分类。输出层包括Softmax分类器,对输入的短视频进行分类输出。
[0080] 构建好3D-CNN后,基于训练数据对3D-CNN进行训练,得到3D-CNN分类模型。本发明加载标注了类别信息的短视频数据,通过3D-CNN分类模型的损失函数对3D-CNN分类模型进行优化,训练生成3D-CNN分类模型。训练生成后,对所述短视频张量进行特征学习,输出短视频类别。
[0081] 实施例二
[0082] 如图3所示,本实施例提出了一种基于优化视频关键帧提取的短视频分类系统,包括:
[0083] 截帧模块,用于提取短视频密集帧;
[0084] 通常意义上的30fps、60fps短视频代表着该短视频1秒钟由30或60张图片构成,而如果一个10秒钟的短视频就对应300或者600张图像。如果对短视频中所有图像帧进行处理无疑会影响系统的性能,现有的短视频截帧通常是按照一定时间间隔对短视频进行截帧处理,将短视频分解成多个图像帧,例如按照1秒钟的间隔抽取图像帧。如上所述,在视频帧提取过程中通过等间隔抽取的视频帧随机性太大,通常会存在由于视频抖动造成抽取的帧产生运动模糊或者由于画面切换导致抽取的帧为纯色,如果这些帧也被放入后续模型中进行训练或者预测,将影响分类的准确性。因此,本发明对短视频进行分类,与传统的视频分类一样,本发明对短视频进行截帧处理,但是本发明会对截帧的图像帧进行进一步筛选,对一个短视频提取的图像帧进行后续分析,避免模糊帧或纯色帧等对短视频分类的影响。同时,为了避免筛选后的图像帧数量过少不能很好地表征短视频的信息,本发明首先提取短视频密集帧,所谓密集帧是指对短视频按照较小的间隔时间进行截帧。
[0085] 具体地,通常密集帧的数量n由对短视频进行信息表示时需要的关键帧的数量决定。例如,对于一段T秒钟的短视频,如果需要N张关键图片帧来表征短视频的信息,现有技术就是按照T/N秒钟的间隔抽取N张图片帧,并直接将抽取的N张图片帧作为关键帧用于表示短视频的信息。对于本申请,密集帧的数量n通常为关键帧数量的几倍,可取n=3N,因此,可以按照T/n秒钟的间隔抽取n张图片帧。
[0086] 信息量计算模块,用于计算所述密集帧中各图像帧的信息量;
[0087] 为了避免模糊帧或纯色帧等对短视频分类的影响,本发明计算密集帧中各图像帧的信息量。具体地,本发明采用信息熵来表征图像帧的信息量。在计算信息熵之前,由于视频的图像帧通常为彩色图像,那么需要将原始图像进行灰度化。通常人眼看到的彩色图像均由RGB三个色彩分量组成,每个分量的值一般从0到255。本发明的图像帧通常也为RGB格式,但是RGB并不能反映图像的形态特征,只是从光学的原理上进行颜色的调配。灰度图像上每个像素的颜色值又称为灰度,指黑白图像中点的颜色深度,范围一般从0到255,白色为255,黑色为0。所谓灰度值是指色彩的浓淡程度,灰度直方图是指一幅数字图像中,对应每一个灰度值统计出具有该灰度值的象素数。灰度就是没有色彩,RGB色彩分量全部相等。例如,一个256级灰度的图象,如果RGB三个量相同时,如:RGB(100,100,100)就代表灰度为
100,RGB(50,50,50)代表灰度为50。
[0088] 目前主流的灰度化方法有:最大值法、平均值法和加权平均法。假设生成的灰度图用Grad,彩色图像三个颜色通道分别用R,G,B表示,那么有
[0089] 最大值法:
[0090] Grad(i,j)=max(R(i,j),G(i,j),B(i,j)}
[0091] 平均值法:
[0092] Grad(i,j)=(R(i,j)+G(i,j)+B(i,j))/3
[0093] 加权平均法:
[0094] Grad(i,j)=0.299*R(i,j)+0.587*G(i,j)+0.114*B(i,j)
[0095] 由于人眼对绿色最敏感,对蓝色敏感度最低,通常采用加权平均法对图像进行灰度化。本发明不对具体的灰度化方法进行限定,优选地,本发明利用加权平均法进行图像灰度化。
[0096] 因此,基于灰度化后的图像,计算的图像帧的信息熵信息熵计算公式如下:
[0097]
[0098] 其中,P(i)是某个像素值i在图像中出现的概率,图像像素值取值范围为0~255。
[0099] 上述信息熵计算公式表明灰度值出现的概率越相近,则图像信息量量越大,图像内容越丰富。
[0100] 关键帧选取模块,用于选取信息量最大的多个图像帧作为所述短视频的关键帧;
[0101] 本发明采用信息熵表征图像帧的信息量,信息熵越大,其包含的信息量越大。为了避免模糊帧或纯色帧等对短视频分类的影响,同时降低特征提取的数据处理量,提高短视频的分类效率,本发明基于信息熵对密集帧进行筛选,选取信息量最大的多个图像帧作为所述短视频的关键帧。
[0102] 具体地,通过计算n个图像帧的信息熵可以得到信息熵集合EN={E1,E2,…,En},其中E1,E2,…,En代表第1个视频帧到第n个视频帧的信息熵,其中,j=1,2,..n,其中j为图像帧的编号。计算出所有图像帧的信息量后,根据信息量由大到小的顺序对信息熵集合重新排序,并根据重新排序的信息熵集合输出其对应的图像帧的编号集合PN={P1,P2,…,Pn}。例如,第1个视频帧到第n个视频帧的信息熵组成的信息熵集合为EN={3,6,2,5},其中第1个图像帧的信息熵为3,第2个图像帧的信息熵为6,第3个图像帧的信息熵为2,第4个图像帧的信息熵为5。计算出各图像帧的信息熵后,将信息熵按照从大到小的值进行排序,得到排序后的信息熵集合为{6,5,3,2},依次对应的是第2个、第4个、第1个、第3个图像帧的信息熵。因此,PN={2,4,1,3}。因此选取信息量最大的多个图像帧作为所述短视频的关键帧具体为选取PN中排序前N的图像帧编号所对应的图像帧。如果关键帧数量为2帧,则取PN中前两个元素对应的帧。同理,对于长度为n的序列PN,取该集合内元素序号小于N的帧编号所对应的图像帧。
[0103] 分类模块,用于拼接所述关键帧生成短视频张量,将所述短视频张量输入3D-CNN分类模型,基于所述3D-CNN分类模型对所述短视频张量进行特征学习,输出短视频类别。
[0104] 随着深度学习卷积神经网络(Convolutional Neural Networks,CNN)在图像领域的发展,现有的视频特征提取通常采用2D-CNN进行关键帧的特征提取,然后通过融合算法把关键帧的特征结合在一起。对于2D-CNN,通常是将短视频的每一图像帧当作一张特征图,因此,2D-CNN输入的是F=(W×H×C),其中,W对应每个图像帧的宽,H对应每帧图像的高,C对应每帧图像的通道数,输出每张图像帧的特征向量,并将各特征向量组合成短视频的特征。
[0105] 然而,2D-CNN将各图像帧作为静态的图片进行独立的特征提取,而没有考虑时间维度上的运动信息,因此,本发明采用3D-CNN进行图像帧的时空特征抽取,以全面获取短视频的信息特征。
[0106] 因此,抽取出N个关键帧后,本发明将选出的N个视频帧拼接成一个N×W×H×C大小的张量,其中N为关键帧的帧数,W对应每个图像帧的宽,H对应每帧图像的高,C对应每帧图像的通道数。因此,一个短视频对应一个N×W×H×C大小的张量。并将得到的短视频张量作为3D-CNN分类模型的输入。
[0107] 本发明利用深度学习模型3D-CNN提取短视频特征,并基于提取的特征对短视频进行分类。3D-CNN分类模型的具体生成如下:
[0108] 构建3D-CNN卷积神经网络;通过短视频样本数据对3D-CNN卷积神经网络进行训练,得到3D-CNN分类模型;基于所述3D-CNN分类模型,提取短视频特征,输出短视频类别。
[0109] 3D-CNN基本结构组件为3D卷积层、硬连线hardwired层、下采样层、全连接层和输出层。其中hardwired层通过对原始帧进行处理产生多个通道信息,然后对多个通道进行处理。3D卷积层是三维的卷积核,该组件负责提取多种特征。下采样层组件负责对特征图进行降维,全连接层组件负责将二维特征组合成一维特征并用于最后输出层的分类输出。3D-CNN中,通常包括一个硬连线hardwired层、一个全连接层和一个输出层。3D卷积层、下采样层的数量可以根据实际情况进行选择,在此不作限定。下采样层通常设置在卷积层之后,全连接层位于最后一个卷积层和输出层之间。输出层包括Softmax分类器,对输入的短视频进行分类输出。
[0110] 构建好3D-CNN后,基于训练数据对3D-CNN进行训练,得到3D-CNN分类模型。本发明加载标注了类别信息的短视频数据,通过3D-CNN分类模型的损失函数对3D-CNN分类模型进行优化,训练生成3D-CNN分类模型。训练生成后,对所述短视频张量进行特征学习,输出短视频类别。
[0111] 由此可知,本发明提出的一种基于优化视频关键帧提取的短视频分类方法及系统,结合特定客户端的展示形式,首先进行密集帧的提取,并基于信息量对视频帧进行筛选,使提取的短视频关键帧都含有丰富的信息,避免了视频抖动造成抽取的帧产生运动模糊或者由于画面切换导致抽取的帧为纯色的问题,提升了基于关键帧进行短视频分类的分类准确性;对密集帧进行筛选,筛选出预定数量的关键帧,在提升分类准确性的同时,并不需要增加关键帧特征提取的数量,分类效率高;利用3D-CNN代替特征提取+LSTM对短视频直接进行分类,即采用一个模型同时实现特征提取及分类,降低了资源损耗和提高时间效率,使处理过程达到实时;采用3D-CNN进行图像帧的时空特征抽取,以全面获取短视频的信息特征。
[0112] 注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈