一种基于内容的视频片段检索及定位方法专利检索-运动矢量电脑图像专利检索查询-专利查询网

一种基于内容的视频片段检索及定位方法

阅读：285发布：2020-05-11

专利汇可以提供一种基于内容的视频片段检索及定位方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于内容的视频片段检索及定位方法，为了解决现有视频检索及定位领域中特征提取计算量大、特征单一、及定位准确率低等问题，本发明提出一种基于内容的视频片段检索及定位方法，属于视频处理领域。该方法首先对H.264压缩视频进行部分解码提取视频的运动信息和静态信息，并生成多种特征矢量；再通过度量特征矢量之间的距离判断视频之间的相似性，从而实现相似内容的视频检索；最后提出一种基于滑动窗的定位算法，对根据相似性筛选出的候选视频，基于窗口度量特征矢量之间的距离，并进一步采用特征筛选、定位截止算法对查询视频在候选视频中进行准确有效的定位。，下面是一种基于内容的视频片段检索及定位方法专利的具体信息内容。

权利要求

1.一种基于内容的视频片段检索及定位方法，其特征在于，首先对H.264压缩视频进行部分解码提取视频的运动信息和静态信息，并生成多种特征矢量；其次通过度量特征矢量之间的距离判断视频之间的相似性，从而实现相似内容的视频检索，选取候选视频；最后提出一种基于滑动窗的定位算法，基于窗口度量特征矢量之间的距离，并进一步采用特征筛选、定位截止算法对查询视频在候选视频中进行准确有效的定位；
具体包括以下步骤：
1)视频片段分割：
分别对库视频和查询视频以4s为单位分割成相同长度的视频片段；
2)提取视频特征信息：
分别从库视频和查询视频片段的H.264压缩码流中提取视频的运动信息和静态信息；
运动信息为提取P 帧中每个4×4子块的运动矢量MV：vi＝(dx,dy)，其中vi表示第i个子块的运动矢量，dx和dy分别表示当前块与参考帧中最佳匹配块之间的水平像素位移和垂直像素位移；
静态信息为提取I帧中每个4×4子块的预测模式及其对应的DCT系数；
3)构造特征矢量：
分别对库视频和查询视频片段中提取的运动信息和静态信息进行处理，构造出六种特征矢量，并存放在特征库中，其中基于运动信息构造出四种特征矢量：运动强度直方图、运动方向直方图、运动活动性直方图和场景变换直方图；基于静态信息构造出两种特征矢量：
DC 能量直方图和预测模式直方图；
4)度量库视频和查询视频片段特征矢量间的距离，根据视频之间的相似性选取候选视频：
先分别计算库视频和查询视频片段每种特征矢量之间的距离，公式如下：
其中Qi为查询视频第i个片段的特征矢量，Dn,j为视频库中第n个视频的第j个片段的特征矢量，K表示特征矢量的维数，距离的值越接近0，表明两个特征的相似度越高；
再对需比较的两个视频片段的六种特征矢量间的距离值求平均，得到D(Qi,Dn,j)，设置阈值θ，当D(Qi,Dn,j)≤θ，则认为是相似的视频片段，该片段所在的长视频Dn作为候选视频；
5)对候选视频采用基于滑动窗的方法，分段度量特征矢量间的距离：
以查询视频长度为窗口长度，调节滑动步长step，按照步骤3)中的方法提取查询视频和候选视频各窗口的特征矢量,利用步骤4)中的距离公式，对查询视频在候选视频上滑动进行分段匹配，计算得到查询视频和候选视频各窗口间的特征矢量距离值di,k，其中i对应六种不同的特征矢量，k表示候选视频第k个窗口；
6)特征筛选：
根据步骤5)中生成的距离值di,k，采用特征阈值法和投票权值法对特征矢量进行有效筛选；
A.特征阈值法：
计算每种特征矢量距离在所有窗口间的离差，公式如下：
其中i对应六种不同的特征矢量，K表示总的窗口数，是第i种特征矢量距离在所有窗口间的均值，
设置阈值T1，滤除离差值小于T1的特征；
B.投票权值法：
对特征阈值法筛选留下的特征矢量采用基于投票的思想对其进一步筛选：首先对于每种特征矢量距离值di,k，找出其最小距离值所在的窗口k；然后对各个特征的最小距离值所在窗口k进行投票，找出投票最多的窗口；对最小距离值落在最多窗口的特征予以保留，而其他特征予以剔除；最终计算得到查询视频与候选视频第k个窗口间的距离值dk，公式如下：
其中N表示特征阈值法筛选后剩余的特征矢量数，wi表示第i种特征矢量的权值，保留的特征其权值是1.0，剔除的特征其权值是0.0；
7)定位截止算法：
利用距离值dk与定位阈值Tmax和Tmin之间的关系，按照定位算法进行有效地截止，如需调节滑动步长，则重复步骤5)—7)，最终输出查询视频在候选视频中的对应片段，滑动步长step的初始值设为step＝int(窗口长度/2)×码率，int为取整函数。
2.根据权利要求1所述的一种基于内容的视频片段检索及定位方法，其特征在于，步骤
3)中六种特征矢量具体生成过程如下：
运动强度直方图：首先将一帧图像均分成9个区域，分别计算各个区域中所含MV的幅度均值I(k)：
其中k＝0,1,2…,8表示9个区域，N表示第k个区域内MV的总数；
然后统计各区域I(k)占9个区域MV幅度均值总和的比例，生成第j帧图像中具有顺序的
9维直方图：
最后对一段连续M帧的视频，生成运动强度直方图特征矢量Harea(k)：
运动方向直方图：首先计算一帧图像内各个运动矢量MV的方向角度θ：
θ＝arctan(dy/dx)-π≤θ≤π
根据角度θ判断该MV所属方向区间，方向区间是将－π到π的范围12等分得到；
然后分别统计每个MV的方向角度θ落在这12个方向区间上的比例，生成第j帧图像中12维的运动方向直方图：
其中l(k)是运动方向角度θ落在第k个方向区间上的MV总数；
最后对一段连续M帧的视频，生成运动方向直方图特征矢量Hdir(k)：
运动活动性直方图：首先将一帧图像均分成9个区域，分别计算各个区域中所含MV的标准差var(k)：
其中k＝0,1,2…,8表示9个区域，N表示第k个区域内MV的总数，I(k)是该区域内MV的幅度均值；
然后按照运动活动性量化标准表3，分别统计每个档次运动活动性的比重，对于第j帧图像，生成5维的运动活动性直方图Hvar,j(k)；
最后对一段连续M帧的视频，生成运动活动性直方图特征矢量Hvar(k)：
场景变换直方图：首先分别统计每一帧中MV为(0,0)的4×4子块数目N0占所有4×4子块N的比例：然后对比值r进行压扩处理得到log_r：
并将log_r量化到5个区间，分别统计各量化等级的比例，得到5维的场景变换直方图：
最后对一段连续M帧的视频，生成场景变换直方图特征矢量Hzero(k)：
DC能量直方图：提取每一个子块的DC系数，将DC系数量化等级分成12个区间，分别统计每个量化区间中子块的个数生成DC能量直方图特征矢量HDC(k)：
其中k＝0,1,2…,11表示12个量化区间，h和w分别为图像在行和列方向的4×4子块个数，pij为第i行第j列4×4子块的DC能量值，fk(pij)为其对应的量化区间，当k＝0,1,2…,10时，如果(k-1)×256预测模式直方图：提取每一个子块的帧内预测模式，共有13种预测模式，分别统计13种模式的子块个数生成预测模式直方图特征矢量Hmode(k)：
其中k＝0,1,2…,12表示13种预测模式，h和w分别为图像在行和列方向的4×4子块个数，fij为第i行第j列4×4子块的预测模式，若fij属于第k种模式，则modek(fij)＝1，否则modek(fij)＝0。
3.根据权利要求1所述的一种基于内容的视频片段检索及定位方法，其特征在于，步骤
7)中定位截止算法具体过程如下：
第一步：如果存在距离值dk＝0，则输出dk所在的视频片段，定位结束；如果所有距离值dk都大于0.3，则说明不存在相似的查询视频，定位结束；
第二步：如果最小距离值dmin≤0.3，考察此窗口相邻的左右两个窗口的距离值，其中小者为dmin1，大者为dmax1，如果满足条件dmax1≥Tmax×dmin和dmin1≥Tmin×dmin，则输出dmin所在的视频片段，定位结束，否则执行第三步；其中Tmax＝-3.812×10-4×step2+0.1597×step+
1.117，
Tmin＝-5.873×10-5×step2+0.0868×step+0.819；
第三步：选择dmin和dmin1所在的视频片段区间再次进行精确的定位，调节滑动步长step：
如果step<50，则step＝int(step/5)，否则step＝int(step/2)，式中int代表取整数操作，调节步长后重新执行步骤5)—7)，如果并不能有效找出定位位置，最后输出dmin所在的视频片段即可。

说明书全文

一种基于内容的视频片段检索及定位方法

技术领域

[0001] 本发明属于视频处理领域，一种基于内容的视频片段检索及定位方法，涉及一种联合多种特征的视频检索方法和一种基于滑动窗的视频定位算法。

背景技术

[0002] 随着计算机、多媒体及网络技术的迅猛发展，网络视频的制作与传播越来越简单方便，从而导致数字多媒体视频信息规模呈爆炸式增长。传统的视频处理方法已经无法满足人们对于海量视频内容进行快速浏览、检索和查询。为了有效地对大量视频资源进行处理，基于视频内容的智能化分析技术应运而生。基于内容的视频片段检索技术能够辅助人们完成视频检索、定位、挖掘等任务，从而更好地对视频数据进行有效管理和高效利用。基于内容的视频片段定位技术对网络视频检索、广告视频定位统计及视频关联分析等方面具有重要意义，是国内外众多学者研究的一个热点。

[0003] 目前基于视频内容相似性的检索及定位方法众多，根据不同的应用场景，具体解决算法也会存在较大差异。现有的基于内容的视频检索及定位算法，比如一种基于关联矩阵和动态滑动窗口的视频片段检索方法(Kang M,Huang X,Yang L.Video clip retrieval based on incidence matrix and dynamic-step sliding-window[C].2010International Conference on Computer Application and System Modeling(ICCASM 2010).IEEE,2010,Vol.2,pp.256-259.)，该方法首先对查询视频片段和库视频采用基于关联矩阵的最大正向匹配方法排除掉一些不相似视频，然后采用基于动态滑动窗的方法对剩余的视频进行分割，对每个窗口内的查询视频片段和库视频片段采用基于关联矩阵的最大正向匹配方法再次排除掉一些不相似视频，最后对剩余的视频片段进行组合形成一个新的视频序列，采用基于视觉因子、序列因子和干扰因子的算法计算视频间的相似性，根据相似性得到相似的查询视频。这种方法具有良好的性能，但是基于关联矩阵的最大正向匹配方法计算很复杂，基于视觉因子、序列因子和干扰因子算法也有一定的局限性，对于一些体育视频或运动程度激烈的视频效果并不好。(Chiu C Y,Tsai T H,Hsieh C Y.Efficient video segment matching for detecting temporal-based video copies[J].Neurocomputing,2013,105:70-80.)该文首先将查询视频通过一个滑动窗分割成重复的视频片段，将库视频中的目标视频通过相同的滑动窗分割成不重复的视频片段；然后采用基于序列的签名方法，对目标视频进行有效筛选；接着通过提取查询视频片段和留下的目标视频片段的SIFT特征来进行视频片段之间的相似性计算；最终根据相似性最终输出目标视频中所有匹配成功的查询视频片段。该方法在利用滑动窗分割成重复的视频片段时，对视频特征进行了大量的重叠计算，增加了大量不必要的计算量。

[0004] 在视频特征方面，如果检测到视频之间的内容变化轻微，多数算法采用简单的全局特征，反之则采用具有更好鲁棒性的局部特征。比如一种基于近重复的视频匹配方法(Belkhatir M,Tahayna B.Near-duplicate video detection featuring coupled temporal and perceptual visual structures and logical inference based matching[J].Information Processing&Management,2012,48(3):489-501.)和一种基于内容的重复视频片段检测方法(Min H,Choi J Y,De Neve W,et al.Near-duplicate video clip detection using model-free semantic concept detection and adaptive semantic distance measurement[J].IEEE Transactions on Circuits and Systems for Video Technology,2012,22(8):1174-1187.)分别在像素域提取视频的颜色、纹理特征和SIFT特征，通过计算不同视频特征之间的距离来进行视频的检索。上述方法均具有很好的鲁棒性，但是存在以下两点不足：1.视频特征比较单一，只能有限地对视频内容进行描述；2.都是在像素域提取表征视频的特征，运算量及存储空间需求都很大。

发明内容

[0005] 针对上述缺陷或不足，本发明的目的在于提出一种基于内容的视频片段检索及定位方法，该方法首先将多种特征进行联合，能够更加全面地描述视频内容；其次提出一种新的定位截止算法，实现了有效的截止和快速的定位，具有很高的准确性。

[0006] 本发明通过以下技术方案来实现：

[0007] 一种基于内容的视频片段检索及定位方法，技术方案为：

[0008] 首先对H.264压缩视频进行部分解码提取视频的运动信息和静态信息，并生成多种特征矢量；其次通过度量特征矢量之间的距离判断视频之间的相似性，从而实现相似内容的视频检索，选取候选视频；最后提出一种基于滑动窗的定位算法，基于窗口度量特征矢量之间的距离，并进一步采用特征筛选、定位截止算法对查询视频在候选视频中进行准确有效的定位。

[0009] 包括以下步骤：

[0010] 1)视频片段分割：

[0011] 分别对库视频和查询视频以4s为单位分割成相同长度的视频片段；

[0012] 2)提取视频特征信息：

[0013] 分别从库视频和查询视频片段的H.264压缩码流中提取视频的运动信息和静态信息；

[0014] 运动信息为提取P 帧中每个4×4子块的运动矢量(MV)：vi＝(dx,dy)，其中vi表示第i个子块的运动矢量，dx和dy分别表示当前块与参考帧中最佳匹配块之间的水平像素位移和垂直像素位移，因为H.264对P帧预测时存在不同的块尺寸，如16×16、16×8、8×16、8×8、8×4、4×8和4×4，因此从压缩码流中提取出运动矢量后将其空域归一化得到每个4×4子块的运动矢量。例如提取出某一16×8块的运动矢量后，则该块内部的所有4×4子块均具有相同大小的运动矢量；

[0015] 静态信息为提取I帧中每个4×4子块的预测模式及其对应的DCT系数，因为H.264对I帧预测时也存在不同的块尺寸，如16×16、8×8和4×4。例如当宏块采用16×16帧内预测时，则该宏块内的16个4×4子块均采用同一预测模式；当宏块采用4×4帧内预测时，则从压缩流中直接提取每个子块的预测模式；

[0016] 3)构造特征矢量：

[0017] 分别对库视频和查询视频片段中提取的运动信息和静态信息进行处理，构造出六种特征矢量，并存放在特征库中，其中基于运动信息构造出四种特征矢量：运动强度直方图、运动方向直方图、运动活动性直方图和场景变换直方图；基于静态信息构造出两种特征矢量：DC 能量直方图和预测模式直方图；

[0018] 4)度量库视频和查询视频片段特征矢量间的距离，根据视频之间的相似性选取候选视频：

[0019] 先分别计算库视频和查询视频片段每种特征矢量之间的距离，公式如下：

[0020]

[0021] 其中Qi为查询视频第i个片段的特征矢量，Dn,j为视频库中第n个视频的第j个片段的特征矢量，K表示特征矢量的维数，距离的值越接近0，表明两个特征的相似度越高；

[0022] 再对需比较的两个视频片段的六种特征矢量间的距离值求平均，得到D(Qi,Dn,j)，设置阈值θ，当D(Qi,Dn,j)≤θ，则认为是相似的视频片段，该片段所在的长视频Dn作为候选视频；

[0023] 5)对候选视频采用基于滑动窗的方法，分段度量特征矢量间的距离：

[0024] 以查询视频长度为窗口长度，调节滑动步长step，按照步骤3)中的方法提取查询视频和候选视频各窗口的特征矢量,利用步骤4)中的距离公式，对查询视频在候选视频上滑动进行分段匹配，计算得到查询视频和候选视频各窗口间的特征矢量距离值di,k，其中i对应六种不同的特征矢量，k表示候选视频第k个窗口；

[0025] 6)特征筛选：

[0026] 对于不同内容的视频，并非每一种特征矢量都能够对其进行有效表达，根据步骤5)中生成的距离值di,k，采用特征阈值法和投票权值法对特征矢量进行有效筛选；

[0027] A.特征阈值法：

[0028] 考察特征矢量距离在所有窗口间的波动情况，波动小的特征，区分度较低，不能有效地描述视频内容，将此特征滤除，计算每种特征矢量距离在所有窗口间的离差，公式如下：

[0029]

[0030] 其中i对应六种不同的特征矢量，K表示总的窗口数，是第i种特征矢量距离在所有窗口间的均值，

[0031] 设置阈值T1，滤除离差值小于T1的特征；

[0032] B.投票权值法：

[0033] 对特征阈值法筛选留下的特征矢量采用基于投票的思想对其进一步筛选：首先对于每种特征矢量距离值di,k，找出其最小距离值所在的窗口k；然后对各个特征的最小距离值所在窗口k进行投票，找出投票最多的窗口；对最小距离值落在最多窗口的特征予以保留，而其他特征予以剔除；最终计算得到查询视频与候选视频第k个窗口间的距离值dk，公式如下：

[0034]

[0035] 其中N表示特征阈值法筛选后剩余的特征矢量数，wi表示第i种特征矢量的权值，保留的特征其权值是1.0，剔除的特征其权值是0.0；

[0036] 7)定位截止算法：

[0037] 利用距离值dk与定位阈值Tmax和Tmin之间的关系，按照定位算法进行有效地截止，如需调节滑动步长，则重复步骤5)—7)，最终输出查询视频在候选视频中的对应片段，滑动步长step的初始值设为step＝int(窗口长度/2)×码率，int为取整函数；

[0038] 步骤3)中六种特征矢量具体生成过程如下：

[0039] 运动强度直方图：首先将一帧图像均分成9个区域，分别计算各个区域中所含MV的幅度均值I(k)：

[0040]

[0041] 其中k＝0,1,2…,8表示9个区域，N表示第k个区域内MV的总数；

[0042] 然后统计各区域I(k)占9个区域MV幅度均值总和的比例，生成第j帧图像中具有顺序的9维直方图：

[0043]

[0044] 最后对一段连续M帧的视频，生成运动强度直方图特征矢量Harea(k)：

[0045]

[0046] 运动方向直方图：首先计算一帧图像内各个运动矢量MV的方向角度θ：

[0047] θ＝arctan(dy/dx)-π≤θ≤π

[0048] 根据角度θ判断该MV所属方向区间，方向区间是将－π到π的范围12等分得到；

[0049] 然后分别统计每个MV的方向角度θ落在这12个方向区间上的比例，生成第j帧图像中12维的运动方向直方图：

[0050]

[0051] 其中l(k)是运动方向角度θ落在第k个方向区间上的MV总数；

[0052] 最后对一段连续M帧的视频，生成运动方向直方图特征矢量Hdir(k)：

[0053]

[0054] 运动活动性直方图：首先将一帧图像均分成9个区域，分别计算各个区域中所含MV的标准差var(k)：

[0055]

[0056] 其中k＝0,1,2…,8表示9个区域，N表示第k个区域内MV的总数，I(k)是该区域内MV的幅度均值；

[0057] 然后按照运动活动性量化标准表3，分别统计每个档次运动活动性的比重，对于第j帧图像，形成5维的运动活动性直方图Hvar,j(k)；

[0058] 最后对一段连续M帧的视频，生成运动活动性直方图特征矢量Hvar(k)：

[0059]

[0060] 场景变换直方图：首先分别统计每一帧中MV为(0,0)的4×4子块数目N0占所有4×4子块N的比例：因为零值MV个数的多少能够描述视频内容在时间上的变化情况，能够反映视频中场景变化的剧烈程度；

[0061] 然后对比值r进行压扩处理得到log_r：并将log_r量化到5个区间，分别统计各量化等级的比例，得到5维的场景变换直方图：

[0062]

[0063] 最后对一段连续M帧的视频，生成场景变换直方图特征矢量Hzero(k)：

[0064]

[0065] DC能量直方图：提取每一个子块的DC系数，将DC系数量化等级分成12个区间，分别统计每个量化区间中子块的个数生成DC能量直方图特征矢量HDC(k)：

[0066]

[0067] 其中k＝0,1,2…,11表示12个量化区间，h和w分别为图像在行和列方向的4×4子块个数，pij为第i行第j列4×4子块的DC能量值，fk(pij)为其对应的量化区间，当k＝0,1,2…,10时，如果(k-1)×256

[0068] 预测模式直方图：提取每一个子块的帧内预测模式，共有13种预测模式，分别统计13种模式的子块个数生成预测模式直方图特征矢量Hmode(k)：

[0069]

[0070] 其中k＝0,1,2…,12表示13种预测模式，h和w分别为图像在行和列方向的4×4子块个数，fij为第i行第j列4×4子块的预测模式，若fij属于第k种模式，则modek(fij)＝1，否则modek(fij)＝0；

[0071] 步骤7)中定位算法具体过程如下：

[0072] 第一步：如果存在距离值dk＝0，则输出dk所在的视频片段，定位结束；如果所有距离值dk都大于0.3，则说明不存在相似的查询视频，定位结束；

[0073] 第二步：如果最小距离值dmin≤0.3，考察此窗口相邻的左右两个窗口的距离值(其中小者为dmin1，大者为dmax1)，如果满足条件dmax1≥Tmax×dmin和dmin1≥Tmin×dmin，则输出dmin所在的视频片段，定位结束，否则执行第三步；其中Tmax＝-3.812×10-4×step2+0.1597×step+1.117

[0074] Tmin＝-5.873×10-5×step2+0.0868×step+0.819；

[0075] 第三步：选择dmin和dmin1所在的视频片段区间再次进行精确的定位，调节滑动步长step：如果step<50，则step＝int(step/5)，否则step＝int(step/2)，式中int代表取整数操作，调节步长后重新执行步骤5)—7)，如果并不能有效找出定位位置，最后输出dmin所在的视频片段即可。

[0076] 与现有技术比较，本发明的有益效果为：

[0077] 本发明提出了一种基于内容的视频片段检索及定位方法，首先对H.264压缩视频进行部分解码提取视频的运动信息和静态信息，并生成多种特征矢量；其次通过度量特征矢量之间的距离判断视频之间的相似性，从而实现相似内容的视频检索，选取候选视频；最后提出一种基于滑动窗的定位算法，基于窗口度量特征矢量之间的距离，并进一步采用特征筛选、定位截止算法对查询视频在候选视频中进行准确有效的定位。优势只要体现在：

[0078] (1)本发明基于压缩域中提取的特征信息，采用多种特征联合的方法，一方面解决基于像素域特征提取的计算量大，处理速度慢的问题，一方面由于联合多种特征，能够更加全面的描述视频内容，增加检索的准确性。

[0079] (2)为了解决现有的视频定位算法中定位准确率低的问题，本发明提出一种新的定位算法，充分利用视频内容之间的相关性，实现了有效的截止和快速的定位。该方法具有很高的准确性，提高了定位效率和速度。附图说明

[0080] 图1是本发明检索候选视频的流程图；

[0081] 图2是本发明视频定位检索流程图；

[0082] 图3是本发明中投票权值法进行特征筛选的流程图；

[0083] 图4是本发明视频定位截止算法的流程图。

具体实施方式

[0084] 下面结合附图对本发明方法的实施方式做详细说明。

[0085] 如图1所示，本发明提供了一种基于内容的视频片段检索方法，该方法首先将库视频和查询视频分割成长度相同的视频片段，提取视频片段H.264压缩码流中的特征信息，并对其进行处理生成六种特征矢量存放在视频库中。通过度量库视频和查询视频片段特征矢量之间的距离判断视频之间的相似性，从而实现相似内容的视频检索，选取候选视频。如图2所示，本发明提出一种基于滑动窗的定位算法，将选取的候选视频作为目标视频，以查询视频长度为窗口长度，重新提取滑动窗口内查询视频和目标视频的特征信息并生成特征矢量，基于窗口度量特征矢量之间的距离，并进一步采用特征筛选、定位截止算法对查询视频在候选视频中进行准确有效的定位。

[0086] 一种基于内容的视频片段检索及定位方法，其具体实现过程如下：

[0087] 步骤一、视频片段分割：

[0088] 分别对库视频与查询视频以4s为单位分割成长度相同的视频片段，不够4s的视频片段采取向前重复补够时间长度；

[0089] 步骤二、提取视频特征信息：

[0090] 分别从库视频和查询视频片段的H.264压缩码流中提取视频的运动信息和静态信息；

[0091] 提取运动信息：运动信息为提取P帧中每个4×4子块的运动矢量(MV)：vi＝(dx,dy)，其中vi表示第i个子块的运动矢量，dx和dy分别表示当前块与参考帧中最佳匹配块之间的水平像素位移和垂直像素位移，因为H.264对P帧预测时存在不同的块尺寸，如16×16、16×8、8×16、8×8、8×4、4×8和4×4，因此从压缩码流中提取出运动矢量后将其空域归一化得到每个4×4子块的运动矢量。例如提取出某一16×8块的运动矢量后，则该块内部的所有4×4子块均具有相同大小的运动矢量，对于CIF格式的视频，每一帧得到的运动矢量矩阵大小为88×72；

[0092] 提取静态信息：静态信息为提取I帧中每个4×4子块的预测模式及其对应的DCT系数。其中预测模式能够反映图像的边缘模式特征，因为H.264对I帧预测时存在不同的块尺寸，如16×16、8×8和4×4。如果宏块采用16×16帧内预测，则该宏块内的16个4×4子块均采用同一预测模式，如果宏块采用4×4帧内预测，则从压缩流中可以直接提取每个子块的预测模式。对于CIF格式的视频，每帧包含88×72个4×4分块；

[0093] DCT系数在一定程度上可以反映视频图像的纹理信息，二维DCT变换的定义如下：

[0094]

[0095] 其中u,v＝0,1,2…,N-1，当u＝0时，其他情况下a(u)＝1，C(u,v)是DCT变换后(u,v)位置的DCT系数；

[0096] 步骤三、构造特征矢量：

[0097] 分别对从库视频和查询视频片段中提取的运动信息和静态信息进行处理，构造出六种特征矢量，并存放在特征库中，其中基于运动信息构造出四种特征矢量，分别是运动强度直方图、运动方向直方图、运动活动性直方图和场景变换直方图，具体的生成过程如下：

[0098] 运动强度直方图：首先将一帧图像均分成9个区域，分别计算各个区域中所含MV的幅度均值I(k)：

[0099]

[0100] 其中k＝0,1,2…,8表示9个区域，N表示第k个区域内MV的总数。

[0101] 然后统计各区域I(k)占9个区域MV幅度均值总和的比例，生成第j帧图像中具有顺序的9维直方图：

[0102]

[0103] 最后对一段连续M帧的视频，生成运动强度直方图特征矢量Harea(k)：

[0104]

[0105] 运动方向直方图：首先计算一帧图像内各个运动矢量MV的方向角度θ：

[0106] θ＝arctan(dy/dx)-π≤θ≤π

[0107] 根据角度θ判断该MV所属方向区间，方向区间是将－π到π的范围12等分得到。

[0108] 然后分别统计每个MV的方向角度θ落在这12个方向区间上的比例，生成第j帧图像中12维的运动方向直方图：

[0109]

[0110] 其中l(k)是运动方向角度θ落在第k个方向区间上的MV总数；

[0111] 最后对一段连续M帧的视频，生成运动方向直方图特征矢量Hdir(k)：

[0112]

[0113] 运动活动性直方图：首先将一帧图像均分成9个区域，分别计算各个区域中所含MV的标准差var(k)：

[0114]

[0115] 其中k＝0,1,2…,8表示9个区域，N表示第k个区域内MV的总数，I(k)是该区域内MV的幅度均值；

[0116] 然后按照运动活动性量化标准表3，分别统计每个档次运动活动性的比重，对于第j帧图像，形成5维的运动活动性直方图Hvar,j(k)；

[0117] 最后对一段连续M帧的视频，生成运动活动性直方图特征矢量Hvar(k)：

[0118]

[0119] 场景变换直方图：首先分别统计每一帧中MV为(0,0)的4×4子块数目N0占所有4×4子块N的比值：因为零值MV个数的多少能够描述视频内容在时间上的变化情况，因此能够反映视频中场景变化的剧烈程度；

[0120] 然后对比值r进行压扩处理得到log_r：并将log_r量化到5个区间，分别统计各量化等级的比例，得到5维的场景变换直方图：

[0121]

[0122] 最后对一段连续M帧的视频，生成场景变换直方图特征矢量Hzero(k)：

[0123]

[0124] 基于静态信息构造出两种特征矢量，分别是DC能量直方图和预测模式直方图，具体生成过程如下：

[0125] DC能量直方图：提取每一个子块的DC系数，将DC系数量化等级分成12个区间，分别统计每个量化区间中子块的个数生成DC能量直方图特征矢量HDC(k)：

[0126]

[0127] 其中k＝0,1,2…,11表示12个量化区间，h和w分别为图像在行和列方向的4×4子块个数，pij为第i行第j列4×4子块的DC能量值，fk(pij)为其对应的量化区间，当k＝0,1,2…,10时，如果(k-1)×256

[0128] 预测模式直方图：提取每一个子块的帧内预测模式，共有13种预测模式，分别统计13种模式的子块个数生成预测模式直方图特征矢量Hmode(k)：

[0129]

[0130] 其中k＝0,1,2…,12表示13种预测模式，h和w分别为图像在行和列方向的4×4子块个数，fij为第i行第j列4×4子块的预测模式，若fij属于第k种模式，则modek(fij)＝1，否则modek(fij)＝0；

[0131] 步骤四、度量特征矢量之间的距离，根据视频间的相似性选取候选视频：

[0132] 根据步骤三中生成的表征视频片段内容的六种特征矢量，分别计算每种特征矢量之间的距离值，公式如下：

[0133]

[0134] 其中Qi为查询视频第i个片段的特征矢量，Dn,j为视频库中第n个视频的第j个片段的特征矢量，K表示特征矢量的维数。距离的值越接近0，表明两个特征的相似度越高；

[0135] 对需比较的两个视频片段的六种特征矢量间的距离值求平均，得到D(Qi,Dn,j)。设置阈值θ，当D(Qi,Dn,j)≤θ，则认为是相似的视频片段，选取相似视频片段Dn,j所在的长视频Dn作为候选视频，通过统计得到θ＝0.3562；

[0136] 步骤五、采用基于滑动窗的方法，分段度量特征矢量间的距离：

[0137] 将选取的候选视频作为目标视频，以查询视频长度为窗口长度，按照步骤3)中的方法重新提取滑动窗口内查询视频和目标视频的特征信息并生成相应的特征矢量，滑动步长step的初始值设为step＝int(窗口长度/2)×码率，int为取整函数，对查询视频在候选视频上滑动进行分段匹配，利用步骤4)中的距离公式计算每个窗口间的特征矢量之间距离值di,k，其中i对应六种不同的特征矢量，k表示候选视频第k个窗口，例如查询视频长度为4s，目标视频为12s，视频帧率为25fps，那么窗口长度即为100帧，滑动步长初始值为50，则可以将目标视频划分得到5个窗口，通过计算可以得到距离值矩阵大小为6×5，其中6代表6种特征矢量，5为不同的滑动窗口数；

[0138] 步骤六、特征筛选：

[0139] 对于不同内容的视频，并非每一种特征矢量都能够对其进行有效表达，根据步骤5)中生成的距离值di,k，采用特征阈值法和投票权值法对特征矢量进行有效筛选；

[0140] A.特征阈值法：

[0141] 考察特征矢量距离在所有窗口间的波动情况，波动小的特征，区分度较低，不能有效地描述视频内容，将此特征滤除。计算每种特征矢量距离在所有窗口间的离差，公式如下：

[0142]

[0143] 其中i对应六种不同的特征矢量，K表示总的窗口数，是每种特征矢量距离值的均值， T1＝0.12；

[0144] B.投票权值法：

[0145] 对特征阈值法筛选留下的特征矢量采用基于投票的思想对其进一步筛选，如图3所示，首先对于每种特征矢量距离值di,k，找出其最小距离值所在的窗口k；然后对各个特征的最小距离值所在窗口k进行投票，找出投票最多的窗口；对最小距离值落在最多窗口的特征予以保留，而其他特征予以剔除；最终计算得到查询视频与候选视频第k个窗口间的距离值dk，公式如下：

[0146]

[0147] 其中N表示特征阈值法筛选后剩余的特征矢量数，wi表示第i种特征矢量的权值，保留的特征其权值是1.0，剔除的特征其权值是0.0；

[0148] 步骤七、定位截止算法：

[0149] 通过上面的特征筛选，最终计算得到了关于k个窗口的k个距离值，这里根据步骤五中的实例，最终得到5个距离值，接下来利用定位截止算法进行具体的定位，如图4所示，根据距离值dk与定位阈值Tmax和Tmin之间的关系，按照定位算法进行有效地截止，最终输出查询视频在候选视频中的对应片段，定位算法具体步骤如下：

[0150] 第一步：如果存在距离值dk＝0，则输出dk所在的视频片段，定位结束；如果所有距离值dk都大于0.3，则说明不存在相似的查询视频，定位结束；

[0151] 第二步：如果最小距离值dmin≤0.3，考察此窗口相邻的左右两个窗口的距离值(其中小者为dmin1，大者为dmax1)。如果满足条件dmax1≥Tmax×dmin和dmin1≥Tmin×dmin，则输出dmin所在的视频片段，定位结束，否则执行第三步；其中Tmax＝-3.812×10-4×step2+0.1597×step+1.117

[0152] Tmin＝-5.873×10-5×step2+0.0868×step+0.819；

[0153] 第三步：选择dmin和dmin1所在的视频片段区间再次进行精确的定位，调节滑动步长step：如果step<50，则step＝int(step/5)，否则step＝int(step/2)，式中int代表取整数操作，调节步长后重新执行步骤五—七：首先根据步骤五中的方法重新提取新窗口中目标视频的特征信息，并利用步骤六中的方法生成最终的距离值，用步骤七的定位截止算法重新进行判断，如果并不能有效找出定位位置，最后输出dmin所在的视频片段即可。

[0154] 如表1所示，利用本发明中定位截止算法在视频库中对不同长度和内容的视频片段进行定位的结果示例。定位精度值越接近100％，定位准确度越高，说明了定位算法的准确性。

[0155] 表1利用本发明在数据集中定位成功的计算结果

[0156]

[0157]

[0158] 如表2所示，与现有的基于滑动窗的视频片段检索方法(Kang M,Huang X,Yang L.Video clip retrieval based on incidence matrix and dynamic-step sliding-window[C].2010International Conference on Computer Application and System Modeling(ICCASM 2010).IEEE,2010,Vol.2,pp:256-259.)相比，本发明在保证视频匹配过程时间变化不大的基础上，提高了视频定位的精度和检索的准确性。

[0159] 表2本发明与现有的视频定位方法的对比结果

[0160]

[0161] 如表3所示，为步骤3)中运动活动性量化标准表。

[0162] 表3运动活动性量化标准表

[0163]

标题	发布/更新时间	阅读量
一种基于块编码特性的3D视频错误隐藏方法	2020-05-08	451
用于图像处理的方法和装置	2020-05-11	718
一种视频解码中运动补偿的方法及装置	2020-05-08	251
商品的弹体轨道式出货机构	2020-05-08	450
一种基于融合神经网络的视频中人体行为识别方法	2020-05-08	645
速度矢量测量光纤传感器及测量方法	2020-05-08	329
细化运动矢量的利用	2020-05-08	196
一种基于CPU的8K超高清视频高速解码方法	2020-05-08	266
适应于全向视频的运动矢量预测量的方法和装置	2020-05-08	991
双向光流中的梯度计算	2020-05-08	492

一种基于内容的视频片段检索及定位方法

一种基于内容的视频片段检索及定位方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：