一种提取视频摘要的方法及装置专利检索-摘要国际申请第I章专利合作条约专利权专利检索查询-专利查询网

一种提取视频 摘要的方法及装置

阅读：1040发布：2020-05-30

专利汇可以提供一种提取视频摘要的方法及装置专利检索，专利查询，专利分析的服务。并且本发明公开了一种提取视频摘要的方法及装置，属于视频分析领域。所述方法包括：获取视频镜头和关键帧；将具有相似视频特征的关键帧聚为一类，并将聚为一类的关键帧命名为一个聚类；从每个聚类中选取平均距离最小的关键帧作为保留关键帧，将保留关键帧对应的视频镜头拼接成粗糙的视频摘要；在粗糙的视频摘要中生成视频片段并计算所述视频片段的相似度，检测出视频片段的相似度超过第三阈值的视频片段，在粗糙的视频摘要中去除检测到的视频片段，将保留下来的其他部分拼接成视频摘要。所述装置包括：分割模块，分段模块，拼接模块，去除模块。本发明提取的视频摘要更加简洁并带来较好的用户体验。，下面是一种提取视频摘要的方法及装置专利的具体信息内容。

权利要求

1.一种提取视频摘要的方法，其特征在于，所述方法包括：
对原视频分割，获取原视频的视频镜头和关键帧；
将具有相似视频特征的关键帧聚为一类，并将所述聚为一类的关键帧命名为一个聚类；
从所述每个聚类中选取平均距离最小的关键帧作为保留关键帧，将所述保留关键帧对应的视频镜头拼接成粗糙的视频摘要；
在所述粗糙的视频摘要中生成视频片段并计算所述视频片段的相似度，检测出视频片段的相似度超过第三阈值的视频片段，在所述粗糙视频摘要中去除所述检测到的视频片段，将所述粗糙的视频摘要保留下来的其他部分拼接成视频摘要。
2.根据权利要求1所述一种摘取视频摘要的方法，其特征在于，所述将具有相似视频特征的关键帧聚为一类，具体包括：
计算任意两个所述关键帧之间的距离；
将彼此距离小于或等于第一阈值的关键帧聚为一类。
3.根据权利要求1所述一种提取视频摘要的方法，其特征在于，所述从所述每个聚类中选取平均距离最小的关键帧作为保留关键帧，将所述保留关键帧对应的视频镜头拼接成粗糙的视频摘要，具体包括：
计算所述聚类的一个关键帧与所述聚类其他关键帧之间的距离的平均值，所述平均值为所关键帧的平均距离，对所述聚类的每个关键帧按上述方法计算出各自的平均距离，选取平均距离最小的关键帧作为保留关键帧；
将所述选取的保留关键帧对应的视频镜头按时间顺序拼接，获得所述粗糙的视频摘要。
4.根据权利要求1所述一种提取视频摘要的方法，其特征在于，所述在粗糙的视频摘要中生成视频片段并计算所述视频片段的相似度，具体包括：
计算所述粗糙的视频摘要的任意两帧图片之间的距离，若所述距离小于第二阈值，从所述两帧图片中选取时间在后的一帧图片，读取在所述图片之前的相邻的一帧图片的相似度，将所述读取的相似度增加预设的增量得到所述图片的相似度，在所述粗糙的视频摘要中将相似度非零且连续增加的图片组成视频片段，并以所述视频片段包括的最大的图片的相似度作为所述视频片段的相似度。
5.一种提取视频摘要的装置，其特征在于，所述装置包括：
获得模块，用于对原始视频分割，获得原视频的视频镜头和关键帧；
聚类模块，用于将具有相似视频特征的关键帧聚为一类，并将聚为一类的关键帧命名为一个聚类；
拼接模块，用于从每个聚类中选取平均距离最小的关键帧作为保留关键帧，将所述保留关键帧对应的镜头拼接成粗糙的视频摘要；
去除模块，用于在所述粗糙的视频摘要中生成视频片段并计算所述视频片段的相似度，检测出视频片段的相似度超过第三阈值的视频片段，在所述粗糙视频摘要中去除检测到的视频片段，将粗糙视频摘要保留下来的其他部分拼接成视频摘要。
6.根据权利要求5所述一种摘取视频摘要的装置，其特征在于，所述聚类模块具体包括：
计算单元，用于计算任意两个所述关键帧之间的距离；
聚类单元，用于将彼此距离小于或等于第一阈值的关键帧聚为一类。
7.根据权利要求5所述一种提取视频摘要的装置，其特征在于，所述拼接模块具体包括：
选取单元，用于从计算所述聚类的一个关键帧与所述聚类的其他关键帧之间的距离的平均值，所述平均值为所关键帧的平均距离，对所述聚类的每个关键帧按上述方法计算出各自的平均距离，选取平均距离最小的关键帧作为保留关键帧；
拼接单元，用于将所述保留关键帧对应的视频镜头按时间顺序拼接，获得粗糙的视频摘要。
8.根据权利要求5所述一种提取视频摘要的装置，其特征在于，所述去除模块具体包括：
生成单元，用于计算所述粗糙的视频摘要的任意两帧图片之间的距离，若所述距离小于第二阈值，从所述两帧图片中选取时间在后的一帧图片，读取在所述图片之前的相邻的一帧图片的相似度，将所述读取的相似度增加预设的增量得到所述图片的相似度，在所述粗糙的视频摘要中将相似度非零且连续增加的图片组成视频片段，并以所述视频片段包括的最大的图片的相似度作为所述视频片段的相似度；
检测单元，用于从生成单元生成的各视频片段中，检测出所述视频片段的相似度超过第三阈值的视频片段；
去除单元，用于在所述粗糙的视频摘要中去除所述检测到的视频片段，将所述粗糙视频摘要保留下来的其他部分拼接成视频摘要。

说明书全文

技术领域

本发明涉及视频分析领域，特别涉及一种提取视频摘要的方法及装置。

背景技术

随着计算机网络及多媒体技术的快速发展，多媒体数据的应用日益广泛。由于存储代价的不断降低以及数据压缩技术的进步，多媒体数据出现了爆炸性的增长。海量的视频数据增加了用户检索和浏览视频的难度。视频摘要技术能让用户更有效的浏览视频的内容，近年来得到了广泛的关注。
作为基于内容的视频分析的一种主要应用，近年来有大量的研究集中在视频摘要提取算法上。国内也有较多基于内容的视频摘要方面的成果。其中，视频预览是视频摘要的一种基本形式。最简单的生成视频预览的方法是应用采样，也就是从原始视频中采用快放的方式来提高整个视频内容的帧速率，从而形成动态的视频浏览。这种方法生成速度很快，但是由于整个视频的速度相比原始视频变得过快，使得并不能提供很好的视觉效果。于是保持原始的帧速率，选择重要的或者相关的视频片段来形成动态视频浏览便成为了相对更好的方式。该方式主要根据关键帧的内容分析，将关键帧进行周围视频片段的扩展，并将他们链接起来，从而形成一种较简单的视频浏览算法。
在实现本发明的过程中，发明人发现现有技术至少存在以下问题：
在动态视频摘要部分，已有的算法主要关注在关键帧层次的相似度分析。由于这种算法在很大程度上依靠于关键帧的选取情况。当两个相似的镜头时长较长，并且其中包含较大的镜头运动信息时，所提取出的关键帧并不能保证足够相似，然而这些关键帧所代表的视频序列却很可能是非常相似的。因此，仅仅从视频关键帧层次做冗余分析，并不能在最大的程度上去除视频的相似成分。

发明内容

为了使提取的视频摘要更加简洁，本发明实施例提供了一种提取视频摘要的方法及装置。所述技术方案如下：
一种提取视频摘要的方法，所述方法包括：
对原视频分割，获取原视频的视频镜头和关键帧；
将具有相似视频特征的关键帧聚为一类，并将所述聚为一类的关键帧命名为一个聚类；
从所述每个聚类中选取平均距离最小的关键帧作为保留关键帧，将所述保留关键帧对应的视频镜头拼接成粗糙的视频摘要；
在所述粗糙的视频摘要中生成视频片段并计算所述视频片段的相似度，检测出视频片段的相似度超过第三阈值的视频片段，在所述粗糙视频摘要中去除所述检测到的视频片段，将所述粗糙视频摘要保留下来的其他部分拼接成视频摘要。
所述将具有相似视频特征的关键帧聚为一类，具体包括：
计算任意两个所述关键帧之间的距离；
将彼此距离小于或等于第一阈值的关键帧聚为一类。
所述从所述每个聚类中选取平均距离最小的关键帧作为保留关键帧，将所述保留关键帧对应的视频镜头拼接成粗糙的视频摘要，具体包括：
计算所述聚类的一个关键帧与所述聚类其他关键帧之间的距离的平均值，所述平均值为所关键帧的平均距离，对所述聚类的每个关键帧按上述方法计算出各自的平均距离，选取平均距离最小的关键帧作为保留关键帧；
将所述选取的保留关键帧对应的视频镜头按时间顺序拼接，获得所述粗糙的视频摘要。
所述在粗糙的视频摘要中生成视频片段并计算所述视频片段的相似度，具体包括：
计算所述粗糙的视频摘要的任意两帧图片之间的距离，若所述距离小于第二阈值，从所述两帧图片中选取时间在后的一帧图片，读取在所述图片之前的相邻的一帧图片的相似度，将所述读取的相似度增加预设的增量得到所述图片的相似度，在所述粗糙的视频摘要中将相似度非零且连续增加的图片组成视频片段，并以所述视频片段包括的最大的图片的相似度作为所述视频片段的相似度
一种提取视频摘要的装置，所述装置包括：
获得模块，用于对原始视频分割，获得原视频的视频镜头和关键帧；
聚类模块，用于将具有相似视频特征的关键帧聚为一类，并将聚为一类的关键帧命名为一个聚类；
拼接模块，用于从每个聚类中选取平均距离最小的关键帧作为保留关键帧，将所述保留关键帧对应的镜头拼接成粗糙的视频摘要；
去除模块，用于在所述粗糙的视频摘要生成视频片段并计算所述视频片段的相似度，检测出视频片段的相似度超过第三阈值的视频片段，在所述粗糙视频摘要中去除检测到的视频片段，将粗糙视频摘要保留下来的其他部分拼接成视频摘要。
所述聚类模块具体包括：
计算单元，用于计算任意两个所述关键帧之间的距离；
聚类单元，用于将彼此距离小于或等于第一阈值的关键帧聚为一类。
所述拼接模块具体包括：
选取单元，用于从计算所述聚类的一个关键帧与所述聚类的其他关键帧之间的距离的平均值，所述平均值为所关键帧的平均距离，对所述聚类的每个关键帧按上述方法计算出各自的平均距离，选取平均距离最小的关键帧作为保留关键帧；
拼接单元，用于将所述保留关键帧对应的视频镜头按时间顺序拼接，获得粗糙的视频摘要。
所述去除模块具体包括：
生成单元，用于计算所述粗糙的视频摘要的任意两帧图片之间的距离，若所述距离小于第二阈值，从所述两帧图片中选取时间在后的一帧图片，读取在所述图片之前的相邻的一帧图片的相似度，将所述读取的相似度增加预设的增量得到所述图片的相似度，在所述粗糙的视频摘要中将相似度非零且连续增加的图片组成视频片段，并以所述视频片段包括的最大的图片的相似度作为所述视频片段的相似度；
检测单元，用于根据从生成单元生成的各视频片段中，检测出所述相似度超过第三阈值的视频片段；
去除单元，用于选取所述检测到的第一个视频片段，在所述粗糙的视频摘要中去除所述检测到的其他视频片段，将所述粗糙视频摘要保留下来的其他部分拼接成视频摘要。
本发明实施例提供的技术方案的有益效果是：
通过获得原视频的视频镜头和原视频的关键帧，对原视频的关键帧进行聚类，从每个聚类中选取保留关键帧，将保留关键帧对应的视频镜头拼接成粗糙的视频摘要，在从粗糙的视频摘要中检测出视频相似度超过第三阈值的视频片段，在粗糙的视频摘要中去除检测到的视频片段，将粗糙的视频摘要保留的其他部分拼接成完整的视频摘要，从而更有效的去除了视频摘要中相似的内容，得到的视频摘要更加简洁并带来较好的用户体验。
附图说明
图1是本发明实施例提供一种提取视频摘要的方法流程图；
图2是本发明实施例提供一种提取视频摘要的方法详细流程图；
图3是本发明实施例提供一种提取视频摘要的装置图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。
实施例1
如图1所示，本发明实施例提供了一种提取视频摘要的方法，包括：
步骤101：对原视频分割，获得原视频的视频镜头和原视频的关键帧；
步骤102：将具有相似视频特征的关键帧聚为一类，并将聚为一类的关键帧命名为一个聚类；
本实施例中每个聚类的关键帧都描述相似的视频内容，这样整个视频的内容由若干个聚类的结果来表示。
步骤103：从每个聚类中选取平均距离最小的关键帧作为保留关键帧，将保留关键帧对应的视频镜头拼接成粗糙的视频摘要；
步骤104：在粗糙的视摘要中生成视频片段并计算视频片段的相似度，检测出视频片段的相似度超过第三阈值的视频片段，在粗糙的视频摘要中去除检测到的视频片段，将粗糙视频摘要保留下来的其他部分拼接成视频摘要。
在本实施例中视频从整体结构可以分为整个视频、视频场景、视频镜头和视频的关键帧四个层次。每个视频镜头都是摄像机不间断拍摄得到的连续的视频序列，也就是在摄像机一次开机和关机的过程中所得到的视频序列。关键帧是对视频镜头的代表性的描述，用一个或多个关键帧来代表整个视频镜头的内容。
本实施例中获得原视频的视频镜头和关键帧，对原视频的关键帧进行聚类，从每个聚类中选取保留关键帧，将保留关键帧对应的视频镜头拼接成粗糙的视频摘要，在从粗糙的视频摘要中检测出视频的相似度超过第三阈值的视频片段，在粗糙的视频摘要中去除检测到的视频片段，将粗糙的视频摘要的其他部分拼接成完整的视频摘要，从而更有效的去除了视频摘要中相似的内容，得到的视频摘要更加简洁并带来较好的用户体验。
实施例2
如图2所示，一种提取视频摘要的方法，具体包括：
步骤201：对原视频进行分割，获得原视频的场景和视频镜头，同时生成原视频的关键帧；
其中，视频从整体结构可以分为整个视频、场景、视频镜头和视频的关键帧四个层次。每个视频镜头都是摄像机不间断拍摄得到的连续的视频序列，也就是在摄像机一次开机和关机的过程中所得到的视频序列。关键帧是对视频镜头的代表性的描述，用一个或多个关键帧来代表整个视频镜头的内容。
步骤202：计算任意两个的关键帧之间的距离，将计算得到的距离存储在距离矩阵中；
例如有一段关键帧A、B、C、D、E，计算出A与B之间的距离为0.1、A 与C之间的距离为0.13、A与D之间的距离为0.13、A与E之间的距离为0.16、 B与C之间的距离为0.16，B与D之间的距离为0.12、B与E之间的距离为0.17、 C与D之间的距离为0.14、C与E之间的距离为0.15、D与E之间的距离为0.12。再将计算的距离保存在距离矩阵中，得到的距离矩阵为{{0，0.1，0.13，0.13， 0.16}，{0.1，0，0.16，0.12，0.17}，{0.13，0.16，0，0.14，0.15}，{0.13，0.12， 0.14，0，0.12}，{0.16，0.17，0.15，0.12，0}}。
本实施例中关键帧之间的距离采用色彩直方图距离，若两个关键帧之间的距离不超过设置的第一阈值，则这两个关键帧的视频特征相似。
步骤203：从距离矩阵中读取关键帧之间的距离，将彼此距离小于或等于第一阈值的关键帧聚为一类；将聚为一类的关键帧命名为一个聚类，如此，将视频的关键帧聚成若干个聚类，每个聚类中任意两个关键帧之间的距离不超过第一阈值；
例如一段关键帧A、B、C、D、E，从保存的距离矩阵中分别读取彼此两关键帧之间的距离，将彼此之间的距离不超过第一阈值0.15的关键帧聚为一类，如此，分成A、B、D和C、E两个聚类。
其中，由于每个聚类中包括的任意两个关键帧之间的距离不超过第一阈值，使得每个聚类包括的所有关键帧都具有相似的视频特征；如此，每个聚类包括的关键帧都描述相似的视频内容，这样整个视频的内容由若干个聚类的结果来表示。
在本实施例中可以采用层次聚类的方法对视频的关键帧进行分段，该方法的原理是每次都将最近两个关键帧划为一类，反复迭代，直到该类内的关键帧之间的最大距离超过第一阈值为止。
步骤204：从每个聚类中选取平均距离最小的关键帧作为保留关键帧；
具体地，从距离矩阵中读取聚类的一个关键帧与聚类其他关键帧之间的距离，再对读取的距离计算出平均值，计算出的平均值为该关键帧的平均距离，对聚类的每个关键帧按上述方法计算出平均距离，选取平均距离最小的关键帧作为保留关键帧。
其中，对每个聚类的关键帧按上述方法进行计算，再选取出各自对应的保留关键帧。
步骤205：将选取的保留关键帧对应的视频镜头按时间顺序拼接，获得粗糙的视频摘要；
步骤206：计算粗糙的视频摘要的任意两帧图片之间的距离，将计算得到的距离存储在粗糙的视频摘要的距离矩阵中；
其中，两帧图片之间的距离采用色彩直方图距离，若两帧图片之间的距离小于设置的第二阈值，则这两帧图片的内容相似，另外，拼接的粗糙的视频摘要包括的每帧图片的相似度起初为零。
步骤207：计算出粗糙视频摘要的每个视频片段的相似度，检测所有视频片段的相似度超过设置的第三阈值的视频片段；
具体地，从粗糙的视频摘要的距离矩阵中读取任意两帧图片之间的距离，若读取的距离小于第二阈值，从该两帧图片中选取时间在后的一帧图片，读取在选取的图片之前的相邻的图片的相似度，将读取的相似度增加预设的增量得到该选取的一帧图片的相似度，在粗糙的视频摘要中将相似度非零且连续增加的图片组成视频片段，并以视频片段包括的最大的图片的相似度作为该视频片段的相似度，然后，检测出视频片段的相似度超过第三阈值的视频片段。
例如一段连续的图片A0、B0、C0、E、F、A1、B1、C1，起初每帧图片的相似度都为零。读取A0、A1之间的距离小于第二阈值，则将F的相似度增加预设的增量2得到A1的相似度2，读取B0、B1之间的距离小于第二阈值，则将A1 的相似度增加增量2得到B1的相似度4，读取C0、C1之间的距离小于第二阈值，则将B1的相似度的增加增量2得到C1的相似度6，将相似度非零且连续增加的图片组成视频片段A1、B1、C1并以最大的相似度6作为视频片段A1、B1、C1 的相似度，检测出视频片段的相似度超过第三阈值5的视频片段A1、B1、C1。
其中，本实施例相似度超过第三阈值的所有视频片段的内容相似。
步骤208：在粗糙的视频摘要中去除检测到的视频片段，将粗糙视频摘要保留下来的其他部分拼接成完整的视频摘要。
本实施例中将原视频进行分割得到原视频的视频镜头和原视频的关键帧，对原视频的关键帧进行聚类，再从每个聚类中选取保留关键帧，将保留关键帧对应的视频镜头按时间顺序拼接成粗糙的视频摘要，在从粗糙的视频摘要中检测出视频的相似度超过第三阈值的视频片段，从粗糙的视频摘要中去除检测到的视频片段，将粗糙的视频摘要的其他部分拼接成完整的视频摘要，从而更有效的去除了视频摘要中相似的内容，得到的视频摘要更加简洁并带来较好的用户体验。
实施例3
如图3所示，本发明实施例提供了一种提取视频摘要的装置，包括：
获得模块301，用于对原视频分割，获得原视频的视频镜头和原视频的关键帧；
聚类模块302，用于将具有相似视频特征的关键帧聚为一类，并将聚为一类的关键帧命名为一个聚类；
拼接模块303，用于从每个聚类中选取平均距离最小和关键帧作为保留关键帧，将保留关键帧对应的视频镜头拼接成粗糙的视频摘要；
去除模块304，用于在粗糙的视频摘要中生成视频片段并计算视频片段的相似度，检测出视频片段的相似度超过第三阈值的视频片段，在粗糙的视频摘要中去除检测到的视频片段，将粗糙的视频摘要保留下来的其他部分拼接成视频摘要。
其中，聚类模块302具体包括：
计算单元，用于计算任意两个的关键帧之间的距离；
聚类单元，用于将彼此距离小于或等于第一阈值的关键帧聚为一类，并将聚为一类的关键帧命名为一个聚类；
拼接模块303具体包括：
选取单元，用于计算聚类的一个关键帧与聚类其他关键帧之间的距离的平均值，计算出的平均值为该关键帧的平均距离，对聚类的每个关键帧按上述方法计算出平均距离，选取平均距离最小的关键帧作为保留关键帧；
拼接单元，用于将保留关键帧对应的镜头按时间顺序拼接，获得粗糙的视频摘要；
去除模块304具体包括：
组成单元，用于计算粗糙的视频摘要的任意两帧图片之间的距离，若计算的距离小于第二阈值，从该两帧图片中选取时间在后的一帧图片，读取在选取的一帧图片之前的相邻的一帧图片的相似度，将读取的相似度增加预设的增量得到选取的一帧图片的相似度，在粗糙的视频摘要中将相似度非零且连续增加的图片组成视频片段，并以该视频片段包括的最大的图片的相似度作为该视频片段的相似度；
检测单元，用于从组成单元组成的各视频片段中，检测出视频的相似度超过第三阈值的视频片段；
去除单元，用于在粗糙的视频摘要中去除检测出的视频片段，将粗糙视频摘要保留下来的其他部分拼接成视频摘要。
本实施例中分割模块对原视频进行分割，获得原视频的视频镜头，同时生成原视频的关键帧，聚类模块将具有相似视频特征的关键帧聚为一类，拼接模块从每个聚类中选取一个保留关键帧，将保留关键帧对应的视频镜头拼接成粗糙的视频摘要，去除模块检测到视频的相似度超过第三阈值的视频片段，从粗糙的视频摘要中去除检测到的视频片段，将粗糙的视频摘要的其他部分拼接成视频摘要，从而更有效的去除了视频摘要中相似的内容，得到的视频摘要更加简洁并带来较好的用户体验。
以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现，其软件程序存储在可读取的存储介质中，存储介质例如：计算机中的硬盘、光盘或软盘。
以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

标题	发布/更新时间	阅读量
摘要生成方法及装置	2020-05-11	445
视频摘要提取	2020-05-11	508
摘要提取方法以及摘要提取模块	2020-05-11	664
视频摘要提取	2020-05-11	117
一种自动文本摘要方法	2020-05-13	7
监控视频摘要的方法	2020-05-13	756
会议摘要	2020-05-11	384
视频摘要的用户界面	2020-05-12	409
摘要生成方法及装置	2020-05-11	545
内容摘要验证接口方法	2020-05-12	559

一种提取视频摘要的方法及装置

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：