为了使提取的视频摘要更加简洁,本发明
实施例提供了一种提取视频摘要 的方法及装置。所述技术方案如下:
一种提取视频摘要的方法,所述方法包括:
对原视频分割,获取原视频的视频镜头和关键帧;
将具有相似视频特征的关键帧聚为一类,并将所述聚为一类的关键帧命名 为一个聚类;
从所述每个聚类中选取平均距离最小的关键帧作为保留关键帧,将所述保 留关键帧对应的视频镜头拼接成粗糙的视频摘要;
在所述粗糙的视频摘要中生成视频片段并计算所述视频片段的相似度,检 测出视频片段的相似度超过第三
阈值的视频片段,在所述粗糙视频摘要中去除 所述检测到的视频片段,将所述粗糙视频摘要保留下来的其他部分拼接成视频 摘要。
所述将具有相似视频特征的关键帧聚为一类,具体包括:
计算任意两个所述关键帧之间的距离;
将彼此距离小于或等于第一阈值的关键帧聚为一类。
所述从所述每个聚类中选取平均距离最小的关键帧作为保留关键帧,将所 述保留关键帧对应的视频镜头拼接成粗糙的视频摘要,具体包括:
计算所述聚类的一个关键帧与所述聚类其他关键帧之间的距离的平均值, 所述平均值为所关键帧的平均距离,对所述聚类的每个关键帧按上述方法计算 出各自的平均距离,选取平均距离最小的关键帧作为保留关键帧;
将所述选取的保留关键帧对应的视频镜头按时间顺序拼接,获得所述粗糙 的视频摘要。
所述在粗糙的视频摘要中生成视频片段并计算所述视频片段的相似度,具 体包括:
计算所述粗糙的视频摘要的任意两帧图片之间的距离,若所述距离小于第 二阈值,从所述两帧图片中选取时间在后的一帧图片,读取在所述图片之前的 相邻的一帧图片的相似度,将所述读取的相似度增加预设的增量得到所述图片 的相似度,在所述粗糙的视频摘要中将相似度非零且连续增加的图片组成视频 片段,并以所述视频片段包括的最大的图片的相似度作为所述视频片段的相似 度
一种提取视频摘要的装置,所述装置包括:
获得模
块,用于对原始视频分割,获得原视频的视频镜头和关键帧;
聚类模块,用于将具有相似视频特征的关键帧聚为一类,并将聚为一类的 关键帧命名为一个聚类;
拼接模块,用于从每个聚类中选取平均距离最小的关键帧作为保留关键帧, 将所述保留关键帧对应的镜头拼接成粗糙的视频摘要;
去除模块,用于在所述粗糙的视频摘要生成视频片段并计算所述视频片段 的相似度,检测出视频片段的相似度超过第三阈值的视频片段,在所述粗糙视 频摘要中去除检测到的视频片段,将粗糙视频摘要保留下来的其他部分拼接成 视频摘要。
所述聚类模块具体包括:
计算单元,用于计算任意两个所述关键帧之间的距离;
聚类单元,用于将彼此距离小于或等于第一阈值的关键帧聚为一类。
所述拼接模块具体包括:
选取单元,用于从计算所述聚类的一个关键帧与所述聚类的其他关键帧之 间的距离的平均值,所述平均值为所关键帧的平均距离,对所述聚类的每个关 键帧按上述方法计算出各自的平均距离,选取平均距离最小的关键帧作为保留 关键帧;
拼接单元,用于将所述保留关键帧对应的视频镜头按时间顺序拼接,获得 粗糙的视频摘要。
所述去除模块具体包括:
生成单元,用于计算所述粗糙的视频摘要的任意两帧图片之间的距离,若 所述距离小于第二阈值,从所述两帧图片中选取时间在后的一帧图片,读取在 所述图片之前的相邻的一帧图片的相似度,将所述读取的相似度增加预设的增 量得到所述图片的相似度,在所述粗糙的视频摘要中将相似度非零且连续增加 的图片组成视频片段,并以所述视频片段包括的最大的图片的相似度作为所述 视频片段的相似度;
检测单元,用于根据从生成单元生成的各视频片段中,检测出所述相似度 超过第三阈值的视频片段;
去除单元,用于选取所述检测到的第一个视频片段,在所述粗糙的视频摘 要中去除所述检测到的其他视频片段,将所述粗糙视频摘要保留下来的其他部 分拼接成视频摘要。
本发明实施例提供的技术方案的有益效果是:
通过获得原视频的视频镜头和原视频的关键帧,对原视频的关键帧进行聚 类,从每个聚类中选取保留关键帧,将保留关键帧对应的视频镜头拼接成粗糙 的视频摘要,在从粗糙的视频摘要中检测出视频相似度超过第三阈值的视频片 段,在粗糙的视频摘要中去除检测到的视频片段,将粗糙的视频摘要保留的其 他部分拼接成完整的视频摘要,从而更有效的去除了视频摘要中相似的内容, 得到的视频摘要更加简洁并带来较好的用户体验。
附图说明
图1是本发明实施例提供一种提取视频摘要的方法
流程图;
图2是本发明实施例提供一种提取视频摘要的方法详细流程图;
图3是本发明实施例提供一种提取视频摘要的装置图。
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明 实施方式作进一步地详细描述。
实施例1
如图1所示,本发明实施例提供了一种提取视频摘要的方法,包括:
步骤101:对原视频分割,获得原视频的视频镜头和原视频的关键帧;
步骤102:将具有相似视频特征的关键帧聚为一类,并将聚为一类的关键帧 命名为一个聚类;
本实施例中每个聚类的关键帧都描述相似的视频内容,这样整个视频的内 容由若干个聚类的结果来表示。
步骤103:从每个聚类中选取平均距离最小的关键帧作为保留关键帧,将保 留关键帧对应的视频镜头拼接成粗糙的视频摘要;
步骤104:在粗糙的视摘要中生成视频片段并计算视频片段的相似度,检测 出视频片段的相似度超过第三阈值的视频片段,在粗糙的视频摘要中去除检测 到的视频片段,将粗糙视频摘要保留下来的其他部分拼接成视频摘要。
在本实施例中视频从整体结构可以分为整个视频、视频场景、视频镜头和 视频的关键帧四个层次。每个视频镜头都是摄像机不间断拍摄得到的连续的视 频序列,也就是在摄像机一次开机和关机的过程中所得到的视频序列。关键帧 是对视频镜头的代表性的描述,用一个或多个关键帧来代表整个视频镜头的内 容。
本实施例中获得原视频的视频镜头和关键帧,对原视频的关键帧进行聚类, 从每个聚类中选取保留关键帧,将保留关键帧对应的视频镜头拼接成粗糙的视 频摘要,在从粗糙的视频摘要中检测出视频的相似度超过第三阈值的视频片段, 在粗糙的视频摘要中去除检测到的视频片段,将粗糙的视频摘要的其他部分拼 接成完整的视频摘要,从而更有效的去除了视频摘要中相似的内容,得到的视 频摘要更加简洁并带来较好的用户体验。
实施例2
如图2所示,一种提取视频摘要的方法,具体包括:
步骤201:对原视频进行分割,获得原视频的场景和视频镜头,同时生成原 视频的关键帧;
其中,视频从整体结构可以分为整个视频、场景、视频镜头和视频的关键 帧四个层次。每个视频镜头都是摄像机不间断拍摄得到的连续的视频序列,也 就是在摄像机一次开机和关机的过程中所得到的视频序列。关键帧是对视频镜 头的代表性的描述,用一个或多个关键帧来代表整个视频镜头的内容。
步骤202:计算任意两个的关键帧之间的距离,将计算得到的距离存储在距 离矩阵中;
例如有一段关键帧A、B、C、D、E,计算出A与B之间的距离为0.1、A 与C之间的距离为0.13、A与D之间的距离为0.13、A与E之间的距离为0.16、 B与C之间的距离为0.16,B与D之间的距离为0.12、B与E之间的距离为0.17、 C与D之间的距离为0.14、C与E之间的距离为0.15、D与E之间的距离为0.12。 再将计算的距离保存在距离矩阵中,得到的距离矩阵为{{0,0.1,0.13,0.13, 0.16},{0.1,0,0.16,0.12,0.17},{0.13,0.16,0,0.14,0.15},{0.13,0.12, 0.14,0,0.12},{0.16,0.17,0.15,0.12,0}}。
本实施例中关键帧之间的距离采用色彩直方图距离,若两个关键帧之间的 距离不超过设置的第一阈值,则这两个关键帧的视频特征相似。
步骤203:从距离矩阵中读取关键帧之间的距离,将彼此距离小于或等于第 一阈值的关键帧聚为一类;将聚为一类的关键帧命名为一个聚类,如此,将视 频的关键帧聚成若干个聚类,每个聚类中任意两个关键帧之间的距离不超过第 一阈值;
例如一段关键帧A、B、C、D、E,从保存的距离矩阵中分别读取彼此两关 键帧之间的距离,将彼此之间的距离不超过第一阈值0.15的关键帧聚为一类, 如此,分成A、B、D和C、E两个聚类。
其中,由于每个聚类中包括的任意两个关键帧之间的距离不超过第一阈值, 使得每个聚类包括的所有关键帧都具有相似的视频特征;如此,每个聚类包括 的关键帧都描述相似的视频内容,这样整个视频的内容由若干个聚类的结果来 表示。
在本实施例中可以采用层次聚类的方法对视频的关键帧进行分段,该方法 的原理是每次都将最近两个关键帧划为一类,反复
迭代,直到该类内的关键帧 之间的最大距离超过第一阈值为止。
步骤204:从每个聚类中选取平均距离最小的关键帧作为保留关键帧;
具体地,从距离矩阵中读取聚类的一个关键帧与聚类其他关键帧之间的距 离,再对读取的距离计算出平均值,计算出的平均值为该关键帧的平均距离, 对聚类的每个关键帧按上述方法计算出平均距离,选取平均距离最小的关键帧 作为保留关键帧。
其中,对每个聚类的关键帧按上述方法进行计算,再选取出各自对应的保 留关键帧。
步骤205:将选取的保留关键帧对应的视频镜头按时间顺序拼接,获得粗糙 的视频摘要;
步骤206:计算粗糙的视频摘要的任意两帧图片之间的距离,将计算得到的 距离存储在粗糙的视频摘要的距离矩阵中;
其中,两帧图片之间的距离采用色彩直方图距离,若两帧图片之间的距离 小于设置的第二阈值,则这两帧图片的内容相似,另外,拼接的粗糙的视频摘 要包括的每帧图片的相似度起初为零。
步骤207:计算出粗糙视频摘要的每个视频片段的相似度,检测所有视频片 段的相似度超过设置的第三阈值的视频片段;
具体地,从粗糙的视频摘要的距离矩阵中读取任意两帧图片之间的距离, 若读取的距离小于第二阈值,从该两帧图片中选取时间在后的一帧图片,读取 在选取的图片之前的相邻的图片的相似度,将读取的相似度增加预设的增量得 到该选取的一帧图片的相似度,在粗糙的视频摘要中将相似度非零且连续增加 的图片组成视频片段,并以视频片段包括的最大的图片的相似度作为该视频片 段的相似度,然后,检测出视频片段的相似度超过第三阈值的视频片段。
例如一段连续的图片A0、B0、C0、E、F、A1、B1、C1,起初每帧图片的相 似度都为零。读取A0、A1之间的距离小于第二阈值,则将F的相似度增加预设 的增量2得到A1的相似度2,读取B0、B1之间的距离小于第二阈值,则将A1 的相似度增加增量2得到B1的相似度4,读取C0、C1之间的距离小于第二阈值, 则将B1的相似度的增加增量2得到C1的相似度6,将相似度非零且连续增加的 图片组成视频片段A1、B1、C1并以最大的相似度6作为视频片段A1、B1、C1 的相似度,检测出视频片段的相似度超过第三阈值5的视频片段A1、B1、C1。
其中,本实施例相似度超过第三阈值的所有视频片段的内容相似。
步骤208:在粗糙的视频摘要中去除检测到的视频片段,将粗糙视频摘要保 留下来的其他部分拼接成完整的视频摘要。
本实施例中将原视频进行分割得到原视频的视频镜头和原视频的关键帧, 对原视频的关键帧进行聚类,再从每个聚类中选取保留关键帧,将保留关键帧 对应的视频镜头按时间顺序拼接成粗糙的视频摘要,在从粗糙的视频摘要中检 测出视频的相似度超过第三阈值的视频片段,从粗糙的视频摘要中去除检测到 的视频片段,将粗糙的视频摘要的其他部分拼接成完整的视频摘要,从而更有 效的去除了视频摘要中相似的内容,得到的视频摘要更加简洁并带来较好的用 户体验。
实施例3
如图3所示,本发明实施例提供了一种提取视频摘要的装置,包括:
获得模块301,用于对原视频分割,获得原视频的视频镜头和原视频的关键 帧;
聚类模块302,用于将具有相似视频特征的关键帧聚为一类,并将聚为一类 的关键帧命名为一个聚类;
拼接模块303,用于从每个聚类中选取平均距离最小和关键帧作为保留关键 帧,将保留关键帧对应的视频镜头拼接成粗糙的视频摘要;
去除模块304,用于在粗糙的视频摘要中生成视频片段并计算视频片段的相 似度,检测出视频片段的相似度超过第三阈值的视频片段,在粗糙的视频摘要 中去除检测到的视频片段,将粗糙的视频摘要保留下来的其他部分拼接成视频 摘要。
其中,聚类模块302具体包括:
计算单元,用于计算任意两个的关键帧之间的距离;
聚类单元,用于将彼此距离小于或等于第一阈值的关键帧聚为一类,并将 聚为一类的关键帧命名为一个聚类;
拼接模块303具体包括:
选取单元,用于计算聚类的一个关键帧与聚类其他关键帧之间的距离的平 均值,计算出的平均值为该关键帧的平均距离,对聚类的每个关键帧按上述方 法计算出平均距离,选取平均距离最小的关键帧作为保留关键帧;
拼接单元,用于将保留关键帧对应的镜头按时间顺序拼接,获得粗糙的视 频摘要;
去除模块304具体包括:
组成单元,用于计算粗糙的视频摘要的任意两帧图片之间的距离,若计算 的距离小于第二阈值,从该两帧图片中选取时间在后的一帧图片,读取在选取 的一帧图片之前的相邻的一帧图片的相似度,将读取的相似度增加预设的增量 得到选取的一帧图片的相似度,在粗糙的视频摘要中将相似度非零且连续增加 的图片组成视频片段,并以该视频片段包括的最大的图片的相似度作为该视频 片段的相似度;
检测单元,用于从组成单元组成的各视频片段中,检测出视频的相似度超 过第三阈值的视频片段;
去除单元,用于在粗糙的视频摘要中去除检测出的视频片段,将粗糙视频 摘要保留下来的其他部分拼接成视频摘要。
本实施例中分割模块对原视频进行分割,获得原视频的视频镜头,同时生 成原视频的关键帧,聚类模块将具有相似视频特征的关键帧聚为一类,拼接模 块从每个聚类中选取一个保留关键帧,将保留关键帧对应的视频镜头拼接成粗 糙的视频摘要,去除模块检测到视频的相似度超过第三阈值的视频片段,从粗 糙的视频摘要中去除检测到的视频片段,将粗糙的视频摘要的其他部分拼接成 视频摘要,从而更有效的去除了视频摘要中相似的内容,得到的视频摘要更加 简洁并带来较好的用户体验。
以上实施例提供的技术方案中的全部或部分内容可以通过
软件编程实现, 其软件程序存储在可读取的存储介质中,存储介质例如:计算机中的
硬盘、光 盘或
软盘。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的 精神和原则之内,所作的任何
修改、等同替换、改进等,均应包含在本发明的 保护范围之内。