最近10年来,计算机和网络高速发展,数字化媒体信息大量涌现,为了实现对海量 多媒体信息的高效
访问,多媒体信息处理和检索工具的研制成为当务之急。
视频(video)是在时间上连续的一系列图像
帧的集合,是一种没有结构的流数据,是 集
图像序列(image sequence)、图像(image)、文本(text)等为一体、已经获得广泛使 用的一种综合性的媒体信息。如果把一个视频文件看作一本没有目录和索引的书,那么一 帧图像就相当于视频“书”中的一页。由于视频这部书缺乏目录和索引信息,人们就无法 对它进行高效浏览和检索,无法快速阅读。为寻找感兴趣的视频片段,人们只能采取“快 进”和“快倒”这种耗时的阅读方式。
随着数字化视频数据量的迅速增加,传统耗时的浏览方式已远不能满足人们对视频内 容的访问和查询需求。人们越来越希望能在海量视频库中快速找到自己感兴趣的视频片 段,因此就需要为视频建立有效的目录结构。一般来说,按照视频内容粒度可以把视频分 为多个层次,从高到低依次为:节目、场景、镜头和关键帧。
镜头是指摄像机从打开到关闭的全过程中记录下来的一组连续的图像帧序列。镜头边 界是客观存在的,可以采用一定的方法自动检测镜头边界。在实际应用中,用户浏览一个 镜头中所有图像帧是非常耗时的,因此常用关键帧技术实现快速浏览。关键帧是指代
表镜 头中最重要的、有代表性的一幅或多幅图像。依据镜头内容的复杂程度,可以从一个镜头 中提取一个或多个关键帧。为了在语义层建立视频结构模型,需要对视频进行场景划分。 场景定义为语义上相关、时间上相邻的一组镜头,它们能够表达视频的高层次概念或故事 等。镜头是组成视频的基本物理单位,而场景(又称故事)则是视频在语义层的单位,通 常只有场景才能向观看者传达相对完整的语义。节目则是由时间上有序的场景组成,例如 新闻节目、娱乐节目、体育节目、天气预报等。
视频信息检索是多媒体信息检索中最困难的一项研究课题,也是目前学术界的研究热 点,利用图像和视频片段的底层物理特征实现视频片段检索是一个非常重要的研究方向, 其基本步骤为:首先将视频
数据库中的
视频流划分为镜头,并从每个镜头中提取一个或多 个关键帧,然后从每个关键帧提取特征矢量,用特征矢量表征所对应的镜头。在检索时对 用户提交的查询视频作同样的处理。然后利用特征矢量进行视频片段之间相似度的计算实 现相似性查询。根据用户提交的不同的查询需求类型,可以分为两类:视频镜头检索和视 频片段检索。
镜头检索指用户提交的查询视频片段仅包含一个镜头,可利用该镜头所对应的关键帧 的特征矢量实现快速的相似性检索,针对这一类检索方式,人们已经提出了大量的高维索 引结构和相似性查询
算法,如R-Tree[3]、X-Tree[4]和VA-File[5]等。视频片段检索则是 指用户提交的查询视频可能由多个连续的镜头组成的描述同一语义的一段视频,对于这一 类查询,首先需要对查询视频进行镜头分割,利用每个镜头的关键帧的特征矢量组成的具 有一定时间顺序的特征矢量序列来表征用户的查询需求。度量两个视频片段之间的相似度 往往基于各个关键帧的特征矢量之间的相似性程度[1][2],如果不采用高效索引结构和快速 检索算法,直接在原始数据库上进行检索,将花费高昂代价。
实现视频片段检索最简单和最直接的方法就是对原始视频数据库进行顺序扫描 (SScan),根据相似度模型依次计算查询视频片段与数据库中每一个视频片段之间的相似 度,返回前k个相似度最大的视频片段为查询结果。当视频数据量较大时,整个视频数据 库就必须存储在磁盘中,因此SScan就需要耗费大量磁盘I/O和CPU计算代价。为了
加速 查询速度和提高查询效率,最常用方法就是借助索引结构降低磁盘I/O和CPU的计算代价。
传统的高维索引结构(R-Tree、X-Tree、VA-File等)以及相似性检索算法,它们所考 虑的查询仅仅用于单一的高维矢量,即仅支持镜头检索类型,因此它们不能支持查询对象 为特征矢量序列的视频片段的检索。据已公开的文献,只有S2-Tree[7]是唯一支持特征矢量 序列的高维索引结构。其主要思想在于:将所有的高维矢量数据编码,然后将顺序排列的 高维矢量数据序列的检索转换成字符串匹配。该索引结构对于视频片段检索来说存在着很 大局限:首先,因为它是建立在X-Tree的
基础上,当特征矢量的维数超过20时,其查询 效率将低于顺序扫描SScan,所以S2-tree适用20维以下的应用。而在视频检索应用中,提 取一个关键帧所得到的特征矢量通常要远高于20维;其次,基于S2-Tree的检索算法要求 所得到结果数据之间的顺序必须严格符合查询数据的顺序,但是在视频片段检索中,两段 在内容上相似的视频其镜头,其顺序可能不一致,对于这样的情形,基于S2-Tree的检索算 法将无能为
力。
Ordered VA-File[9]是我们最近提出的一种有效的高维数据索引结构(已
申请中国发 明
专利,申请号:03129687.4),它通过对VA-File[5]中的近似矢量重新排序组织,并对 得到的近似矢量文件进行分段,从而在查询过程中仅查询部分矢量,以实现快速的近似k 近邻查询。实验结果表明:在获得比VA-File中VA-LOW算法[6]高达100倍的加速比时, Ordered VA-File能得到非常好的查询结果
质量。
本发明的主要贡献是基于Ordered VA-File[9]提出了用于视频片段检索的快速、相似 和k近邻的查询方法。
符号表(在本发明的全部文档中所采用符号的含义)
X,Y 代表两个任意的视频片断,用特征矢量序列描述
x,y,a,b 代表关键帧图象,用特征矢量描述
Q 代表查询视频片断,用特征矢量序列描述
q 代表查询关键帧图像,用特征矢量描述
DB 特征矢量数据库
T 查询控制参数,T越大,则所需查询的近似矢量数目越大
k 返回查询结果的数量
d(x,y) 距离函数,计算高维矢量x和y之间的距离
sim(x,y) 相似度函数,计算高维矢量x和y之间的相似度
sim(X,Y) 相似度函数,计算视频片断X和Y之间的相似度
di 根据关键帧在数据库中的
位置所赋予的自然数id
si 和数据库中di帧相似的所有查询帧的集合
Wmin,Wmax 用户定义的返回结果视频片段的最小可能长度和最大可能
长度,单位是帧数
Pbegin,Pend每次相似度计算从数据库中所选择视频片断的起始位置和
结束位置
Rtemp 近似查询时保存当前所有可能查询结果的集合
Vtemp 每次相似度计算从数据库中所选择的视频片断
simtempk 判断一个视频片断是否为可能的查询结果的相似度临界值
本发明中,
视频帧之间的相似度具体定义如下:设DB为特征矢量数据库,q为查询 矢量,y为DB中的特征矢量,T为查询控制参数,
如果两幅视频帧图像之间的相似度值等于1,则称它们互为相似帧。这种定义方式使 得判断两帧是否相似仅仅和用户感兴趣的结果数量k相关,相比较于“定义一个绝对距 离
阈值来判断是否相似”这种做法具有更大的灵活性和可行性,因为在很多情形下用户 是无法定义一个绝对阈值的。
本发明中,视频片段之间的相似度具体定义如下:令X、Y分别代表两段视频,对于 X中的一帧,如果Y中至少有一帧和它相似,则称该帧为X中的Y相似帧,所有X中的Y 相似帧数目可以标记为:∑x∈X1{y∈Y:sim(x,y)=1};同理,所有Y中的X相似帧数目可以标记 为∑y∈Y1{x∈X:sim(x,y)=1};则X和Y之间的相似度计算公式为:
本发明中,利用Ordered VA-File为视频数据库建立索引的算法可参考我们已经提交 的发明专利申请[9]。
本发明中,基于Ordered VA-File得到的近似k近邻的算法进一步描述如下:
设用户提交的查询视频片断为Q,用户要求返回的视频片断长度(即帧数)在 Wmin-Wmax之间(Wmin<Wmax),以下为实现查询的详细步骤:
1)利用Ordered VA-File快速得到查询Q中的每一关键帧的T×k近邻,并根据上面的 相似判断规则确定它们的相似关系;
2)将所有查询帧的T×k近邻按照它们在视频数据库中的先后位置关系排序,如果数 据库中的一帧同时属于多个查询帧的T×k近邻,记录下这些帧的帧号;设所得到的有序
序列表示为<+∞,0>,
,......,di<dj if i<j。其中di表示该帧 在数据库中的位置,si表示在查询片段中和di相似的所有帧的帧号。根据d和s以及相似 度模型可以求得数据库中任意一段视频和查询视频的相似度,具体计算公式为:设数据库 中的视频片断为[p,q],p<q,查询视频长度为L,如果[p,q]所包含的最长有序序列为 ,......,则[p,q]与查询片断之间的相似度为
3)初始化Pend=d0,设近似结果集Rtemp=Ф;simtempk等于0;
4)扫描序列判断是否存在di,使得Wmin<Pend-di≤Wmax并且Pend-di-1>Wmax;如果存在 符合条件的di,转5),否则转7);
5)Pbegin=di。设Vtemp={Pbegin,Pend},根据相似度模型计算Vtemp与查询Q的相似度值 sim(Q,Vtemp),如果该相似度大于当前k近邻相似度simtempk,转6),否则转8);
6)如果Rtemp中所有序列和当前序列都没有重叠,那么Rtemp=Rtemp+{Vtemp},否则比 较Rtemp中与当前序列有重叠的序列和当前序列的最大相似度,Rtemp中只保留它们之中相似 度最大的结果;如果Rtemp中包含了当前序列并且sim(Q,Vtemp)大于当前k近邻相似度simtempk 并且Rtemp中的元素个数大于k,simtempk=sim(Q,Vtemp);如果Rtemp中的元素个数等于k, simtempk等于Rtemp所有元素的相似度的最小值。转8);
7)如果Pend-Wmin>0,则Pbegin=Pend-Wmin;否则Pbegin=1。设Vtemp={Pbegin,Pbegin+Wmin}, 根据相似度模型计算Vtemp与查询Q的相似度值sim(Q,Vtemp),如果该相似度大于当前k近 邻相似度simtempk,转6),否则转8);
8)如果Pend≠dn,则Pend=di+1,转3);否则退出并返回Rtemp。
本发明中,有关参数的确定准则如下:
1)构建索引结构Ordered VA-File的参数设定准则在[9]中已有详细描述。
2)确定T的原则:T越大,对于单独的查询帧所需要查询的近邻个数越多,需要排序 和查询的数据个数也越多,导致查询时间的增加;同时,对于每一帧得到的信息也更多, 查询结果的精确度也更高。
总之,本发明提出了一种利用Ordered VA-File对视频片段进行快速、近似、k近邻检 索的算法,并可根据用户的需求自适应调整查询速度和查询精度,具有极高的查询效率。
利用本发明方法,进行很多例子的实验验证,下面是一个实例子的结果。
实验数据来源于BBC电视,包括了新闻、体育等各种类型的节目。首先对视频进行镜 头分割,然后从每个镜头中抽取一个关键帧,整个数据库一共包括50,000幅关键帧图像, 对每一关键帧提取颜色直方图作为特征向量,维数为192。实验机器是PIII CPU 1G Hz, 256M内存的PC,操作系统为Windows 2000Server,编译环境为Borland C++Builder6.0。
在实验中,50000个特征矢量数据被分割成1000段,k近邻查询时统一查询其中50个 矢量段,返回结果视频片断的最小长度和最大长度分别为查询视频片断长度和1.5倍查询 视频片断长度。
在查询速度测试中,本算法和顺序扫描算法以及基于VA-File的片断检索算法进行了 比较。相比较于顺序扫描算法,本算法的查询速度提高了30倍以上;相比较于基于VA-File 的片断检索算法,查询速度亦提高了10倍以上。实验结果表明,在速度上本算法完全达 到了视频片断实时查询的要求。
在查询精度测试中,本算法和顺序扫描算法以及文[10]中的算法进行了比较。由于 OVA-File在k近邻查询时良好的结果质量,本算法在和顺序扫描算法比较时取得了非常优 异的查询精度,其查询精度在90%以上;在和文[10]中的算法比较时,尽管文[10]中的算 法采用了非常复杂的相似度模型来保证查询结果质量,而本算法采用的相似度模型相对计 算简单,但是实验结果证明两者取得的查询结果集合质量相差无几,而两者的查询时间却 相差了一个数量级。
实验表明,无论在查询速度还是查询精度上,本算法都获得了非常优异的结果,完全 可以应用在成熟的多媒体信息检索系统中实现实时的视频片断检索。
参考文献
1.Y.P,Kulkarni,S.R.,Ramadge,P.J.“A framework for measuring video similarity and its application to video query by example”,Proceedings of IEEE International Conference on Image Processing,1999,2:106-110.
2.Dimitrova,N.,Abdel-Mottaled,M.“Content-based video retrieval by example video clip”, Proceedings of IS & T and SPIE Storage and Retrieval of Image and Video Databases VI, 1998:184-196.
3.Guttman A.“R-Trees:A dynamic index structure for spatial searching”,Proc.ACM SIGMOD Int.Conf.on Management of Data,Boston,MA,1984:47-57.
4.Stefan Berchtold,Daniel A.Keim,and Hans-Peter Kriegel.“The X-Tree:An index structure for high dimensional data”,Proc.of the 22nd VLDB Conference,1996:28-39.
5.Roger Weber,Hans-J.Schek,Stephen Blott,“A Quantitative Analysis and Performance Study for Similarity Search Methods in High-Dimensional Spaces,”Proc.of the 24th VLDB Conference,New York,USA,1998.
6.R.Weber,K.Bohm,“Trading Quality for Time with Nearest Neighbor Search”,Proc.Of the 7th Conf.On Extending Database Technology,Konstanz,Germany,March 2000.
7.Haixun Wang and Chang-Shing Perng.“The S2-Tree:An Index Structure for Subsequence Matching of Spatial Objects”.in the 5th Pacific-Asic Conference on Knowledge Discovery and Data Mining(PAKDD),Hong Kong,2000.
8.Sen-ching Samson Cheung,Avideh Zakhor.“Efficient Video Similarity Measurement With Video Signature”.IEEE Trans.On CAS for Video Technology.Vol.13.No.1.Jan.2003.
9.一种高维矢量数据的快速相似检索方法获得,专利申请号:03129687.4。申请人:董道国,薛向阳 (主要发明内容是提出一种高维索引结构,称之为Ordered VA-File)
10.Fangjie liu,Daoguo Dong,Xiangyang Xue.“A Fast Video Clip Retrieval Algorithm Based on VA-File”.SPIE Electronic Imaging 2004:Storage and Retrieval for Media Database 2004.To Be Published.