本发明的目的在于提供一种有效地融合视频中的音频信息和视觉信息,快速、准确 地检测出足球视频中精彩事件的方法。
实现本发明目的的技术解决方案为:一种基于音视频融合的足球视频精彩事件检测 方法,步骤如下:
步骤1:将需要检索的足球比赛的压缩视频通过
解码器进行解码,得到
视频流;
步骤2:对视频流进行镜头分割,镜头分割结果存入
数据库;
步骤3:根据镜头分割的结果,进行徽标镜头检测,然后基于徽标镜头进行慢镜头 检测,并将慢镜头检测结果存入数据库;
步骤4:从解码后得到的足球视频流中提取音频,得到
音频流,并将音频流切割成 音频
片段;
步骤5:对每个音频片段进行预处理,然后提取音频特征即观察矢量,按照基于隐
马尔科夫模型将音频片段分类,将该音频片段划分到以下5类中的一类:解说员的激昂 解说音片段、解说员平缓解说音片段、观众的欢呼声片段、哨音片段和
背景噪音片段, 音频分类结果存入数据库;
步骤6:在有解说员的激昂解说音或观众的欢呼声发生的相邻镜头里结合慢镜头检 测射门事件,对检测到的射门事件再根据解说员的激昂解说音和观众的欢呼声持续时间 或慢镜头的持续长短检测进球事件。检测结果存入数据库;
步骤7:在有哨音发生的相邻镜头里结合慢镜头检测犯规事件,检测结果存入数据 库;
步骤8:根据在步骤6和步骤7中存储在数据库中的精彩事件的信息,生成足球视 频中精彩事件的浏览系统。
本发明与
现有技术相比,其显著优点:(1)现有的足球视频精彩片段多是根据视觉 信息,而视频中还包含了语义丰富的音频信息。本发明中在检测精彩事件时,有效地融 合了视频中的音频信息和视觉信息,这样检测结果更加准确,而且检测出的精彩事件的 种类比较多,检测出的精彩事件有射门事件、进球事件和犯规事件;(2)本发明中采用 隐马尔科夫模型将音频信息分成5类,分类效果很好,查全率和查准率都比较高,为精 彩事件的检测提供很好的技术
基础。(3)本发明根据音频分类结果和音频流与视频流的 时间对应关系,快速
定位和缩小精彩事件的检索范围,而不需在整个视频流里检索精彩 事件,从而提高检索速度。如在包含解说员的激昂解说音和观众的欢呼声的相邻镜头里 结合慢镜头检索射门事件,在包含裁判的哨音的相邻镜头里结合慢镜头检索犯规事件; (4)相对以往的慢镜头检测,本发明中的慢镜头检测不仅准确率高,而且速度非常快。
下面结合
附图对本发明作进一步详细描述。
结合图1,本发明中基于音视频融合的足球视频精彩事件检测方法中,首先执行步 骤1对需要检索的足球比赛压缩视频通过解码器进行解码,得到视频流;然后执行步骤 2对视频进行镜头分割,分割结果存入数据库,存储的信息有镜头号、相应镜头在视频 流中的起始帧和终止帧及视频名;接着执行步骤3,在该步骤中根据镜头分割的结果, 进行徽标镜头检测,然后基于徽标镜头进行慢镜头检测,并将慢镜头检测结果存入数据 库,需保存的信息有慢镜头号和慢镜头在视频流中的起始帧和终止帧;执行步骤4,对 在步骤1中解码后得到的视频流进行音频提取,得到音频流,并对音频流进行音频切割 得到音频片段;接着执行步骤5对每个音频片段进行预处理,然后提取音频特征即观察 矢量,并按照基于隐马尔科夫模型将音频片段分类,将该音频片段划分到以下5类中的 一类:解说员的激昂解说音片段,解说员平缓解说音片段,观众的欢呼声片段,哨音片 段和背景噪音片段,分类结果存入数据库,保存的信息有音频片段号,该音频片段在视 频流中对应的时间、音频片段的种类和视频名;执行步骤6,根据音频流与视频流的时 间对应关系,在有解说员的激昂解说音或观众的欢呼声发生的相邻镜头里结合慢镜头检 测射门事件,对检测到的射门事件再根据解说员的激昂解说音和观众的欢呼声持续时间 的长短或慢镜头的持续时间的长短检测进球事件。检测结果存入数据库,需保存的信息 有射门事件号、该事件对应视频流里的起始帧和终止帧、是否为进球事件及视频名;接 着执行步骤7,根据音频流与视频流的时间对应关系,在有哨音发生的相邻镜头里结合 慢镜头检测犯规事件,检测结果存入数据库,需保存的信息有犯规事件号、该事件对应 视频流里的起始帧和终止帧及视频名;执行步骤8,根据在步骤6和步骤7中存储在数 据库中的精彩事件的信息,生成足球视频中精彩事件的浏览系统。
在步骤2中,对视频进行镜头分割是采用Wang J.Y和Luo W的“A Self-adapting Dual-threshold Method for Video Shot Transition Detection”.IEEE International Conference on Networking,Sensing and Control.2008,4:704-707.中的镜头分割方法。
慢镜头是对比赛中的一次行为事件不同
角度的回放,并让观众在视觉上产生慢动作 效果。足球比赛中,当出现精彩场面或观众感兴趣的片段之后,通常会出现从多个不同 角度对精彩片段进行回放的慢镜头。因为慢镜头出现前后通常存在徽标,因此可以通过 徽标检测慢镜头。在步骤3中,根据镜头分割的结果,先进行徽标镜头检测,然后基于 徽标镜头进行慢镜头检测。
由于徽标镜头一般持续时间为10-20帧左右,而在这个长度范围内的镜头有两种:徽 标镜头和特写镜头,如图2所示,而且徽标镜头占多数。因此可将镜头长度为10-20帧的 镜头做为候选徽标镜头,并取镜头的中间帧作为其关键帧。通过对多种徽标镜头(如图 3所示)观察,发现它们都有一个共同的特点,就是镜头图像帧的中心
位置都会出现徽 标图案,而其它的不含徽标的镜头大多都是特写镜头,其中心区域的
颜色特征与徽标图 案有着很明显的区分。因此,可将候选徽标镜头的关键帧图像按横纵方向1∶2∶1分割 为9个窗口,将对应中心区域的中心窗口的图案单独提取出来进行分析处理,以提高计 算速度。
徽标镜头检测以及基于徽标镜头进行慢镜头检测的具体操作按如下步骤展开:
(1)在分割后得到的镜头中,提取出所包含帧数在10-20帧之间的镜头作为候选徽 标镜头,并取中间帧作为候选徽标镜头的关键帧;例如一个镜头包含的帧数是12帧,则 这个镜头就被作为候选徽标镜头,而且其第6帧作为候选徽标镜头的关键帧。又如一个 镜头包含的帧数是13帧,则这个镜头也就被作为候选徽标镜头,其第7帧作为候选徽标 镜头的关键帧。
(2)将每个关键帧图像按横纵方向1∶2∶1分割,提取出在横纵方向分割比例均为 2的区域,称该区域为中心窗口。
(3)将每个镜头关键帧的中心窗口的图像的颜色模型由RGB转换到HSV,并将所 得到的H、S、V三个分量的值均量化为M个等份,即量化为M个台阶,在实际操作中, M可取为100。
(4)提取量化后的H、S、V分量的直方图。
(5)对所有的候选镜头的关键帧进行步骤(2)-(4)处理。
(6)根据公式(1)求取所有候选徽标镜头关键帧的H、S、V三个分量中每个分量 的每阶直方图的均值。
公式(1)中L表示所有候选徽标镜头的个数,Hn(i,j)表示第n个候选徽标镜头关 键帧在HSV颜色空间第i个颜色分量第j阶的直方图,Hmean(i,j)表示所有候选徽标镜 头关键帧在HSV颜色空间第i个颜色分量第j阶的直方图的平均值,其中i=1,2,3,分别 表示H、S、V分量,j=0,2,3,4,5,...99,表示量化的台阶数。
(7)根据公式(2)计算每个候选徽标镜头关键帧图像的三个分量的直方图与均 值的相似度,然后根据公式(3)将相似度值归一化到0-1之间。
i=1,2,3j=0,1,2,3,...,99 n=1,2,3,...L (2)
n=1,2,...L (3)
(8)提取归一化后相似度值在0.5~1.0范围内的候选徽标镜头,判定这些镜头为徽 标镜头,这样就得到一个徽标镜头集合LogoShotSet。
(9)将徽标镜头集合LogoShotSet中所有徽标镜头按前后的顺序进行匹配,求取慢 镜头的起始帧和终止帧,即得到慢镜头,并将慢镜头检测结果存入数据库。
上述子步骤(9)中基于徽标镜头进行慢镜头检测的具体操作是按如下步骤得到: 设LogoShot为徽标镜头集合LogoShotSet中的任意一个镜头,若LogoShot是奇次出现, 则认为是慢镜头中起始镜头之前的徽标镜头,并将该镜头的尾帧的下一帧作为慢镜头的 起始帧,若LogoShot是偶次出现,则认为是慢镜头结束后的徽标镜头,并将该镜头的起 始帧的前一帧作为慢镜头的结束帧。这样就得到了慢镜头的终止帧。通过这种方式就可 以找到所有的慢镜头。
在步骤4中对步骤1中解码后得到的足球视频流进行音频提取,得到音频流。提取音 频时的统一
采样频率为22050赫兹。然后将音频流切割为时长较短的音频片段,例如切 割为时长为1秒的音频片段。
在步骤5中对每个音频片段进行预处理。首先对每个音频片段做预加重处理,以减少 尖锐噪声影响,提升高频
信号。然后对每个音频片段加长为40毫秒的hamming窗(即海 明窗)进行音频分帧(加hamming窗的目的是对数据进行平滑处理,减少预测误差),其 中傅里叶变换长度Nfft=1024,相邻帧之间重叠1/2帧,这样每个音频片段就分成了一个 包含n个音频帧的帧序列,如图4所示。对于预加重处理以及加hamming窗进行音频分帧 的具体计算方法在音频领域内是公知的。
接着从每个音频帧内提取12维的MFCC特征系数以及12维的一阶差分MFCC特征系 数、短时过零率、短时平均
能量等特征参数。对于这些特征的提取的具体计算方法在音 频领域内是公知的。
最后从每个音频帧中提取的音频特征参数为26维的特征矢量O,包括12维的MFCC 参数、12维的一阶差分MFCC参数、1维的短时过零率和1维的短时平均能量,这样就从 每个音频片段中提取出一个观察矢量序列O=O1O2...On,其中Oi(i=1,2,...n)表示从音频 片段中第i个音频帧中提取出的26维特征矢量,n表示一个音频片段经上述的音频分帧后 被分为n个音频帧。
对每个观察矢量序列按照基于隐马尔科夫模型将音频片段分类,将该音频片段划分 到以下5类中的一类:解说员激昂解说音片段、解说员平缓解说音片段、欢呼声片段、 哨音片段和背景噪音片段。
在采用基于隐马尔科夫模型将音频片段分类时,具体的分类方法是根据从每个音频 片段中提取的观察矢量序列O=O1O2...On以及相应的解说员激昂解说音、解说员平缓解 说音、观众的欢呼声、哨音和背景噪音的隐马尔科夫模型参数λi=(Ai,Bi,πi)(其中i=1、 2、3、4、5,分别表示解说员激昂解说音、解说员平缓解说音、观众的欢呼声、哨音和 背景噪音片段)将每个音频片段划分到5种类型中的某一种,判断方法是用前向
算法计 算每个音频片段的观察矢量序列在上述的5个隐马尔科夫模型参数中的概率P(O|λi) (对于隐马尔科夫模型以及基于前向算法计算概率的方法可参见L.R.Rabiner,“A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition”, Proceeding of the IEEE,1989,77(2):257-286或者是庄越挺,潘
云鹤,吴飞,“网上多媒体 信息分析与检索”,清华大学出版社,2002:159-177),并根据公式(4)判断其中最大 值所对应的类别S:
然后将该音频片段划分到最大值所对应的那个类型中。例如,从公式(4)中我们 计算得出一个音频片段的P(O|λ3)为最大值,也即:
则我们可以 判断这个音频片段对应的音频类型为观众的欢呼声。
其中隐马尔科夫模型的参数在分类前需要通过学习获得(学习方法可参见 L.R.Rabiner,“A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition”,Proceeding of the IEEE,1989,77(2):257-286或者是庄越挺,潘云鹤,吴飞, “网上多媒体信息分析与检索”,清华大学出版社,2002:159-177)。在隐马尔科夫参 数学习中,需要从训练的音频中手动选取用于训练用的解说员激昂解说音片段集合、用 于训练用的解说员平缓解说音片段集合、用于训练用的观众欢呼声片段集合、用于训练 用的哨音片段集合和用于训练用的背景噪音片段集合。标记这些训练片段所属的类型, 并从训练片段中提取观察矢量。在隐马尔科夫参数学习中可以采用如图5所示的从左到 右四状态二转移的拓扑结构。
因为足球比赛视频中,每当有精彩的射门事件发生时,一般都有解说员的激昂解说 音和观众的欢呼声,并且还会有回放的慢镜头,对于精彩程度高的射门事件如射门进球 事件,则解说员的激昂解说音和观众的欢呼声的持续时间会比较长,而且回放的慢镜头 也比较长。因此,在步骤6中,根据音频分类结果及音频流和视频流的时间对应关系, 在有解说员的激昂解说音或观众的欢呼声的发生的相邻镜头里结合慢镜头检测射门事 件,对检测到的射门事件再根据解说员的激昂解说音和观众的欢呼声持续时间的长短或 慢镜头的持续时间的长短检测进球事件。具体执行按照如下步骤:
(1)根据时间对应关系将音频流与视频流对应起来,具体操作为:
设视频流的播放速度为FrameRate,镜头的起始帧为StartFrame,对应的音频片段 序号为AudioStartID。镜头的终止帧为EndFrame,对应的音频片段序号为AudioEndID。 对时长为1秒的音频片段,则有:
其中int表示取整操作。StartFrame和EndFrame都是从整数0开始计数,依次加1。 根据上述公式(5)和(6),就可以将音频流与视频流中的镜头对应起来。
(2)提取出解说员的激昂解说音+欢呼声的持续时间大于4秒的镜头。
(3)在满足上述条件的镜头的前面1到2个镜头和后续5到6个镜头中,根据数 据库中保存的慢镜头数据进行慢镜头检测,如果检测到慢镜头,则认为这段视频是一个 射门事件。
(4)针对射门事件,继续判断慢镜头持续的镜头的个数是否大于3或者解说员的 激昂解说音+欢呼声的持续时间是否大于10秒,如果是,则认为这段视频是一次射门进 球事件,否则为射门非进球事件。
在足球比赛视频中,在犯规事件发生时,一般裁判会吹哨子,以示有人犯规。然后 会跟随一个回放的慢镜头,而这个回放慢镜头持续时间比较短,通常只有几秒而已。因 此在步骤7中根据音频流和视频流的时间对应关系,在有哨音发生的相邻镜头里结合慢 镜头检测犯规事件,具体操作如下:
(1)根据时间对应关系将音频流与视频流对应起来,具体操作为:
设视频流的播放速度为FrameRate,镜头的起始帧为StartFrame,对应的音频片段序号 为AudioStartID。镜头的终止帧为EndFrame,对应的音频片段序号为AudioEndID。对 时长为1秒的音频片段,则有:
其中int表示取整操作。StartFrame和EndFrame都是从整数0开始计数,依次加1。 根据上述公式(5)和(6),就可以将音频流与视频流中的镜头对应起来。
(2)提取出含哨音的镜头,根据数据库中保存的慢镜头数据检测含哨音镜头的后续 5到6个镜头中是否有慢镜头,如果有,则
(3)检测慢镜头持续时间是否小于3个镜头,如果是,则认为这段视频是一个犯 规事件。
在步骤8中,根据在步骤6和步骤7中存储在数据库中的精彩事件的信息,生成足 球视频中精彩事件的浏览系统。其具体操作为:
(1)根据在步骤6中存储在数据库中的射门事件和进球事件的信息,生成足球视 频中射门事件和进球事件的浏览系统。
(2)根据在步骤7中存储在数据库中的犯规事件的信息,生成足球视频中犯规事 件的浏览系统。