首页 / 专利库 / 图形技术 / 亮度模式 / 一种基于时空条带模式分析的新闻主播镜头检测方法

一种基于时空条带模式分析的新闻主播镜头检测方法

阅读:607发布:2024-02-29

专利汇可以提供一种基于时空条带模式分析的新闻主播镜头检测方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于 时空 条带模式分析的新闻主播检测方法,包括:从经过编辑的新闻视频中截取连续的N 帧 作为一组,并提取 水 平时空条带和垂直时空条带;提取水平时空条带和垂直时空条带中所对应的图像特征,得到相应的 特征向量 ;通过聚类方法对特征向量分别聚类,并将同一类中时间连续的水平或垂直时空条带分别合并,作为类中的新元素,得到最终的水平聚类结果和垂直聚类结果;将水平聚类结果中包含有最多元素的类和垂直聚类结果中包含有最多元素的类进行融合,根据融合结果检测新闻主播镜头。本发明的优点是对各类新闻视频主播检测准确率高,通用性强,计算复杂度低。避免了现有方法过于依赖准确的镜头分割和其他模态信息的缺点。,下面是一种基于时空条带模式分析的新闻主播镜头检测方法专利的具体信息内容。

1、一种基于时空条带模式分析的新闻主播检测方法,按以下步骤顺序执行:
步骤10)、从经过编辑的新闻视频中截取连续的N作为一组,并从所截取的 连续帧组中提取平时空条带和垂直时空条带;
步骤20)、分别提取所述水平时空条带和垂直时空条带中所对应的图像特征, 得到相应的特征向量
步骤30)、通过聚类方法对所述的水平时空条带和垂直时空条带所对应的特征 向量分别聚类,并将同一类中时间连续的水平或垂直时空条带分别合并,作为类中 的新元素,得到最终的水平聚类结果和垂直聚类结果;
步骤40)、将所述的水平聚类结果中包含有最多元素的类和所述的垂直聚类结 果中包含有最多元素的类进行融合,根据融合结果检测新闻主播镜头。
2、根据权利要求1所述的基于时空条带模式分析的新闻主播检测方法,其特征 在于,在所述的步骤10)中,提取水平时空条带是指:
从所述的连续帧组中提取各连续图像帧水平方向的同一行象素,并将所提取的 各行象素拼接成一幅新的图像,所得到的新图像为水平时空条带,所述水平时空条 带的长为一组连续帧组中包含的图像的帧数,宽为一帧图像的长。
3、根据权利要求1所述的基于时空条带模式分析的新闻主播检测方法,其特征 在于,在所述的步骤10)中,提取垂直时空条带是指:
从所述的连续帧组中提取各连续图像帧垂直方向的同一列象素,并将所提取的 各列象素拼接成一幅新的图像,所得到的新图像即为垂直时空条带,所述垂直时空 条带的长为一组连续帧组中包含的图像的帧数,宽为一帧图像的宽。
4、根据权利要求1所述的基于时空条带模式分析的新闻主播检测方法,其特征 在于,在所述的步骤10)中,所述N的值为25的整数倍。
5、根据权利要求1所述的基于时空条带模式分析的新闻主播检测方法,其特征 在于,在所述的步骤20)中,所述的图像特征为颜色特征与纹理特征。
6、根据权利要求5所述的基于时空条带模式分析的新闻主播检测方法,其特征 在于,提取图像的颜色特征可在颜色空间RGB或HSV或HIS或YUV或Lab中实 现。
7、根据权利要求6所述的基于时空条带模式分析的新闻主播检测方法,其特征 在于,在所述的颜色空间HSV中提取颜色特征时,包括以下步骤:
步骤21-1)、将图像的RGB值转化为色度值、饱和度值和亮度值;
步骤21-2)、对图像的色度值、饱和度值和亮度值分别进行等级量化;
步骤21-3)、增大色调的关注度,并将等级量化后的三维向量通过线性组合转 换成为一个整数值,每个数值代表一个颜色分段;
步骤21-4)、将图像中的每个象素都进行量化后,提取图像的颜色特征。
8、根据权利要求7所述的基于时空条带模式分析的新闻主播检测方法,其特征 在于,在所述的步骤21-4)中,提取图像的颜色特征是指:首先将整个图像平均划 分为4*4的小,然后将所有小块组合为5个大的分块,分别对应上下左右和中间 部分,对不同的分块,在提取颜色特征时有以下不同的实现方法:
对上下左右四个板块各提取三维的颜色矩,所述三维的颜色矩包括颜色的一阶 矩、二阶矩和三阶矩;
对中间板块提取量化为32级的直方图;
对整幅图像还要提取用于描述图像全局颜色特征的颜色的三阶矩。
9、根据权利要求5所述的基于时空条带模式分析的新闻主播检测方法,其特征 在于,提取图像的纹理特征是指:通过对整幅图像提取边缘直方图来描述纹理特征。
10、根据权利要求1所述的基于时空条带模式分析的新闻主播检测方法,其特 征在于,在所述的步骤30)中,所述的聚类方法采用K-mean聚类方法。
11、根据权利要求1所述的基于时空条带模式分析的新闻主播检测方法,其特 征在于,所述的步骤40)具体包括以下步骤:
步骤41)、计算所述的水平聚类结果中包含有最多元素的类和所述的垂直聚类 结果中包含有最多元素的类中对应镜头的相似度;
步骤42)、根据所述的镜头相似度计算结果,判断水平聚类和垂直聚类中的两 个镜头的相似度是否大于预先设定的第一阈值,如果是,则两个镜头为类中的对应 元素,否则为非对应元素;
步骤43)、计算所述的水平聚类结果中包含有最多元素的类和所述的垂直聚类 结果中包含有最多元素的类的相似度;
步骤44)、根据步骤43)得到的水平聚类结果中包含有最多元素的类和垂直聚 类结果中包含有最多元素的类的相似度计算结果,判断两个类的相似度是否大于预 先设定的第二阈值,如果是,则将所述的两个类进行融合,作为新闻主播镜头对应 的类,如果两个类的相似度小于或等于预先设定的第二阈值,则视频不具有明显的 新闻视频结构,无须提取新闻主播镜头。
12、根据权利要求11所述的基于时空条带模式分析的新闻主播检测方法,其特 征在于,在所述的步骤41)中,计算对应镜头的相似度是指:计算对应镜头在时域 上相交部分时间长度占总时间长度的比例,若相似度的计算结果小于零,则修正为 零。
13、根据权利要求11所述的基于时空条带模式分析的新闻主播检测方法,其特 征在于,在所述的步骤43)中,计算类的相似度是指:通过计算两个类中各元素间 的相似度总和来计算两个类的相似度。
14、根据权利要求11所述的基于时空条带模式分析的新闻主播检测方法,其特 征在于,在所述的步骤44)中,两个类进行融合是指:如果一个类中的元素在另一 个类中不存在步骤42)所述的对应元素,则将该元素作为融合后的类的一个新的元 素,如果两个类存在步骤42)所述的对应元素,则将对应元素进行合并,并将两个 对应元素的最早开始时间和最晚结束时间作为合并后元素的起始时间。
15、根据权利要求11所述的基于时空条带模式分析的新闻主播检测方法,其特 征在于,所述第一阈值的值为0.5,所述第二阈值的值为0.5。

说明书全文

技术领域

发明涉及视频分析与检测领域,特别涉及一种基于时空条带模式分析的新闻 主播检测方法。

背景技术

随着网络的高速发展,人们可以接触大量的图像、视频等可视化数据。根据人 们日益增长的对可视化数据的需求,如何对这些海量信息进行有效的分析、管理、 查询和检索,成为目前亟待解决的问题。
对于基于内容的视频分析,由于新闻视频特殊的结构特征,研究者将其作为重 要的研究对象。一段新闻视频可以被看作主播镜头,新闻故事镜头和可能存在的广 告镜头的组合。其中,主播镜头及其后连续的新闻故事单元组成了一个完整的新闻 事件。因为主播镜头的内容常常是关于接下来的故事单元的简介,所以新闻主播镜 头检测对于新闻视频索引的建立十分重要。
现有新闻主播检测方法主要分为三类:第一类方法是模版匹配法,该方法通过 对特定的新闻视频主播建立模版,计算被检测视频与模版的相似度来检测新闻主 播镜头,该方法鲁棒性差且准确率低;为了增强方法的鲁棒性,研究人员通过第二 类融合视觉、听觉等多模态信息的方法建立主播模型来检测新闻主播,尽管该方法 在一定程度上提高了鲁棒性,但是存在为每个新闻主播建立模型工作量大和计算复 杂度高的缺点;第三类方法不依赖于主播模型的建立,但是它们往往依赖于静态的 演播室背景以及准确的镜头分割。总而言之,现有的新闻主播检测方法在鲁棒性和 准确性上都存在一定的不足。
目前主要存在两个关键的因素制约新闻主播检测的准确性和鲁棒性:
1、多样的视频节目源造成主播以及演播室背景多样化,这使得目前还没有一种 通用的新闻主播检测方法;
2、先进的视频编辑技术使得镜头边界转换形式多样化,如:切变,溶解和淡入 淡出等,导致目前并未有通用的方法能够实现准确和自动地提取完整的镜头单元。

发明内容

本发明的目的是克服现有的新闻主播检测方法鲁棒性差、准确率低,计算复杂 度高,且通用性不广的缺陷,从而提供一种通用性广、准确率高,计算复杂度低的 新闻主播检测方法。
为了实现上述目的,本发明提供了一种基于时空条带模式分析的新闻主播检测 方法,按以下步骤顺序执行:
步骤10)、从经过编辑的新闻视频中截取连续的N帧作为一组,并从所截取的 连续帧组中提取平时空条带和垂直时空条带;
步骤20)、分别提取所述水平时空条带和垂直时空条带中所对应的图像特征, 得到相应的特征向量
步骤30)、通过聚类方法对所述的水平时空条带和垂直时空条带所对应的特征 向量分别聚类,并将同一类中时间连续的水平或垂直时空条带分别合并,作为类中 的新元素,得到最终的水平聚类结果和垂直聚类结果;
步骤40)、将所述的水平聚类结果中包含有最多元素的类和所述的垂直聚类结 果中包含有最多元素的类进行融合,根据融合结果检测新闻主播镜头。
上述技术方案中,在所述的步骤10)中,提取水平时空条带是指:
从所述的连续帧组中提取各连续图像帧水平方向的同一行象素,并将所提取的 各行象素拼接成一幅新的图像,所得到的新图像为水平时空条带,所述水平时空条 带的长为一组连续帧组中包含的图像的帧数,宽为一帧图像的长。
上述技术方案中,在所述的步骤10)中,提取垂直时空条带是指:
从所述的连续帧组中提取各连续图像帧垂直方向的同一列象素,并将所提取的 各列象素拼接成一幅新的图像,所得到的新图像即为垂直时空条带,所述垂直时空 条带的长为一组连续帧组中包含的图像的帧数,宽为一帧图像的宽。
上述技术方案中,在所述的步骤10)中,所述N的值为25的整数倍。
上述技术方案中,在所述的步骤20)中,所述的图像特征为颜色特征与纹理特 征。
在提取图像的颜色特征时,可在颜色空间RGB(Red,Green,Blue;红绿蓝三 原色)或HSV(Hue,Saturation,Value;色调/饱和度/纯度色彩模型)或HIS(Hue, Saturation,Intensity;色调/饱和度/亮度色彩模型)或YUV(Y:亮度信号;U和V: 色差信号)或Lab(L:亮度信号;a和b:色差信号)中实现。
在所述的颜色空间HSV中提取颜色特征时,包括以下步骤:
步骤21-1)、将图像的RGB值转化为色度值、饱和度值和亮度值;
步骤21-2)、对图像的色度值、饱和度值和亮度值分别进行等级量化;
步骤21-3)、增大色调的关注度,并将等级量化后的三维向量通过线性组合转 换成为一个整数值,每个数值代表一个颜色分段;
步骤21-4)、将图像中的每个象素都进行量化后,提取图像的颜色特征。
在所述的步骤21-4)中,提取图像的颜色特征是指:首先将整个图像平均划分 为4*4的小,然后将所有小块组合为5个大的分块,分别对应上下左右和中间部 分,对不同的分块,在提取颜色特征时有以下不同的实现方法:
对上下左右四个板块各提取三维的颜色矩,所述三维的颜色矩包括颜色的一阶 矩、二阶矩和三阶矩;
对中间板块提取量化为32级的直方图;
对整幅图像还要提取用于描述图像全局颜色特征的颜色的三阶矩。
提取图像的纹理特征是指:通过对整幅图像提取边缘直方图来描述纹理特征。
上述技术方案中,在所述的步骤30)中,所述的聚类方法采用K-mean聚类方 法。
上述技术方案中,所述的步骤40)具体包括以下步骤:
步骤41)、计算所述的水平聚类结果中包含有最多元素的类和所述的垂直聚类 结果中包含有最多元素的类中对应镜头的相似度;
步骤42)、根据所述的镜头相似度计算结果,判断水平聚类和垂直聚类中的两 个镜头的相似度是否大于预先设定的第一阈值,如果是,则两个镜头为类中的对应 元素,否则为非对应元素;
步骤43)、计算所述的水平聚类结果中包含有最多元素的类和所述的垂直聚类 结果中包含有最多元素的类的相似度;
步骤44)、根据步骤43)得到的水平聚类结果中包含有最多元素的类和垂直聚 类结果中包含有最多元素的类的相似度计算结果,判断两个类的相似度是否大于预 先设定的第二阈值,如果是,则将所述的两个类进行融合,作为新闻主播镜头对应 的类,如果两个类的相似度小于或等于预先设定的第二阈值,则视频不具有明显的 新闻视频结构,无须提取新闻主播镜头。
在所述的步骤41)中,计算对应镜头的相似度是指:计算对应镜头在时域上相 交部分时间长度占总时间长度的比例,若相似度的计算结果小于零,则修正为零。
在所述的步骤43)中,计算类的相似度是指:通过计算两个类中各元素间的相 似度总和来计算两个类的相似度。
在所述的步骤44)中,两个类进行融合是指:如果一个类中的元素在另一个类 中不存在步骤42)所述的对应元素,则将该元素作为融合后的类的一个新的元素, 如果两个类存在步骤42)所述的对应元素,则将对应元素进行合并,并将两个对应 元素的最早开始时间和最晚结束时间作为合并后元素的起始时间。
所述第一阈值的值为0.5,所述第二阈值的值为0.5。
本发明的优点是对各类新闻视频主播检测准确率高,通用性强,计算复杂度低, 避免了现有方法过于依赖准确的镜头分割和其他模态信息的缺点。
附图说明
图1为本发明的基于时空条带模式分析的新闻主播检测方法的流程图
图2(a)为原始视频结构的示意图;
图2(b)是对图2(a)的原始视频结构提取水平时空条带的示意图;
图2(c)是对图2(a)的原始视频结构提取垂直时空条带的示意图;
图3是本发明实施例中基于固定分块的图像颜色特征提取方法的示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细描述:
如图1所示,本发明的基于时空条带模式分析的新闻主播检测方法包括以下步 骤:
步骤10、从经过编辑的新闻视频中截取连续的N帧作为一组,并从所提取的连 续帧组中提取水平时空条带和垂直时空条带。在本步骤中,在提取水平时空条带时, 如图2(a)、图2(b)所示,提取每组中连续的各帧图像水平方向的同一行象素, 并将所提取的各行象素拼接成一幅新的图像,所得到的新图像即为水平时空条带。 水平时空条带的长为一组中包含图像的帧数,宽为视频中一帧图像的长。在提取垂 直时空条带时,如图2(a)、图2(c)所示,提取一组中连续的每帧图像垂直方向 的同一列象素,并将所提取的各列象素拼接成一幅新的图像,所得到新图像即为垂 直时空条带,垂直时空条带的长为一组中包含的图像的帧数,宽为视频中一帧图像 的宽。
在上述提取水平时空条带和垂直时空条带时,应当提取连续帧组中各个帧的相 同行数或相同列数的象素,但所提取的象素行或象素列的位置可以根据需要选择, 在本实施例中,可选择帧图像中的中间行或中间列。
在本步骤中,所截取的连续N帧的N值可根据需要设定,在本实施例中,N值 可取50。本步骤通过对连续帧的截取,避免了对镜头分割准确检测的依赖。经过编 辑的新闻视频经过本步骤后,可得到一系列水平时空条带和垂直时空条带。
步骤20、提取水平时空条带和垂直时空条带中所对应的图像特征。由于新闻主 播镜头中,新闻主播和演播室背景的变化相对新闻故事镜头中的人物和背景变化较 小,因此新闻主播镜头对应时空条带的颜色和纹理仅有微小变化,而新闻故事单元 对应的时空条带的颜色和纹理变化更为明显,因此采用图像的颜色和纹理特征来表 征图像有利于后续的图像聚类操作。从上述的步骤10可知,水平时空条带和垂直时 空条带都是拼接而成的新图像,对它们做图像特征的提取具体包括以下步骤:
步骤21、提取图像的颜色特征。在提取图像的颜色特征时,可在不同的颜色空 间内进行,如常见的RGB,HSV,HIS,YUV,Lab等皆可。在本实施例中,以 HSV(Hue色度,Saturation饱和度,Value亮度)空间为例,实现对颜色特征的提取。 在提取颜色特征时,包括:
步骤21-1、将图像的RGB值转化为色度、饱和度和亮度值;
步骤21-2、将图像的色度、饱和度和亮度值分别进行等级量化;由于HSV空间 中,每个象素对应一个三维向量,分别表示所在象素点的色度、饱和度和亮度,但 三个值的单位和变化范围都不相同,因此需要分别做等级量化。
步骤21-3、根据视觉研究的结果增大色调的关注度,并将等级量化后的三维向 量通过线性组合转换成为一个0到31之间的整数值,每个数值代表一个颜色分段。
步骤21-4、每个象素都进行量化后,提取图像的颜色特征。提取图像颜色特征 的具体实现如图3所示,将图像平均划分为4*4的小块,然后按图3所示组合为5 个大的分块,分别对应上下左右和中间部分(ABCD分别对应上、左、下、右四个部 分,E对应中间部分,粗线条表示这些大的分块的边界)。对不同的分块,在提取颜 色特征时有不同的实现方法:
对上下左右四个板块各提取3维的颜色矩(颜色的一阶矩、二阶矩和三阶矩);
对中间板块提取量化为32级的直方图;
对整幅图像还要提取用于描述图像全局颜色特征的颜色的三阶矩。
步骤22、提取图像的纹理特征;在提取图像的纹理特征时,通过对整幅图像提 取边缘直方图来描述纹理特征。
上述步骤21-4提取颜色特征和步骤22提取纹理特征的具体实现是成熟的现有 技术,在参考文献《DK Park,YS Jeon,CS Won,and S.-J.Park,Efficient use of local edge histogram descriptor,Proc.of the ACM Workshops on Multimedia,Los Angeles, CA,Nov.2000》中对纹理特征的提取有详细的记载。
步骤23、将每个时空条带所有图像特征结合起来形成特征向量,来表征该时空 条带的特征。
经过本步骤的上述操作,每个时空条带形成了一个用于表示该条带特征的高维 向量,一段新闻视频则根据步骤10中所提取的时空条带形成多个特征向量。
步骤30、通过聚类方法对水平时空条带和垂直时空条带所对应的特征向量分别 聚类,并将同一类中时间连续的水平或垂直时空条带分别合并,作为类中的新的元 素。
一般而言,新闻视频具有以下结构特征:
①新闻主播镜头经常在新闻视频中周期性出现;
②各新闻主播镜头常具有很高的相似度;
③新闻主播镜头对应的类应具有最多的元素,因为主播镜头常常具有很高的视 觉相似度,而其他镜头仅与同一故事单元中的时域相邻的镜头相似。
根据新闻视频的上述结构特征,本发明制定如下规则:新闻主播镜头是新闻视 频中唯一一类在整个节目中具有很多与其具有相似视觉内容的镜头。由上述规则可 知,水平和垂直聚类结果中分别含有最多元素的类就是包含新闻主播镜头的类,其 中,每个时空条带对应视频中的一个镜头。用ClusterMax H和ClusterMax V分别表示 水平和垂直方向聚类结果中包含元素最多的类,它们可以用下式表示:
Cluster Max H = Shot 1 H , Shot 2 H , . . . . . . Shot R H
Cluster Max V = Shot 1 V , Shot 2 V , . . . . . . Shot S V
其中R和S分别表示水平/垂直聚类结果中包含元素最多的类的元素数。
此外,在新闻故事镜头中存在某些人物长期出现在镜头前且变化的情况,因此 为了防止此类情况与新闻主播镜头间的混淆,在本步骤中把那些同一类中时间连续 的水平或垂直时空条带分别合并,作为类中的新的元素。
本步骤做聚类操作时可采用K-mean聚类方法。
步骤40、将步骤30中所得到的水平聚类结果中包含有最多元素的类和垂直聚 类结果中包含有最多元素的类进行融合,根据融合结果检测新闻主播镜头。在以下 描述中,用ClusterMax H表示水平聚类结果中包含有最多元素的类,用ClusterMax V表 示垂直聚类结果中包含有最多元素的类,本步骤的具体操作如下:
步骤41、计算ClusterMax H和ClusterMax V中对应镜头的相似度,在计算镜头相似 度时,通过计算Shoti H和Shotj V在时域上相交部分时间长度占总时间长度的比例来计 算两个镜头的相似度。相似度的计算公式如下:
Sim = Shot i H , Shot j V = Min ( T End H , T End V ) - Max ( T Start H , T Start V ) Max ( T End H , T End V ) - Min ( T Start H , T Start V )
其中TStart H,TEnd H,TStart V,TEnd V分别表示Shoti H和Shotj V的开始时间和结束时间,Min 和Max分别表示取最小值和最大值操作。如果两个公式中计算出的相似度小于0, 则修正为0。
步骤42、根据步骤41得到的镜头相似度计算结果,判断两个镜头Shoti H与Shotj V 的相似度Sim<Shoti H,Shotj V>是否大于预先设定的阈值Th1,如果是,则这两个镜 头称为类中的“对应”元素,否则称为“非对应”元素。
步骤43、计算ClusterMax H和ClusterMax V的相似度,在计算相似度时,通过计 算ClusterMax H和ClusterMax V中各元素间的相似度的总和来计算两个类的相似度。其 计算公式如下:
Sim Cluste r Max H , Cluster Max V = 1 Min ( R , S ) Σ i = 1 R Σ j = 1 S Sim Shot i H , Shot j V
步骤44、根据步骤43得到的ClusterMax H和ClusterMax V的相似度计算结果,判 断ClusterMax H和ClusterMax V的相似度Sim<ClusterMax H,ClusterMax V>是否大于预先设 定的阈值Th2,如果是,则融合类ClusterMax H和ClusterMax V,作为最终新闻主播对 应的类,如果ClusterMax H和ClusterMax V的相似度Sim<ClusterMax H,ClusterMax V>小于 或等于预先设定的阈值Th2,此时表示该视频不具有明显的新闻视频结构,无须提 取新闻主播镜头。
在上述的融合过程中,如果ClusterMax H或ClusterMax V中一个元素在另一类中不 存在步骤42中所得到的“对应”元素,则将该元素作为最终类的一个新的元素,如 果两个类中存在“对应”元素,则将“对应”元素合并,将两个对应元素的最早的 开始时间和最晚的结束时间作为新元素的起始时间。
在步骤42中所采用的阈值Th1的值可取0.5,在步骤44中所采用的阈值Th2的 值也可取0.5,但根据实际情况这两个阈值可以做适当的调整。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管 参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明 的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均 应涵盖在本发明的权利要求范围当中。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈