一种应用于视频对象检索的对象标志位高效编码方法专利检索-运动补偿预测视听技术与设备专利检索查询-专利查询网

一种应用于视频对象检索的对象标志位高效编码方法

阅读：1029发布：2020-10-27

专利汇可以提供一种应用于视频对象检索的对象标志位高效编码方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种应用于视频对象快速浏览的对象标志位高效编码的方法，该方法基于对象区域信息、语义信息生成对象标志位来存储监控视频。首先根据视频对象分割结果，公开了一种基于区域生长的帧内对象区域标记位与基于运动估计的帧间对象区域标志位编码方案。提出一种基于对象细节描述的新的码流格式，将提取视频对象的语义信息一并写入码流进行存储。本发明将高复杂度的视频分析转移到监控前端，通过前端分析描述、标记视频对象，进一步基于H.264帧内、帧间的编码特性对标志位进行编码，通过减少对象标志位编码代价从而降低了监控视频的存储代价，为监控后端基于标志位高效率地获得感兴趣对象信息成为可能。，下面是一种应用于视频对象检索的对象标志位高效编码方法专利的具体信息内容。

权利要求

1.一种基于对象标志位高效编码技术的视频对象快速浏览框架，其特征在于，所述方法包括：
基于H.264视频编码框架对原始视频编码的同时进行视频分析；
基于视频分析结果相关的对象区域信息、语义信息设定对象标志位；
基于区域生长的帧内对象区域标记位编码算法，能无损编码帧内标志位；
基于运动估计、像素精度运动补偿的帧间对象区域标志位编码方案，提高帧间标志位编码性能；
基于对象标志位存储或传输一种应用于视频检索的监控视频。
2.根据权利要求1所述的基于区域生长的帧内对象区域标记位编码算法，根据视频分析的对象外接矩形框进行运动对象标记，采用压缩域块划分信息将矩形框内的宏块进行划分：
子块表示为Ri＝{sb1，sb2，…sbN}，子块的中心坐标表示为集合Ce＝{sbc1，sbc2，…sbcN}。以矩形框中心(对象中心)为坐标原点设定水平、垂直坐标轴。采用归一化各个子块中心到矩形框中心距离：
3.根据权利要求1所述的基于运动估计、像素精度运动补偿的帧间对象区域标志位编码算法，先对每个子块的像素点进行标记：
待标记当前块smb中所有像素点基于像素精度进行帧间预编码，将参考帧中运动对象的外接矩形框中的子块分为三类：前景区域(F)、背景区域(B)、边界区域(C)，接下来根据运动矢量MV(mvx，mvy)进行预测，预测策略如下：
其中smbx、smby分别是待编码当前块左上角顶点的横、纵坐标，x、y是待预测像素点在当前子块中相对于左上顶点的横、纵坐标，用来描述
该像素点在预测之后的标记状态。
4.根据权利要求3所述对每个子块的像素点标记后，判定每个子块的标志位：
其中，引入阈值Thf、Thb来判定当前子块标志位状态，本发明将标志位为2的定义为未经证实块的标志位，按帧内扫描方式进行编码。
5.根据权利要求1所述，基于对象标志位存储或传输一种应用于视频检索的监控视频：
首先提取运动对象的RGB颜色模型，经过一种线性变换得到HSV颜色空间模型，对转换后的HSV模型进行颜色量化，将h，s，v三个分量按人眼颜色感知进行非等间隔的量化，通过对HSV颜色模型的大量分析及比较，本文将色调h划分成7份，饱和度s分成3份，亮度v分成3份，根据色彩的不同范围进行量化，量化后的色调、饱和度和亮度值分别为H，S，V：
按照以上的量化级，把3个颜色分量转化为一维特征向量，即：
F＝HQsQv+SQv+V
式中，Qs和Qv分别是s和V的量化级数。
解码端我们输入某一特征对象时候，根据下列式子提取其HSV颜色一维特征向量F′：
将F′与F进行对比分析，若认为该视频对象为成功检索的对象，并对
其进行解码。

说明书全文

一种应用于视频对象检索的对象标志位高效编码方法

【技术领域】

[0001] 本发明涉及对象形状、语义编码与视频存储领域，特别涉及一种基于对象细节描述的对象标志位高效编码方法。【背景技术】

[0002] 近些年数字视频监控得到了学术界和工业界的广泛关注，并对监控视频存储及其应用展开了深入研究。监控视频的显著特征是场景相对固定，许多研究工作基于这样的特点展开，其中主要包括监控视频高效存储于快速浏览技术。

[0003] 视频快速浏览技术主要包括视频摘要与视频检索技术。视频摘要又称视频浓缩，是对视频内容的一个简单概括，以自动或半自动的方式，先通过运动目标分析，提取运动目标，然后对各个目标的运动轨迹进行分析，将不同的目标拼接到一个共同的背景场景中，并将它们以某种方式进行组合。一方面，这样的拼接组合方式一定程度上会出现对象重叠，不能深度透析每个感兴趣的对象；另一方面，视频摘要需要进行非常复杂的视频分析过程，监控后端的处理能力有限一般不能满足海量视频处理的需要。而传统的视频、图像检索技术是从大量的视频数据中找到所需的视频片段或图片，根据所给样例或是特征描述，系统自动的找到所匹配的视频片段点，通常适用于在新闻中检索感兴趣的事件、电影中检索喜欢的情节、体育节目中检索喜爱的体育运动等。

[0004] 在监控视频应用当中，当监控人员只关心某一特征对象时，如何能整个监控视频的此类特征对象短时间内呈现出来，针对后端处理能力有限的问题，能不能将高复杂度的视频分析过程放在前端，存储包含视频分析内容的监控视频，后端监控人员直接按需获取感兴趣对象的视频？从用户角度讲，通过什么样的技术手段来大大减少了浏览用户不感兴趣视频对象的时间从而实现视频的快速浏览；从系统实现角度讲，通过什么样的技术手段减轻后端处理器的任务将复杂度转移到前端？本发明旨在为上述技术难题提供一种解决方案。【发明内容】

[0005] 首先根据视频对象分割结果，公开了一种基于区域生长的帧内对象区域标记位与基于运动估计的帧间对象区域标志位编码方案。提出一种基于对象细节描述的新的码流格式，将提取视频对象的语义信息一并写入码流进行存储。本发明将高复杂度的视频分析转移到监控前端，通过前端分析描述、标记视频对象，进一步基于H.264帧内、帧间的编码特性对标志位进行编码，通过减少对象标志位编码代价从而降低了监控视频的存储代价，为监控后端基于标志位高效率地获得感兴趣对象信息成为可能。

[0006] 通过对象标志位准确地描述对象区域信息等相关语义信息并进行高效存储，解码端根据用户感兴趣的对象信息解码出检索视频，大大了删减视频的冗余内容，从而基于用户感兴趣信息对海量监控视频进行快速浏览。对象标志位主要描述对象区域信息与对象语义信息，而语义信息不仅包括颜色、纹理、形状、等低层语义信息，而且包括对象类别、行为特征等等高层语义信息。本发明旨在说明一种应用于视频检索的基于对象标志位的编码框架，故以对象颜色标志位作为对象语义信息为例做分析说明。

[0007] 为了实现本发明的目的，根据本发明的一个方面，本发明通过改变帧内对象区域块划分扫描方式，进一步基于运动估计、运动补偿引入对象区域标志位帧间编码技术。

[0008] 1)基于区域生长的区域标志位帧内编码：

[0009] 根据权利要求2，对象外接矩形框将运动对象进行标记，并采用压缩域块划分信息将矩形框内的宏块进行划分，这些子块可以表示为Ri＝{sb1，sb2，…sbN}，子块的中心坐标表示为集合Ce＝{sbc1，sbc2，…sbcN}。以矩形框中心(对象中心)为坐标原点设定水平、垂直坐标轴。采用归一化各个子块中心到矩形框中心距离：

[0010]

[0011] 块划分包含矩形框的中心点，这种情况下，disn＝0；块划分位于矩形框的水平中间线或垂直中间线上：这种情况下，dx(*)和dy(*)中有一个为0；块划分与水平中线和垂直中线都不相交：这种情况下，dx(*)和dy(*)均不为0。

[0012] 将disn(n＝1，2，…，N)按加权距离的升序对矩形框中待标记的块进行生长遍历。相对于传统的光栅扫描，本发明公开的算法将使得标记为1的前景块更加集中在遍历块划分的前部，标记为0的背景块更加集中在遍历块划分的后部。对二进制标志位的前缀与后缀采用游程编码，中间直接传输无损的无损压缩方法，可以在原方法的基础上进一步降低区域标志位的编码开销。

[0013] 2)基于运动估计的区域标志位帧间编码

[0014] H.264编码框架对于不同的子块采取不同的预测策略。因此在帧间编码帧中，为了更好的利用时域相关性，对象区域标志位利用码流中现存的基于块划分的预测模式、MV和参考帧进行帧间编码。

[0015] 待标记当前块smb中所有像素点基于像素精度进行帧间预编码。首先，将参考帧中运动对象的外接矩形框中的子块分为三类：前景区域(F)、背景区域(B)、边界区域(C)，其中边界区域宽度为1个像素。接下来根据视频编码运动估计过程输出的运动矢量MV(mvx，mvy)进行预测，具体预测策略如下：

[0016]

[0017]

[0018]

[0019] 其中smbx、smby分别是待编码当前块左上角顶点的横、纵坐标，x、y是待预测像素点在当前子块中相对于左上顶点的横、纵坐标。用来描述该像素点在预测之后的标记状态。根据权利要求4，进一步根据子块中所有像素点的状态来确定该子块的标志位状态：

[0020] 1)如果当前子块中所有像素点全部标记为前景区域(F)，则将该子块的标志位置为1；

[0021] 2)如果当前子块中所有像素点全部标记为背景区域(B)，则将该子块的标志位置为0；

[0022] 3)如果当前子块中像素点分别有标记为前景区域(F)、背景区域(B)、边界区域(C)，则按如下法则进行判断标志位：

[0023]

[0024] 其中，引入阈值Thf、Thb来判定当前子块标志位状态。本发明将标志位为2的定义为未经证实块的标志位，按帧内扫描方式进行编码。

[0025] 根据权利要求5，首先提取运动对象的RGB颜色模型，经过一种线性变换得到HSV颜色空间模型。为了减少高维特征对计算以及对象信息标记带来的不便，本文算法对转换后的HSV模型进行颜色量化，将h，s，v三个分量按人眼颜色感知进行非等间隔的量化，通过对HSV颜色模型的大量分析及比较，本文将色调h划分成7份，饱和度s分成3份，亮度v分成3份，根据色彩的不同范围进行量化，量化后的色调、饱和度和亮度值分别为H，S，V。根据量化级，把3个颜色分量转化为一维特征向量：

[0026] F＝HQsQv+SQv+V

[0027] 这样，H，S，V3个分量就在一维向量上分布开来，取不同的权重减少图像亮度y和饱和度S对检索结果的影响，对颜色分布不同的对象能有效地检索出来。【附图说明】

[0028] 结合参考附图及接下来的详细描述，本发明将更容易理解，其中同样的附图标记对应同样的结构部件，其中：

[0029] 图1为本发明中一种应用于视频对象检索的对象标志位高效编码方法系统实现框图；

[0030] 图2基于中心扩展的区域标志位帧内编码示意图，其中(a)-(d)为区域生长流程；

[0031] 图3(a)为基于像素精度进行帧间预编码示意图，(b)为原始视频对象，(c)为区域划分示意图。【具体实施方式】

[0032] 为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

[0033] 本发明的目的在于提供一种视频对象标志高效编码框架。图1示出了本发明中的对象标志位高效编码方法系统框架，请参考图1，所述方法100是：步骤102，编码端通过视频分析得到对象区域信息与语义信息，分别对应对象区域标志位与对象语义标志位。建立混合高斯模型运动对象掩膜，根据视频编码过程中的块划分方式生成对象区域标志位。另一方提取运动对象的RGB颜色模型：

[0034] 首先提取运动对象的RGB颜色模型，经过一种线性变换得到HSV颜色空间模型，对转换后的HSV模型进行颜色量化，将h，s，v三个分量按人眼颜色感知进行非等间隔的量化，通过对HSV颜色模型的大量分析及比较，本文将色调h划分成7份，饱和度s分成3份，亮度v分成3份，根据色彩的不同范围进行量化，量化后的色调、饱和度和亮度值分别为H，S，V：

[0035]

[0036] 按照以上的量化级，把3个颜色分量转化为一维特征向量，即：

[0037] F＝HQsQv+SQv+V

[0038] 式中，Qs和Qv分别是s和V的量化级数，本文取Q＝4，Q＝2，上式可表示为：

[0039] F＝8H+2S+V

[0040] 这样，H，S，V3个分量就在一维向量上分布开来，L的取值范围为[0，1，2，…，53]，其中色调H取的权重为8，饱和度S取的权重为2，亮度y取的权重为1。这就减少了图像亮度y和饱和度S对检索结果的影响，对颜色分布不同的图像能很好地检索出来。按照上面的方法将颜色空间划分为54种颜色，这54种代表色的量化方法有效地压缩了颜色特征，并能较好地符合人眼对颜色的感知。

[0041] 步骤104，视频分析的同时对原始视频采用H.264编码器进行编码，提取视频编码过程中运动补偿的块划分模式、MV信息、参考帧信息。

[0042] 步骤106，对象标志位采取帧内、帧间编码。帧内区域标志位采用基于区域生长的方法，帧间标志位基于像素精度进行预测编码。

[0043] 1)对于帧内对象，我们采取基于区域生长的区域标志位帧内编码：

[0044] 对象外接矩形框将运动对象进行标记，并采用压缩域块划分信息将矩形框内的宏块进行划分，这些子块可以表示为Ri={sb1，sb2，…sbN}，子块的中心坐标表示为集合Ce＝{sbc1，sbc2，…sbcN}。以矩形框中心(对象中心)为坐标原点设定水平、垂直坐标轴。采用归一化各个子块中心到矩形框中心距离：

[0045]

[0046] 块划分包含矩形框的中心点，这种情况下，disn＝0；块划分位于矩形框的水平中间线或垂直中间线上：这种情况下，dx(*)和dy(*)中有一个为0；块划分与水平中线和垂直中线都不相交：这种情况下，dx(*)和dy(*)均不为0。

[0047] 将disn(n＝1，2，…，N)按加权距离的升序对矩形框中待标记的块进行生长遍历，对二进制标志位的前缀与后缀采用游程编码，中间直接传输无损的无损压缩方法。

[0048] 2)对于帧间对象，采用基于四分之一像素精度进行帧间预编码：

[0049] 首先，将参考帧中运动对象的外接矩形框中的子块分为三类：前景区域(F)、背景区域(B)、边界区域(C)。接下来根据视频编码运动估计过程输出的运动矢量MV(mvx，mvy)进行预测，具体预测策略如下：

[0050]

[0051]

[0052]

[0053] 其中smbx、smby分别是待编码当前块左上角顶点的横、纵坐标，x、y是待预测像素点在当前子块中相对于左上顶点的横、纵坐标。用来描述该像素点在预测之后的标记状态，进一步根据子块中所有像素点的状态来确定该子块的标志位状态：

[0054] 1)如果当前子块中所有像素点全部标记为前景区域(F)，则将该子块的标志位置为1；

[0055] 2)如果当前子块中所有像素点全部标记为背景区域(B)，则将该子块的标志位置为0；

[0056] 3)如果当前子块中像素点分别有标记为前景区域(F)、背景区域(B)、边界区域(C)，则按如下法则进行判断标志位：

[0057]

[0058] 其中，引入阈值Thf＝2、Thb＝4来判定当前子块标志位状态。本发明将标志位为2的定义为未经证实块的标志位，按帧内扫描方式进行编码。

[0059] 步骤108，将对象标志位信息与原始视频编码的码流进行融合得到视视频内容数据库。将对象标志位信息写入图像参数集扩展层或者片头区域，从而形成具有视频对象细节描述的监控视频码流。

[0060] 步骤110，根据输入的检索样例与视频数据库内容匹对。解码端我们输入某一特征对象时候，根据下列式子提取其HSV颜色一维特征向量：

[0061] F′＝8H+2S+V

[0062] 将F′与F进行对比分析，若就认为该视频对象为成功检索的对象，并对其进行解码。背景部分采取主背景选择法，因为监控视频场景的背景变化很小，所以我们采取隔一个周期解码一个背景作为下一个周期的主背景。通过上述方法最终得到检索到的的感兴趣的对象视频，从而实现了海量视频的快速浏览。

[0063] 上述说明已经充分揭露了本发明的具体实施方式。需要指出的是，熟悉该领域的技术人员对本发明的具体实施方式所做的任何改动均不脱离本发明的权利要求书的范围。相应地，本发明的权利要求的范围也并不仅仅局限于所述具体实施方式。

标题	发布/更新时间	阅读量
多次迭代运动矢量细化	2020-05-08	825
利用可选插值滤波器进行视频运动补偿的装置和方法	2020-05-08	798
一种视频帧预测方法、装置及终端设备	2020-05-12	643
一种光场焦点堆栈图像序列编、解码方法、装置及系统	2020-05-11	725
一种针对多路h.264视频会议的GPU解码方法	2020-05-12	475
一种基于块编码特性的3D视频错误隐藏方法	2020-05-08	129
BIO中的时间梯度计算的改善	2020-05-08	622
从仿射运动预测的非仿射块	2020-05-12	176
计算运动矢量预测值	2020-05-12	666
一种帧间预测方法和装置	2020-05-12	432

一种应用于视频对象检索的对象标志位高效编码方法

一种应用于视频对象检索的对象标志位高效编码方法

该功能需要专业版企业版VIP权限，您可以：