随着视频压缩技术和网络技术的发展,各种网络多媒体服务,如多点 视频会议、
视频点播、
数字电视等,不断出现。为了支持各种服务,视 频
服务器必须适应客户端与传输信道的异质性,从而要求其具有视频码 流转换的功能。码流转换包括语法转换、(空间和时间)
分辨率转换、码 率转换等。本发明针对码率转换,即把已有的视频码流根据传输信道的 实际带宽限制转换为与之相适应的更低码率的码流。
目前视频码流转换有许多方法,可以概括为三类体系结构:(1)级联
像素域转换;(2)快速级联像素域转换;(3)DCT(离散余弦变换)域转 换。级联像素域转换需要经过完全解码,再重新编码的过程,计算量大, 转换速度很慢。DCT域转换直接在DCT域上进行,无需DCT/IDCT过程, 计算量很小,但是它的灵活性受到限制,当要求改变
运动矢量时很难实 现,不易实现扩展。快速级联像素域转换是级联像素域转换的简化版, 由于不需要进行
运动估计,因此转换速度明显高于级联像素域转换;但 有由于要进行DCT/IDCT过程,因此转换速度要低于DCT域转换。
目前已有视频码流转换没有很好地利用人类视觉系统(HVS)特性, 导致所转换成的低码率码流不能很好地与HVS特性一致,主观
质量较差, 转换效率低。
为了更好地理解本发明,首先对Fovea视觉模型给予说明。根据对HVS 研究表明:人眼对于视觉信息的
采样是非均匀的。一般情况下,人眼观 看一幅图像时有一个注视点,可称为Fovea点,在该点处人眼具有最高
感知清晰度。以该点为中心,向周围延伸人眼感知清晰度快速下降。依 据这样的特性,人们给出可应用于视频图像编码的Fovea视觉模型:给 定Fovea点,对于图像中的任意一点(x,y),它的截止频率(人眼的最大 可感知频率)fc(x,y)由下面的公式确定:
d=(x-xf)2+(y-yf)2
B[i,V]=min{r2:[fc(r,V)×8]=i,r∈Z+}
其中,(xf,yf)代表图像中Fovea点坐标,V代表视点到图像的距离,模 型参数k=13.75,R代表以Fovea点为中心的圆形区域的半径,对该区域给 予最高感知清晰度(即fc=1.0)的编码。在图像中频率高于截止频率 fc(x,y)的信息不能被人眼感知。
把一
帧图像分为8个区域,每个区域中具有相同的截止频率,不同的 区域截止频率不同,截止频率取值范围是:
图1给出了本发明的结构示意图,图中缩写的意思是:VLD-变字长解 码、VLC-变字长编码、DCT-离散余弦变换、IDCT-反离散余弦变换、Q-量 化、IQ-反量化、MV-运动矢量、MC-
运动补偿、FM-帧存储。鉴于快速级 联像素域转换的体系结构具有计算量较小,结构灵活,便于扩展的优点, 本发明基于该结构,并依据Fovea视觉模型进行了相应的改进。本发明 主要由以下几个部分构成:
●部分解码
对输入的码率为R1的MPEG
视频流进行变字长解码(VLC),之后根据 码流中的量化因子信息进行反量化(IQ1),得到每个8×8块DCT系数。
●DCT系数截断
依据Fovea视觉模型,在8×8 DCT块内高于截止频率的系数不能被人 主观视觉感知,如果将其去除,不会影响主观视觉质量,可以有效地提 高转换效率。DCT系数截断模块就是为实现这一目的而加入的。
可以近似认为一个8×8块具有唯一截止频率,一般取8×8块的中心 点为代表,由它的坐标计算该块的截止频率fc。一个8×8的DCT系数块 可分成8个频带,构成多分辨率表示,如图2所示。对于任意一频带m, 它的频率f(m)为:
这样基于Fovea视觉模型的DCT系数 截断方法可以如下表述:给定Fovea点,对于一个8×8的DCT块,其截止 频率为fc,它的一个DCT系数为F(u,v),该系数属于频带m,那么:
●码率控制
要把MPEG视频码流的码率由R1降为R2,就要运用码率控
制模块重新 确定各宏块的量化因子,根据量化因子对DCT系数重新量化。本发明依 据Fovea视觉模型对原有的MPEG TM5码率控制方法进行改进,构成新的 基于Fovea视觉模型的码率控制方法,其主要步骤如下:
(1)图像帧级目标编码比特数分配
具体方法与TM5方法相同,不再详细阐述。
(2)宏块级目标编码比特数分配
假设一帧图像的编码比特数为R,在此图像中共有M个宏块,每个宏 块中有N个8×8块。原有的TM5方法对每个宏块平均分配目标编码比特 数,即对于任一个宏块k,它被分配的目标编码比特数为
经改 进后,宏块的目标编码比特数根据截止频率的大小比例来分配(宏块内 的截止频率越高,被分配的目标编码比特数应越多),即:
其中 表示宏块k内的N个8×8块的截止频率的平方和, 为图像内所有8×8块的截止频率的平方和。
(3)码率控制
根据虚拟缓冲区(VBV)的满度,确定各宏块的参考量化因子Qi。此 处采用的方法与TM5相同,不再详细阐述。
(4)自适应量化
在TM5方法中,根据宏块的空间活动性来自适应确定它的最终量化因 子,而宏块的空间活动性是该宏块内所有8×8块空间活动性的最小值, 其中8×8块空间活动性是由块内的信息变化率V来确定,即:
其中
其中pi表示块内第i个像素的
亮度值。在压缩域上这样的信息无法得到, 为此本发明提出了DCT块空间活动性V_DCT的计算方法:
其中,此DCT块内低于此块截止频率的所有交流系数的个数为N,Fi表 示这N个系数中的一个的值。
根据宏块内所有8×8 DCT块空间活动性宏块的空间活动性,确定该 宏块的空间活动性(经规范化后)NVi,那么该宏块的最终量化因子mqi 为:
mqi=Qi×NVi
●再编码
根据各宏块的最终量化因子mqi对该宏块内的所有DCT块的系数进行 再量化(Q2),之后再进行变字长编码(VLC),生成码率为R2的MPEG视 频码流。
●误差漂移补偿
以上过程即可以实现MPEG视频码流转换。然而由于对DCT系数的再 量化(Q2)会引起编码端和解码端的参考图像的不匹配,导致误差漂移, 影响转换后所生成的码流的图像质量。为此需要误差漂移补偿模块来避 免误差漂移。
把再量化前的DCT系数与再量化后的DCT系数的差值进行IDCT变换, 得到像素域系数,送入
帧存储器中。然后根据部分解码所得到的运动矢 量(MV)信息,在像素域进行运动补偿(MC),并将所得的预测值利用DCT 变换转换成DCT系数,反馈回去与原有的预测帧的残差DCT系数相加, 从而实现误差漂移补偿。
由于要进行IDCT及DCT变换,因此与DCT域转换相比,运算量较大。 但是根据Fovea视觉模型,对一部分DCT系数可以不予计算,据此本发 明提出了DCT/IDCT快速计算方法,显著减小DCT/IDCT计算量。原有的DCT 及IDCT计算公式分别为:
设一个8×8块的截止频率为
那么在该块内所有高于截 止频率的高频DCT系数不被人眼感知,可以不予处理,即赋值为0。因此 在对该块进行DCT/IDCT变换时,只计算低于截止频率的DCT系数,从而 DCT及IDCT计算公式变为:
最后,需要指出在本发明中,Fovea点的选择可以由用户通过
鼠标用 交互的方式实现。