引入视觉模型的MPEG视频码流码率转换方法专利检索-帧内预测广播专利检索查询-专利查询网

引入视觉模型的MPEG视频码流码率转换方法

阅读：719发布：2024-01-14

专利汇可以提供引入视觉模型的MPEG视频码流码率转换方法专利检索，专利查询，专利分析的服务。并且一种引入视觉模型的MPEG视频码流码率转换方法，包括步骤：对输入的码流进行部分解码；DCT系数截断，去除高于截止频率的系数；码率控制，重新确定各宏块的量化因子；再编码。本发明在转换中巧妙地利用了Fovea视觉模型，有效地提高转换效率，产生主观质量相对更好低码率码流，并进一步减少了计算量。，下面是引入视觉模型的MPEG视频码流码率转换方法专利的具体信息内容。

权利要求

1.一种引入视觉模型的MPEG视频码流码率转换方法，包括步骤：
对输入的码流进行部分解码；
DCT系数截断，去除高于截止频率的系数；
码率控制，重新确定各宏块的量化因子；
再编码。
2.按权利要求1所述的方法，其特征在于所述的部分解码包括步骤：
对输入的视频流进行变字长解码；
根据码流中的量化因子进行反量化。
3.按权利要求1所述的方法，其特征在于所述的码率控制包括步骤：
图像帧级目标编码比特数分配；
宏块级目标编码比特数分配，根据截止频率的大小进行分配；
根据虚拟缓冲区的满度，确定各宏块的参考量化因子Qi；
自适应量化。
4.按权利要求1所述的方法，其特征在于所述的再编码包括步骤：
根据各宏块的最终量化因子，对该宏块内的所有DCT块的系数进行量化；
再进行变字长编码。
5.按权利要求1所述的方法，其特征在于还包括误差漂移补偿步骤：
把再量化前的DCT系数与再量化后的DCT系数的差值进行IDCT变换；
根据部分解码所得到的运动矢量信息，在像素域进行运动补偿；
将所得到的预测值利用DCT变换转换成DCT系数，并反馈回去与原有的预测帧的残差DCT系数相加。
6.按权利要求5所述的方法，其特征在于所述的DCT/IDCT的转换计算公式如下：

$f (i, j) = \frac{1}{4} Σ_{i = 0}^{t} Σ_{j = 0}^{t} C (u) C (v) F (u, v) \times \cos \frac{πu (2 i + 1)}{16} \cos \frac{πv (2 j + 1)}{16}$

说明书全文

技术领域

本发明涉及MPEG视频码流码率转换方法。

背景技术

随着视频压缩技术和网络技术的发展，各种网络多媒体服务，如多点视频会议、视频点播、数字电视等，不断出现。为了支持各种服务，视频服务器必须适应客户端与传输信道的异质性，从而要求其具有视频码流转换的功能。码流转换包括语法转换、(空间和时间)分辨率转换、码率转换等。本发明针对码率转换，即把已有的视频码流根据传输信道的实际带宽限制转换为与之相适应的更低码率的码流。
目前视频码流转换有许多方法，可以概括为三类体系结构：(1)级联像素域转换；(2)快速级联像素域转换；(3)DCT(离散余弦变换)域转换。级联像素域转换需要经过完全解码，再重新编码的过程，计算量大，转换速度很慢。DCT域转换直接在DCT域上进行，无需DCT/IDCT过程，计算量很小，但是它的灵活性受到限制，当要求改变运动矢量时很难实现，不易实现扩展。快速级联像素域转换是级联像素域转换的简化版，由于不需要进行运动估计，因此转换速度明显高于级联像素域转换；但有由于要进行DCT/IDCT过程，因此转换速度要低于DCT域转换。
目前已有视频码流转换没有很好地利用人类视觉系统(HVS)特性，导致所转换成的低码率码流不能很好地与HVS特性一致，主观质量较差，转换效率低。

发明内容

本发明的目的是提供一种与HVS特性一致的快速MPEG视频码流码率转换方法，在异质网络环境中传递主观质量更好的视频码流。
为了实现上述目的，一种引入视觉模型的MPEG视频码流码率转换方法，包括步骤：
对输入的码流进行部分解码；
DCT系数截断，去除高于截止频率的系数；
码率控制，重新确定各宏块的量化因子；
再编码。
本发明在转换中巧妙地利用了Fovea视觉模型，有效地提高转换效率，产生主观质量相对更好低码率码流，并进一步减少了计算量。
附图说明
图1是本发明的结构示意图；
图2是8×8 DCT系数块的多分辨率频带表示。

具体实施方式

为了更好地理解本发明，首先对Fovea视觉模型给予说明。根据对HVS 研究表明：人眼对于视觉信息的采样是非均匀的。一般情况下，人眼观看一幅图像时有一个注视点，可称为Fovea点，在该点处人眼具有最高感知清晰度。以该点为中心，向周围延伸人眼感知清晰度快速下降。依据这样的特性，人们给出可应用于视频图像编码的Fovea视觉模型：给定Fovea点，对于图像中的任意一点(x，y)，它的截止频率(人眼的最大可感知频率)fc(x，y)由下面的公式确定：

f_{c} (x, y) = \min {\frac{1}{8} : d \geq B [i, V], 1 \leq i \leq 8, i \in Z^{+}}

d＝(x-xf)2+(y-yf)2
B[i，V]＝min{r2：[fc(r，V)×8]＝i，r∈Z+}

f_{c} (r, V) = \frac{1}{1 + K \arctan (\frac{r - R}{V})}

其中，(xf，yf)代表图像中Fovea点坐标，V代表视点到图像的距离，模型参数k＝13.75，R代表以Fovea点为中心的圆形区域的半径，对该区域给予最高感知清晰度(即fc＝1.0)的编码。在图像中频率高于截止频率 fc(x，y)的信息不能被人眼感知。
把一帧图像分为8个区域，每个区域中具有相同的截止频率，不同的区域截止频率不同，截止频率取值范围是：

\frac{i}{8} (1 \leq i \leq 8, i \in Z^{+}) .

图1给出了本发明的结构示意图，图中缩写的意思是：VLD-变字长解码、VLC-变字长编码、DCT-离散余弦变换、IDCT-反离散余弦变换、Q-量化、IQ-反量化、MV-运动矢量、MC-运动补偿、FM-帧存储。鉴于快速级联像素域转换的体系结构具有计算量较小，结构灵活，便于扩展的优点，本发明基于该结构，并依据Fovea视觉模型进行了相应的改进。本发明主要由以下几个部分构成：
●部分解码
对输入的码率为R1的MPEG视频流进行变字长解码(VLC)，之后根据码流中的量化因子信息进行反量化(IQ1)，得到每个8×8块DCT系数。
●DCT系数截断
依据Fovea视觉模型，在8×8 DCT块内高于截止频率的系数不能被人主观视觉感知，如果将其去除，不会影响主观视觉质量，可以有效地提高转换效率。DCT系数截断模块就是为实现这一目的而加入的。
可以近似认为一个8×8块具有唯一截止频率，一般取8×8块的中心点为代表，由它的坐标计算该块的截止频率fc。一个8×8的DCT系数块可分成8个频带，构成多分辨率表示，如图2所示。对于任意一频带m，它的频率f(m)为：

\frac{m}{8} (1 \leq m \leq 8, m \in Z^{+}) .

这样基于Fovea视觉模型的DCT系数截断方法可以如下表述：给定Fovea点，对于一个8×8的DCT块，其截止频率为fc，它的一个DCT系数为F(u，v)，该系数属于频带m，那么：

F (u, v) = \{\begin{matrix} F (u, v) & f (m) \leq f_{c} \\ 0 & f (m) > f_{c} \end{matrix}

●码率控制
要把MPEG视频码流的码率由R1降为R2，就要运用码率控制模块重新确定各宏块的量化因子，根据量化因子对DCT系数重新量化。本发明依据Fovea视觉模型对原有的MPEG TM5码率控制方法进行改进，构成新的基于Fovea视觉模型的码率控制方法，其主要步骤如下：
(1)图像帧级目标编码比特数分配
具体方法与TM5方法相同，不再详细阐述。
(2)宏块级目标编码比特数分配
假设一帧图像的编码比特数为R，在此图像中共有M个宏块，每个宏块中有N个8×8块。原有的TM5方法对每个宏块平均分配目标编码比特数，即对于任一个宏块k，它被分配的目标编码比特数为

r^{(k)} = \frac{R}{M} .

经改进后，宏块的目标编码比特数根据截止频率的大小比例来分配(宏块内的截止频率越高，被分配的目标编码比特数应越多)，即：

r^{(k)} = \frac{Σ_{j = 0}^{N} {({f_{c}}^{(k)} (j))}^{2}}{Σ_{i = 0}^{M \times N} {(f_{c} (i))}^{2}} R

其中表示宏块k内的N个8×8块的截止频率的平方和，为图像内所有8×8块的截止频率的平方和。
(3)码率控制
根据虚拟缓冲区(VBV)的满度，确定各宏块的参考量化因子Qi。此处采用的方法与TM5相同，不再详细阐述。
(4)自适应量化
在TM5方法中，根据宏块的空间活动性来自适应确定它的最终量化因子，而宏块的空间活动性是该宏块内所有8×8块空间活动性的最小值，其中8×8块空间活动性是由块内的信息变化率V来确定，即：

V = \frac{1}{64}

Σ_{i = 0}^{64} {(p_{i} - p_{mean})}^{2},

其中

p_{mean} = \frac{1}{64} Σ_{i = 0}^{64} {p_{i}}^{2}

其中pi表示块内第i个像素的亮度值。在压缩域上这样的信息无法得到，为此本发明提出了DCT块空间活动性V_DCT的计算方法：

V_DCT = \frac{1}{N} Σ_{i = 0}^{N} {| F_{i} |}^{2}

其中，此DCT块内低于此块截止频率的所有交流系数的个数为N，Fi表示这N个系数中的一个的值。
根据宏块内所有8×8 DCT块空间活动性宏块的空间活动性，确定该宏块的空间活动性(经规范化后)NVi，那么该宏块的最终量化因子mqi 为：
mqi＝Qi×NVi
●再编码
根据各宏块的最终量化因子mqi对该宏块内的所有DCT块的系数进行再量化(Q2)，之后再进行变字长编码(VLC)，生成码率为R2的MPEG视频码流。
●误差漂移补偿
以上过程即可以实现MPEG视频码流转换。然而由于对DCT系数的再量化(Q2)会引起编码端和解码端的参考图像的不匹配，导致误差漂移，影响转换后所生成的码流的图像质量。为此需要误差漂移补偿模块来避免误差漂移。
把再量化前的DCT系数与再量化后的DCT系数的差值进行IDCT变换，得到像素域系数，送入帧存储器中。然后根据部分解码所得到的运动矢量(MV)信息，在像素域进行运动补偿(MC)，并将所得的预测值利用DCT 变换转换成DCT系数，反馈回去与原有的预测帧的残差DCT系数相加，从而实现误差漂移补偿。
由于要进行IDCT及DCT变换，因此与DCT域转换相比，运算量较大。但是根据Fovea视觉模型，对一部分DCT系数可以不予计算，据此本发明提出了DCT/IDCT快速计算方法，显著减小DCT/IDCT计算量。原有的DCT 及IDCT计算公式分别为：

F (u, v) = \frac{1}{4} C (u) C (v) Σ_{i = 0}^{7} Σ_{j = 0}^{7} f (i, j) \times \cos \frac{πu (2 i + 1)}{16} \cos \frac{πv (2 j + 1)}{16}

f (i, j) = \frac{1}{4} Σ_{i = 0}^{7} Σ_{j = 0}^{7} C (u) C (v) F (u, v) \times \cos \frac{πu (2 i + 1)}{16} \cos \frac{πv (2 j + 1)}{16}

设一个8×8块的截止频率为

\frac{t}{8} (1 \leq t \leq 8, t \in Z^{+})

那么在该块内所有高于截止频率的高频DCT系数不被人眼感知，可以不予处理，即赋值为0。因此在对该块进行DCT/IDCT变换时，只计算低于截止频率的DCT系数，从而 DCT及IDCT计算公式变为：

f (i, j) = \frac{1}{4} Σ_{i = 0}^{i} Σ_{j = 0}^{i} C (u) C (v) F (u, v) \times \cos \frac{πu (2 i + 1)}{16} \cos \frac{πv (2 j + 1)}{16}

最后，需要指出在本发明中，Fovea点的选择可以由用户通过鼠标用交互的方式实现。

标题	发布/更新时间	阅读量
基于视觉显著性的HEVC优化算法	2020-05-08	55
一种基于机器学习的内容自适应视频编码方法	2020-05-08	125
一种柜面助手履职监控装置和方法	2020-05-08	867
一种基于无锚点机制的火焰检测方法及装置	2020-05-11	848
采样方法、模型生成方法、视频行为识别方法及装置	2020-05-08	13
目标跟踪方法及存储介质	2020-05-08	545
基于多特征融合的景区游玩轨迹预测系统	2020-05-08	186
图像预测方法及装置	2020-05-08	216
视频解码器设备及视频编码器设备	2020-05-08	906
一种基于人体骨架检测的多相机人员定位跟踪显示方法	2020-05-08	336

引入视觉模型的MPEG视频码流码率转换方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：