首页 / 专利库 / 诊断设备和程序 / 空间编码 / 视频尺度转换及从MPEG-2到MPEG-4的编码转换

视频尺度转换及从MPEG-2到MPEG-4的编码转换

阅读:1017发布:2020-09-27

专利汇可以提供视频尺度转换及从MPEG-2到MPEG-4的编码转换专利检索,专利查询,专利分析的服务。并且一种编码转换器结构,其具有最低可能的复杂度及较小误差,例如可用来将MPEG-2比特流转换成MPEG-4比特流。该编码转换器可从一输入比特流读取标头信息,并且以新格式提供输出比特流的一个相应标头。在一具体 实施例 中(图3),具有低复杂度的MPEG-2到MPEG-4编码转换器(具无效B 帧 )可避免需要 运动补偿 处理过程。在另一具体实施例中(图4),提供一种减少漂移误差(具致能B帧)的编码转换器结构。在另一具体实施例中(图5),例如,提供一尺度编码转换器(B帧有效)以便将使用MPEG-2 MPML编码的ITU-R601 隔行扫描 视频编码 转换成一简单轮廓的MPEG-4比特流,该MPEG-4比特流中包含SIF 逐行扫描 视频,适用于流视频应用。对于场模式DCT 块 的空间缩小化,可结合垂直的和 水 平的缩小化技术,使用稀疏矩阵来减少计算量。,下面是视频尺度转换及从MPEG-2到MPEG-4的编码转换专利的具体信息内容。

1.一种对预压缩的输入比特流进行编码转换的方法,该输入比特流为第一视频编码格式,该方法包含下列步骤:
恢复该输入比特流的标头信息;
以第二不同视频编码格式提供相应的标头信息;
部分解压缩该输入比特流,以提供部分解压缩的数据;及
根据第二格式的标头信息而将部分解压缩的数据重新压缩,以提供一输出比特流;
其中:
该第一视频编码格式中包括MPEG-2主要级别的主轮廓;及
该第二视频编码格式包括具有标准中间格式逐行扫描视频的MPEG-4比特流。
2.如权利要求1所述方法,其中:
该第二视频编码格式包括具有标准中间格式逐行扫描视频的简单轮廓MPEG-4比特流。
3.如权利要求1所述方法,其中:
该部分解压缩的数据中包含运动向量及离散余弦变换系数;及
该第二格式中包含一新模式决定、交流/直流预测与运动补偿三者中至少之一。
4.如权利要求1所述方法,其中:
至少有一查找表可用来提供该第二视频编码格式的对应标头信息。
5.如权利要求1所述方法,其中:
缩小化是通过下采样离散余弦变换系数与运动向量数据而在部分解压缩的数据上执行。
6.如权利要求1所述方法,其中:
通过执行垂直下采样及解交织,在部分解压缩数据的4个场模式离散余弦变换的至少一组中,进行2∶1缩小化,以获得一个两模式离散余弦变换块的对应组,及对该两帧模式离散余弦变换块执行平下采样,以获得一帧模式离散余弦变换块。
7.如权利要求6所述方法,其中:
该垂直下采样亦可实现4个场模式离散余弦变换块的低通滤波。
8.如权利要求6所述方法,其中:
该垂直下采样与水平下采样采用各自的稀疏矩阵。
9.如权利要求1所述方法,其中:
在重新压缩步骤中,用于指定量化器变化的一个编码可根据部分解压缩数据的量化参数的差值而设定。
10.如权利要求1所述方法,其中:
对于重新压缩内部编码宏块而言,编码块图案可根据该部分解压缩数据的相应值而设定。
11.如权利要求1所述方法,其中:
对于重新压缩非内部编码宏块而言,该部分解压缩数据中的被跳过的宏块被编码为未编码宏块,其中所有离散余弦变换系数具有一零值。
12.如权利要求1所述方法,其中:
在重新压缩步骤中,该部分解压缩数据中被预测的运动向量可根据该第二格式而重新设定。
13.如权利要求1所述方法,其中:
在重新压缩步骤中,该部分解压缩数据的双主要模式宏块可转换成场编码宏块。
14.一种用于对预压缩输入比特流编码转换的设备,该输入比特流为第一视频编码格式,该装置包括:
用以恢复该输入比特流的标头信息的装置;
以第二种不同视频编码格式提供相应标头信息的装置;
用以部分解压缩该输入比特流,以提供部分解压缩的数据的装置;及
用来根据第二格式的标头信息而将部分解压缩的数据重新压缩,以提供一输出比特流的装置;
其中:
该第一视频编码格式中包括MPEG-2主要级别的主轮廓;及
该第二视频编码格式包括具有标准中间格式逐行扫描视频的MPEG-4比特流。
15.如权利要求14所述的设备,其中:
该第二视频编码格式包括具标准中间格式逐行扫描视频的简单轮廓MPEG-4比特流。
16.如权利要求14所述的设备,其中:
该部分解压缩的数据中包含运动向量及离散余弦变换系数;及
该第二格式中包含一新模式决定、交流/直流预测与运动补偿三者中至少之一。
17.如权利要求14所述的设备,其中:
至少有一查找表可用来提供该第二视频编码格式的对应标头信息。
18.如权利要求14所述的设备,其中:
缩小化是通过下采样离散余弦变换系数与运动向量数据而在部分解压缩的数据上执行。
19.如权利要求14所述的设备,其中:
通过执行垂直下采样及解交织,在部分解压缩数据的4个场模式离散余弦变换块的至少一组中,进行2∶1缩小化,以获得一个两帧模式离散余弦变换块的对应组,及对该两帧模式离散余弦变换块执行水平下采样,以获得一帧模式离散余弦变换块。
20.如权利要求19所述的设备,其中:
该垂直下采样亦可实现4个场模式离散余弦变换块的低通滤波。
21.如权利要求19所述的设备,其中:
该垂直与水平下采样采用各自的稀疏矩阵。
22.如权利要求14所述的设备,其中:
用于指定量化器变化的一个编码可根据部分解压缩数据的量化参数的差值而设定的装置。
23.如权利要求14所述的设备,其中:
对于重新压缩内部编码宏块而言,编码块图案可根据该部分解压缩数据的相应值而设定。
24.如权利要求14所述的设备,其中:
对于重新压缩非内部编码宏块而言,该部分解压缩数据中的被跳过的宏块被编码为未编码宏块,其中所有离散余弦变换系数具有一零值。
25.如权利要求14所述的设备,其中:
根据该第二格式用于重新压缩的装置重新设定该部分解压缩数据中被预测的运动向量。
26.如权利要求14所述的设备,其中:
用于重新压缩的装置将该部分解压缩数据的双主要模式宏块转换成场编码宏块。

说明书全文

视频尺度转换及从MPEG-2到MPEG-4的编码转换

[001] 技术领域

[002] 本发明涉及多媒体数据压缩,尤其涉及一种视频编码转换器,以允许通用的MPEG-4解码器将MPEG-2比特流解码。还提供了时间与空间尺度变换(缩小化)。

[003] 背景技术

[004] 本文采用以下列缩写字与术语:

[005] CBP-编码图案

[006] DCT-离散余弦变换

[007] DTV-数字电视

[008] DVD-数字视频光盘

[009] HDTV-高清晰度电视

[010] FLC-固定长度编码

[011] IP-因特网协议

[012] MB-宏块

[013] ME-运动估计

[014] ML-主要级别(Main Level)

[015] MP-主轮廓(Main profile)

[016] MPS-MPEG-2节目流

[017] MTS-MPEG-2传输流

[018] MV-运动向量

[019] QP-量化参数

[020] PMV-预测运动向量

[021] RTP-实时传输协议(RFC 1889)

[022] SDTV-标准清晰度电视

[023] SIF-标准中间格式

[024] SVCD-超级视频压缩光盘

[025] VLC-可变长度编码

[026] VLD-可变长度解码

[027] VOP-视频对象平面

[028] 多媒体编码标准MPEG-4可提供多种功能,以支持包括因特网应用在内的各种不同应用,例如流媒体、广告、交互式游戏、虚拟旅行等。预期在因特网最流行的因特网视频流(多点广播)也适用于视觉MPEG-4视觉标准(ISO/IEC 14496-2国际标准最终草案(MPEG-4)“Information Technology-Generic coding of audiovisualobjects,Part 2:visual”,1998年12月)。

[029] MPEG-4视觉可同时处理合成视频与自然视频,而且适用于多个视觉对象类型,例如视频、脸部、与网状物体。MPEG-4视觉亦允许对任意形状物体进行编码,所以多重物体可根据用户的需要而显示或加以处理。而且,MPEG-4视觉从编码与显示结构的观点来看,非常具有灵活性,因为它包括了增强的特性,例如多重辅助(阿尔法)平面、可变率及几何变换(子画面)。

[030] 然而,预期作为视频流目标的大多数视频材料(例如,电影、运动、音乐会等)可通过MPEG-2系统压缩,并且储存在例如DVD、计算机内存(例如,服务器硬盘)等存储介质中。MPEG-2系统规格(ISO/IEC 13818-2国际标准(MPEG-2)名为“Information Technology-Generic coding of Moving Pictures and Associated Audio:Part2-Video”,1995)定义了两种系统流格式:MPEG-2传输流(MTS)与MPEG-2节目流(MPS)。MTS可调整而用于通信或储存一个或多个MPEG-2压缩数据节目,或用于其他处于相对容易出错环境中的数据。MTS的典型应用是DTV。MPS的调整可用于相对不容易出错环境。这种流行的应用包括DVD和SVCD。

[031] 有关这一问题的处理至今仍不能令人满意。例如,MPEG-4节目轮廓(1999年10月由O.Sunchara和Y.Yagasaki发表的名称“The draftof MPEG-4 Studio Profile Amendment Working Draft 2.0,”ISO/IECJTC1/SC29/WG11 MPEG99/5135)已建议一种MPEG-2到MPEG-4编码转换器,但是该处理不能应用于另一MPEG-4版本1轮廓,其包括自然视觉轮廓(Simple、Simple Scaleable、Core、Main、N-Bit)、合成视觉轮廓(Scaleable Texture、Simple Face Animation)、及合成/自然混合视觉(Hybrid、Basic Animated Texture)。因为它修改了语法,所以节目轮廓不能应用在MPEG-4版本1的主轮廓,而且解码器处理不能与其余MPEG-4版本1轮廓兼容。

[032] MPEG标准采用二维分级排序来指定几组限定参数。其中的一个维称为“轮廓”系列,它指定了所支持的编码特征。另一维,称为“级别”,指定可适用的图像的分辨率、比特率等等。

[033] 对于MPEG-2而言,在主要级别的主轮廓,或MP@ML可支持4∶2∶0彩色子采样率以及I、P、和B图像。简单轮廓类似于主轮廓,但是没有B图像。主要级别是为ITU-R601视频而定义,而简单级别是为SIF视频而定义的。

[034] 同样地,对于MPEG-4而言,简单轮廓包含SIF处理视频(而且没有B-VOP或交织视频)。主轮廓允许B-VOP与交织视频。

[035] 因此,想要通过使用MPEG-2视频到MPEG-4视频编码转换及/或MPEG-4视频到MPEG-2视频编码转换而在不同类型终端系统之中实现可相互操作性。不同类型终端系统可包括:

[036] 传输交互工作单元(TIU):通过使用一个本地RTP为基础的系统层(例如一以IP为基础的交互工作)从一个本地MTS(或MPS)系统接收MPEG-2视频及编码转换成MPEG-4视频,并且在打包网络上分配。示例中包括一实时编码器、一连接到因特网的MTS卫星以及具有MPS编码的来源材料的一视频服务器。

[037] 接收交互工作单元(RIU):从一以RTP为基础的网络实时接收MPEG-4视频,然后(如可能)编码转换成MPEG-2视频,并且转送给一本地MTS(或MPS)环境。示例包括一以因特网为基础的视频服务器到以MTS为基础的电缆分布设备。

[038] 传输因特网终端系统(TIES):传输MPEG-2或MPEG-4视频可产生或储存在因特网终端系统本身内,或从以因特网为基础的计算机网络接收。示例中包括一视频服务器。

[039] 接收因特网终端系统(RIES):在以RTP为基础的因特网上接收MPEG-2或MPEG-4视频,供在因特网终端系统使用,或转送给传统计算机网络。示例中包括可检视一连串视频的桌上型个人计算机或工作站。

[040] 希望能够确定在MPEG-2与MPEG-4系统之间的相似点与不同点,并且提供可产生一种复杂度较低且误差小的编码转换器结构。

[041] 编码转换器结构可用于使用B帧(例如,主轮廓)的系统,也可用于当B帧不使用(简单轮廓)时的一种简化结构中。

[042] 应该提供格式(MPEG-2到MPEG-4)及/或尺度编码转换。

[043] 而且希望提供从MPEG-2到MPEG-4语法的有效映射,其包括标头的映射。

[044] 系统应该包括尺度编码转换,其包括空间与时间编码转换。

[045] 系统应该允许在编码转换器的输入比特流或输出比特流上的尺度转换。

[046] 尺度编码转换器应该可将使用MPEG-2 MP@ML的ITU-R 601交织视频编码的比特流转换成简单轮廓MPEG-4比特流,其包含例如适用于视频流应用的SIF处理视频。

[047] 系统应该提供可适用于视频流应用(例如,少于1Mbps)实际频宽的输出比特流。

[048] 本发明可提供具有上述及其他优点的一种系统。

[049] 发明内容

[050] 本发明有关于格式编码转换(MPEG-2到MPEG-4)与尺度(空间与时间)编码转换。

[051] 一种建议的编码转换器中可包括一尺度转换,虽然这些参数可在输入比特流或输出比特流上编码转换。然而,因为编码转换器彼此共享处理组件(例如一比特流读取器),所以在编码转换器的产品中包括各种编码转换器能够更为有效地减少复杂度。

[052] 本发明研究编码转换器的最关键需求,例如,系统的复杂度及处理所产生的损失。

[053] 在一实施例中,所建议的编码转换器结构可减少复杂度,因为不需要执行运动补偿

[054] 在一特定实施例中,编码转换器能使用可变的5位QP表示,而且可免除AC/DC预测与非线性DC定标器。

[055] 本发明可选择性用于比率控制与改变尺度。

[056] 在一种特殊方法中,其用来将以第一视频编码格式提供的预压缩输入比特流进行编码转换,包括下列步骤:恢复该输入比特流的标头信息;提供第二不同视频编码格式的对应标头信息;部分解压缩该输入比特流,以部分提供解压缩的数据;及根据该第二格式的标头信息而将部分解压缩的数据重新压缩,以提供该输出比特流。

[057] 在视频数据上执行2∶1缩小化的一种方法中,包括下列步骤:通过组合4个N/2×N/2场模式DCT块而从视频数据形成N×N(例如,N=16)离散余弦变换(DCT)系数的其中至少一输入矩阵;执行该输入矩阵的垂直下采样及解交织,以获得两N/2×N/2帧模式DCT块;从两帧模式DCT块形成一N×N/2输入矩阵;并且对该N×N/2矩阵的平下采样,以获得一N/2×N/2帧模式DCT块。

[058] 较好情况下,垂直与水平下采样可使用相对的稀疏矩阵。特别是,可使用0.5[I8I8]的一垂直下采样矩阵,其中I8是一8×8恒等矩阵。实质上是垂直像素平均。可使用由奇数“O”与偶数“E”组成的水平下采样矩阵。

[059] 本发明还提供了相应的装置。

[060] 附图说明

[061] 图1显示一个MPEG-2视频解码器。

[062] 图2显示没有任何可缩放特征的MPEG-4视频解码器。

[063] 图3显示根据本发明而描述的从MPEG-2到MPEG-4的一低复杂编码转换器(B帧无效)。

[064] 图4显示根据本发明而描述的减少漂移误差(具致能B帧)之一编码转换器结构。

[065] 图5显示根据本发明而描述的尺度编码转换器。

[066] 图6显示根据本发明而描述的4个场模式DCT块到一帧模式DCT块的下采样。

[067] 具体实施方式

[068] 本发明有关于格式编码转换(MPEG-2到MPEG-4)与尺度(空间和时间)编码转换。

[069] 本发明可提供比特率编码转换,以便以一不同的比特率将一预压缩比特流转换成另一压缩的比特流。比特率编码转换很重要,例如对于视频流应用,因为网络频宽不固定,而且有时视频服务器需要减少比特率以处理网络路由要求。基于级联方式的编码转换器可重复使用来自输入流的MV,并且因而可免除运动估计(ME),它属于最有效率的比特率编码转换器之一。基于级联方式的编码转换器可对输入的比特流解码,以获得MV,并且形成参考帧。然后可使用一比特率控制机构而将此信息编码,以便以想要的比特率产生一输出比特流。

[070] 空间分辨率编码转换对于将来HDTV与SDTV的共存来说是个重要课题。因为因特网频宽大小可能无法适用于广播质量图像,所以该编码转换对于视频流应用是非常有益的。因此,将广播质量比特流下采样成可处理分辨率比特流是人们所希望的。因为它明显减少了系统的复杂度,所以空间分辨率编码转换通常可在压缩(DCT)领域执行。在压缩域的下采样处理中包括对两个参数的处理,即是DCT系数与MV。一种下采样过滤器及其快速算法可建议用来执行DCT系数下采样。MV再采样可在实际的产品中用来找到下采样视频的MV,以避免漂移,其余的运动补偿应该重新转换,以便从输入比特流取代近似DCT系数。

[071] 1.高级别比较

[072] 结构MPEG-2与MPEG-4可采用类似视频压缩算法。基本上,两标准是采用运动预测,以便在DCT域中利用时间相关性与量化,以便在一帧内使用时间相关性。此部分在高级别上描述MPEC-2与MPEG-4解码器的结构,然后描述在两标准之间的不同。

[073] 1.1 MPEG-2

[074] 图1显示MPEG-2的简化视频解码处理。在解码器100中,编码的视频数据可提供给一可变长度解码功能110,以便提供一维空间数据QFS[n],其中n是在0-63范围内的系数索引。在逆向扫描功能120中,QFS[n]可转换成由QF[v][u]表示的系数二维空间数组,其中数组索引u和v是在0到7的范围内。反量化功能130可应用适当的反量化算术,以便提供最后重建的频域DCT系数F[v][u]。逆向DCT功能140可产生像素(空间)域值f[y][x]。运动补偿功能150可响应帧存储160,及用以产生解码像素d[y][x]的值f[y][x],其中y和x是像素域中的笛卡尔坐标。

[075] MPEG-2可在宏块级别上进行运动补偿,在块级别上进行DCT变换,在系数级别上进行行程和无损编码。而且,MPEG-2允许采用三类型的图像,即I-、P-、和B-图像。所允许的运动预测模式(向前、向后、双向)可指定为P-和B-图像。MPEG-2采用交织编码工具,以便更有效地处理交织视频源。

[076] 1.2 MPEG-4

[077] 图2显示没有任何可缩放特征的MPEG-4视频解码处理。

[078] 在解码器200上,来自一信道的数据可从解复用210输出。形状数据的编码比特流可连同MPEG-4项video_object_layer_shape(其表示例如目前的图像是否为矩形、仅为二进制或灰度图像)而提供给开关215。如果video_object_layer_shape是等于“00”,那么不需要二进制形状解码。否则,要进行二进制形状解码。

[079] 如果执行二进制形状解码,形状解码功能220可接收先前重建的VOP 230(其可储存在存储器),并且将形状解码的输出提供给运动补偿功能240。运动补偿功能240可接收来自运动解码功能235的输出,其随后可从解复用210接收运动编码比特流。运动补偿功能240亦可接收先前重建的VOP 230,以便将输出提供给VOP重建功能245。

[080] 除了来自形状解码功能220的输出之外,VOP重建功能245亦可从结构解码功能250接收数据,接着可从解复用210接受纹理编码流。结构解码功能250包括可变长度解码功能255、逆向扫描功能260、逆向DC与AC预测功能270、反量化功能280、及逆向DCT(IDCT)功能290。

[081] 相比MPEG-2,在MPEG-4中可使用几个新工具,以增加特征及相互影响,例如,子画面编码、形状编码、静态纹理编码、可缩放性、与错误弹性。而且,在类似MPEG-2的MPEG-4中的运动补偿与纹理编码工具可被修改,以改善编码工具的编码效率,例如直接模式运动补偿、无限制运动补偿、及高级预测。

[082] 特别是,直接模式运动补偿可用于B-VOP。明确地说,它可通过采用I-或P-VOP宏块MV以及将他们定标以取得在B-VOP中宏块的顺向及逆向MV的双向运动补偿。每个宏块只允许一个ΔMV。实际的MV可从Δ向量计算,而且定标的MV可从共同的宏块计算。

[083] 无限制运动补偿允许每个宏块有1或4个MV。4个MV模式只可在直接模式的B-VOP中使用。注意,色度宏块的MV是来自它相关亮度宏块的4个MV的平均。此外,无限制运动补偿允许MV指出该参考帧(外部结构从边缘像素填补)。

[084] 高级预测为MV与DCT系数规定了预测方法。MV预测器是根据其三个相邻MV的中间值而设定。内部DCT系数的预测遵循内部AC/DC预测程序(Graham规则)。

[085] 2.编码转换器结构

[086] 图3根据本发明,且具有失效B帧的低复杂度的从MPEG-2到MPEG-4编码转换器。

[087] 在MPEG-2与MPEG-4结构之间的类似允许实现低复杂度的(从MPEG-2到MPEG-4)编码转换器。MPEG-2到MPEG-4编码转换器300使用DCT系数与MV来产生MPEG-4比特流,而无需实际执行运动估计处理过程,而不是将MPEG-2比特流整个解码成空间(像素)域级别。不利因素是此结构会造成重建帧的漂移,而且不允许比特率控制。但是,因为在MPEG-2与MPEG-4解码器之间的大部分不同是在无损失编码部分,所以漂移问题很小。

[088] 编码转换器300中包含一个级联MPEG-2比特流读取器(解码器)(310-330)以及一个MPEG-4标头与纹理编码器(340-370),并具有一标头解码功能304、一查找表308、及一通信路径312。编码转换器300可读取一输入MPEG-2比特流,其可在DCT系数与剩余MV上的功能310中执行可变长度解码(VLD),然后遵循MPEG-2逻辑以找出在帧中每一块的DCT系数及/或MV。

[089] 标头解码功能304可解码MEPG-2标头,并且将它们提供给查找表(或类似功能)308,其可使用下列详述的表格以获得相应MPEG-4标头。

[090] 通过标头、DCT系数及/或MV的信息,编码转换器300可将此信息编码成MPEG-4格式。注意,参考帧在此结构中不需要。

[091] 编码转换器300可从输入比特流读取MPEG-4标头,并且在一输出比特流的固定位置写入相应MPEG-4标头。

[092] 在VLD 310处理之后,可将数据提供给逆向扫描功能320、及一反量化功能330。其次,随着经由路径312提供的MPEG-4标头信息,解码的DCT系数数据可在MPEG-4标头及包括一量化功能340的纹理编码器、及用以将量化DCT系数不同编码的AC/DC预测功能350上进行处理。特别是,AC/DC预测处理可通过减去DC系数及AC系数的第一列或第一行而在一个内部MB中产生一剩余DC与ACDCT系数。预测器可适当选取。注意,AC/DC预测功能350不需要MPEG-4标头信息。

[093] 随后,一个扫描/游程长度编码功能360及一可变长度编码功能370可提供MPEG-4比特流。

[094] 图4显示一种编码转换器结构,它根据本发明,并使能B帧,而将漂移误差最小化。

[095] 相同编号的组件于对应的图中是表示类似组件。

[096] 为了解决在重建帧中的漂移,及缺乏比特率控制的问题,可采用像编码转换器400那样更为复杂的结构,它是图3中编码转换器300一个扩展。此结构实际可计算纹理/剩余数据的DCT系数,因此需要运动补偿。因为此编码转换器的编码器中包括一解码处理,所以可减少漂移误差。

[097] 而且,因为MPEG-4不允许B帧的内部模式,所以编码转换器400可使用B帧将比特流编码转换。编码转换器400可在内部模式中处理B帧(在MPEG-2)中的一个块,当作在中间模式(在MPEC-4)中具有一个零MV的块。因为MV是与PMV相反的预测编码,所以它可以是一个零剩余MV(PMV)或零MV(其可产生一非零MV码)。

[098] 特别是,编码转换器400中包括一可变长度解码功能405,其可将MV残留数据提供给MV解码器425,而且可将DCT系数数据提供给逆向扫描功能320。DCT数据可通过反量化功能330及逆向DCT功能420处理,以获得像素域数据。内部编码像素数据可经由路径422而提供给缓冲器,而内部编码像素数据可经由路径424而提供给加法器435。

[099] 在路径424上的像素(不同)路径448可从运动补偿功能430(响应MV解码器425)而加入参考像素数据,以便经由路径448将中间编码数据提供给缓冲器450。

[100] 对于例如MPEG-4格式的重新编码而言,缓冲器450可将内部像素数据直接输出给DCT功能455,或将内部像素数据输出给减法器445,其中与有关来自运动补偿功能440(响应MV解码器425)输出不同的数据可提供给DCT功能455。

[101] DCT系数从DCT功能455提供给量化功能340,而且然后将量化后的DCT数据提供给AC/DC(DCT系数)预测功能350,其中数据流MB的AC与DC剩余可产生。DCT系数的这些剩余可被熵编码。输出数据可提供给扫描/游程长度编码功能360,而且其输出可提供给该可变长度编码功能370,以获得与MPEG-4兼容的比特流。

[102] 量化DCT系数亦可从量化功能340输出给反量化功能495,其输出可提供给逆向DCT功能490,其输出是在加法器485与运动补偿功能440的输出的和。加法器485的输出可提供给缓冲器480,而且随后提供给运动补偿功能440。

[103] 标头解码功能304与查找表308及路径312可如图3的讨论而操作,以便在功能340-370上控制MPEG-4格式的重新编码。

[104] 3.格式编码转换器的实现

[105] 此部分是描述例如上述图3和4及稍后在图5实现的格式编码转换。未明确讨论的实现细节(例如,时间记录与类似使用的系统相关细节)对于本领域中的技术人员来说应该是不言自明的。

[106] 在一特别实施例中,本发明的编码转换器可用来将主轮廓、主要级别(MP@ML)MPEG-2比特流转换成主轮廓MPEG-4比特流。假设MPEG-2比特流是在帧图像结构中使用B视频编码法(没有双重主要预测)编码。通常,使用在MPEG-2编码的相同编码模式应该保持。此模式在MPEG-4可能是最适宜的,因此可避免模式决定处理的复杂度。在MPEG-4的透明图案始终是1(在一个VOP中具有与VOP相同大小的一矩形物体)。也就是说,MPEG-4允许通过一非零透明图案所定义的一个任意形状物体。此特征在MPEG-2中并不存在,所以可安全地假设编码转换物体的所有透明图案是1。

[107] 3.1 MPEG-2比特流读取器

[108] 根据本发明的一编码转换器可从MPEG-2比特流获得比特流标头、DCT系数与MV。此信息可与比特流混合在一起。MPEG-2与MPEG-4比特流皆采用由数层所组成的一种等级结构。每层以标头开始,随后是其多个子层。在如表1所示的这种实现中,除了未使用在MPEG-4而在MPEG-2的子层之外,MPEG-2层可直接转换成MPEG-4层。MPEG-4的DC系数与预测MV是在该子层开始的块上重新设定。

[109] 然而,一些MPEG-4标头是不同于MPEG-2标头,反之亦然。幸运地,MPEG-2的限制与MPEG-2标头信息足够指定MPEG-4标头。表2至6是列出MPEG-4标头及其有关一MPEG-2标头、或每层的限制。

[110] 表1.在MPEG-2与MPEG-4层之间的关系MPEG-2MPEG-4视频序列视频物体序列(VOS)/视频物体(VO)序列可缩性扩展视频物体层(VOL)图像组(GOP)视频对象平面组(GOV)图像视频对象平面(VOP)宏块宏块

[111] 表2.MPEG-4标头及其衍生(VOS和VO)标头码批注Visual_object_sequence_start_code00001B0开始一视觉期间Profile_and_level_indication00110100主轮廓/级别4Visual_object_sequence_end_code00001B1终止一视觉期间Visual_object_start_code00001B5开始一视觉对象Is_Visual_object_identifier0没有优先权版本确认需要指定Visual_object_type0001视频IDVideo_object_start_code0000010X-0000011X标记一新视频对象Video_signal_type取自MPEG-2对应MPEG-2sequence_dispilay_extension_idVideo_format与MPEG-2相同对应MPEG-2sequence_dispilay_extension_idVideo_range取自MPEG-2对应MPEG-2sequence_dispilay_extension_idColour_description与MPEG-2相同对应MPEG-2sequence_dispilay_extension_idColour_primaries与MPEG-2相同对应MPEG-2colour_descriptionTransfer_characteristics与MPEG-2相同对应MPEG-2colour_descriptionMatrix_coefficients与MPEG-2相同对应MPEG-2colour_description

[112] 表3.MPEG-4标头及其衍生(VOL)标头码批注Video_object_layer_start_code0000012X标记一新视频对象层Random_accessible_vol0允许非内部的编码VOPVideo_object_type_identification00000100主要对象类型Is_object_type_identifier0没有优先权版本确认需要指定Aspect_ratio_info与MPEG-2对应MPEG-2 相同aspect_ratio_informationPar_width 与MPEG-2 相同对应MPEG-2vertical_sizePar_height 与MPEG-2 相同对应MPEG-2horizontal_sizeVol_control_parameters 与MPEG-2 相同对应MPEG-2extension_start_code_identifier(序列扩展)Chroma_format 与MPEG-2 相同对应MPEG-2chroma_formatLow_delay 与MPEG-2 相同对应MPEG-2low_delayVbv_parameters Recomputed符合MPEG-4VBV规格Video_object_layer_shape 00矩形Vop_time_increment_resolution Recomputed参考表7Fixed_vop_rate1表示所有VOPs是以固定率编码Fixed_vop_time_incrementRecomputed参考表7Video_object_layer_width与MPEG-2相同对应display_vertical_sizeVideo_object_layer_height与MPEG-2相同对应display_horizontal_sizeInterlaced与MPEG-2相同对应progressive_sequenceObmc_disable1无效的OBMCSprite_enable0表示没有子画面Not_8_bit取自MPEG-2对应MPEG-2intra_dc_precisionQuant_type1MPEG量化Complexity_estimation_disable1无效的复杂估计标头Resync_marker_disable1表示没有resync_markerData_partitioned0无效的数据划分Reversible_vlc0无效的可相反vlcScalability0表示目前层当作基本层使用

[113] 表4.MPEG-4标头及其衍生(VOP)标头码批注Vop_start_code000001B6标记开始一视频对象平面2k71开始Vop_coding_type与MPEG-2相同对应MPEG-2picture_coding_typeModulo_time_base再产生符合MPEG-4规格Vop_time_increment再产生符合MPEG-4规格Vop_coded1表示随后的数据存在于VOPVop_rounding_type0将rounding_control的值设定成‘0’Change_conversion_ratio_disable1假设所有宏块的conv_ratio是‘1’Vop_constant_alpha0不包括在比特流的vop_constant_alpha_valueIntra_dc_vlc_thr0使用整个VOP的内部DCvlcTop_field_first与MPEG-2相同对应MPEG-2top_field_firstAlternate_vertical_scan_flag与MPEG-2相同对应MPEG-2alternate_scanVop_quant取自MPEG-2对应MPEG-2quantiser_scale_codeVop_fcode_forward与MPEG-2相同参考第4.3节Vop_fcode_backward与MPEG-2相同参考第4.3节

[114] 表5.MPEG-4标头及其衍生(宏块与MV)标头码批注Not_coded取自MPEG-2对应MPEG-2macroblock_address_incrementMcbpc取自MPEG-2对应MPEG-2macroblock_typeAc_pred_flag0无效的内部AC预测Cbpy取自MPEG-2参考第4.2节Dquant取自MPEG-2参考第4.2节Modb取自MPEG-2对应macroblock_typeMb_type取自MPEG-2对应macroblock_typeCbpb取自MPEG-2参考第4.2节Dbquant取自MPEG-2参考第4.2节Horizontal_mv_data取自MPEG-2对应MPEG-2motion_code[r][s][0]Vertical_mv_data取自MPEG-2对应MPEG-2motion_code[r][s][1]Horizontal_mv_residual取自MPEG-2对应MPEG-2motion_residual[r][s][0]Vertical_mv_residual取自MPEG-2对应MPEG-2motion_residual[r][s][1]

[115] 表6.MPEG-4标头及其衍生(块及交织信息)标头码批注Dct_do_size_luminance与MPEG-2相同对应MPEG-2dct_dc_size_luminanceDct_dc_differential与MPEG-2相同对应dct_dc_differentialDct_dc_size_chrominance与MPEG-2相同对应MPEG-2dct_dc_size_chrominaceDCT_coefficient取自MPEG-2参考第4.2节DCT_type与MPEG-2相同对应MPEG-2DCT_typeField_prediction与MPEG-2相同对应MPEG-2frame_motion_typeForward_top_field_reference与MPEG-2相同对应MPEG-2motion_vertical_field_select[0][0]Forward_bottom_field_reference与MPEG-2对应MPEG-2motion_vertical_相同field_select[1][0]Backward_top_field_reference与MPEG-2相同对应MPEG-2motion_vertical_field_select[0][1]Backward_bottom_field_reference与MPEG-2相同对应MPEG-2motion_vertical_field_select[1][1]

[116] 表7.MPEG-2的frame_rate_code映射到MPEG-4的vop_time_increment_resolution和

[117] fixed_vop_time_increment。Frame_rate_codeVop_time_increment_resolutionFixed_vop_time_increment000124,000100100102410011251010030,000100101013010110501011160,00010011000601

[118] MV数据储存在宏块层。具有多达4个MV可用于每个宏块。而且,一个MV可以是场类型或帧类型,而且具有整个像素或半像素分辨率。MPEG-2 MV解码处理过程可用来确定motion_code(VLC)与motion_residual(FLC)以及Δ。结合对MV的组合的预测,Δ可提供场/帧MV。跳越宏块的MV可设定成零。

[119] DCT数据储存在块层。它先从比特流(VLC)解码,使用曲折或交互扫描模式而逆向扫描,然后反量化。内部DC系数可从dct_dc_differential和预测器(预测器可根据MPEG-2规格而重新设定)决定。在跳越宏块中的DCT系数设定成零。

[120] 3.2纹理编码

[121] 根据本发明的一编码转换器可重复使用DCT系数(有关中间帧)。要采用如下准则:

[122] 1.将q_scale_type(线性比例)用于MPEG-2量化中。

[123] 2.MPEG量化方法只可(非H.263)在MPEG-4量化中使用,以减少在重建帧MPEG-2与MPEG-4之间的不匹配。

[124] 3.MPEG-2 QP的差值可决定在MPEG-4的dquant。每当差别值大于±2时,dquant便可设定成±2。dquant是一个2位码,它指定在量化器、quant有关I-和P-VOP的变化。

[125] 4.量化矩阵应该随着MPEG-2比特流的矩阵变化而改变。

[126] 5.编码转换器在VOL级别上允许一种交替垂直扫描方法(用于交织序列),从而具有灵活性。

[127] 6.内部AC/DC预测(当目前块的QP不同于预测块时便包括定标)应该在一宏块级别上关闭,以减少在AC量化的复杂度与不匹配。

[128] 7.可使用intra_dc_vlc_thr获得较高效率,以选取用以编码内部DC系数的适当VLC表(AC/DC),例如,当作量化参数的一功能(除了当intra_dc_vlc_thr是0或7之外,这些临界值将强迫使用内部DC或AC表,而不管QP)。

[129] 8.跳过的宏块编码为not_coded宏块(所有DCT系数是零)。

[130] 9.cbpy和cbpc(CBP)根据code_block_pattern_420(CBP_420)设定。注意,在MPEG-4的CBP与一内部宏块MPEG-2的CBP_420之间有微小的非一致性。明确地说,当CBP_420设定时,它表示在该块中至少有一个DCT系数不为零。CBP包含类似的信息,除了它不对应在一个内部宏块(亦因intra_dc_vlc_thr而定)的DC系数之外。因此,当CBP_420在内部宏块(此情况会在I-VOP和P-VOP发生,但是不会在B-VOP发生)为零时,CBP可能会不是零。

[131] 在纹理编码中有3个损失来源,它们是QP编码、DC预测、与DC量化的非线性定标器。MPEG-4使用不同编码来将QP编码。MPEG-2在5位的使用上允许所有可能32个QP值。然而,不同值可采用多达±2(以QP值单元),因此,大于±2的一差值会损失。此损失能通过MPEG-2率控制算法限制在宏块中的QP变动而减少。所有内部宏块可执行适合的DC预测,其可采用不同于先前宏块(MPEG-2DC预测)的预测,从而造成量化的不同DC剩余。因为非线性定标器,所以在MPEG-4中所有内部宏块的DC系数也要以不同于MPEG-2的方式量化。因此,MPEG-2与MPEG-4编码的量化DC系数可能不同于一内部宏块。

[132] 3.3 MV编码

[133] 编码转换器可将MV编码成MPEG-4格式。然而,因为MV编码是无损处理,所以从MPEG-2到MPEG-4的MV编码转换没有误差。下列限制将施加在MPEG-4编码器中:

[134] 1.无限制运动补偿模式无效,其表示在帧边界外是没有MV指标。

[135] 2.可采用高级预测模式。在MPEG-4比特流中使用了不同的预测器(一中间值),但用于8×8像素块的MV是相同的。也就是说,高级预测模式允许8×8MV与非线性(中央滤波器)预测器。在我们的格式编码转换器中只采用了一种非线性预测器(我们仍然保持16×16MV)。

[136] 3.直接模式是不允许用于MPEG-4比特流,这表示只有有关B-VOP的4个MV类型,亦即,16×16正向与反向向量及16×8正向与反向场向量。

[137] 4.每当使用16×8场向量(维持模式)时,便可应用场运动补偿。

[138] 5.跳过的宏块可编码为not_coded宏块(具有零MV的运动补偿)。

[139] 6.单一f_code允许在MPEG-4使用。因此,在MPEG-2的两方向(垂直、水平)之间的较大f_code可根据f_code(MPEG-4)=f_code(MPEG-2)-1关系式而转换成在MPEG-4的f_code。

[140] 7.因为整个参考帧的纹理是已知的,所以不使用填补处理。

[141] 8.每当两个主要算法启动时,可使用场运动补偿。向量(参考场与预测帧场)可保留。场MV可根据以MPEG-2比特流编码的向量[0][0][1:0]而产生。当相同核对的预测使用(例如,顶端场到顶端场、或底部场到底部场)时,两场MV都是向量[0][0][1:0]。当奇数核对的预测使用(例如,顶端场到底部场、或底部场到顶端场)时,顶端场MV可使用向量[2][0][1:0],而且底部场MV可使用向量[3][0][1:0]。r=2,3的向量[r][0][0:1]可依下式计算:

[142] (a)Vector[r][0][01=(vector[0][0][0]×m[parity_ref][parity_pred]//2)+dmvector[0]。

[143] (b)Vector[r][0][1](vector[0][0][1]×m[parity_ref][parity_pred]//2)+e[parity_ref][parity_pred]+dmvector[1]。注意,(m[parity_ref][parity_pred]和e[parity_ref][parity_pred]是分别在MPEG-2规格(ISO/IEC 13818-2)的表7-11和7-12中定义。

[144] 而且,“r”表示MV的顺序,例如,第一、第二、及其他等。r=0表示MV的第一组,而且r=1表示MV的第二组。双主要预测使用r=2和r=3以识别两额外组的MV。

[145] “//”表示整数除法四舍五入到近似整数值。

[146] 3.4 B-VOP的内部MB编码

[147] 当编码在MPEG-2比特流(例如,如图4显示)的B帧中的一内部MB进行时,必需要额外转换。对于B-VOP,MPEG-4可用直接模式取代内部模式,从而在B帧中的一内部MB必须在MPEG-4语法中不同编码。此问题有两实际解决方法。

[148] 第一个解决方法采用类似图3(整个参考帧没有缓冲器)的MPEG-2到MPEG-4编码转换器的结构。在此MB非常接近它参考MB(它的未压缩版本)的假设下,MC在相同VOP中的执行可不同于先前的MB,而无需使用一MB大小的额外内存补偿剩余结构。内部MB的MV等于偏移它MB距离之先前MB的MV。

[149] 第二解决方法采使用类似在图4中所显示的结构。它可保存所有I-及P-VOP的参考帧。注意,MC在此解决方法中必须在所有P-VOP上执行。内部MB的MV是与预测的MV(它3个相邻的中位数)相同,而且MC的执行与所取得的MV所指出的参考MB相反。

[150] 4.压缩域的视频缩小化

[151] 通常,视频缩小化与尺度编码转换具有相同的意义。下采样表示使用一个抗混叠(低通)滤波器的子采样,但是子采样与下采样在此可交互使用。

[152] 当尺度编码转换的输入与输出是在压缩域时,尺度编码转换便需要密集计算。在压缩域中限制操作(而且,可有效避免解码及编码处理)的视频缩小化处理可大大降低复杂度。然而,在压缩域的缩小化中出现两个新问题,亦即,DCT系数与MV数据的下采样。

[153] 最近,在压缩域的视频缩小化算法已得到讨论,但是讨论中并未说明在MPEG-2与MPEG-4之间的整个编码转换,包括场到帧去隔行问题。本发明将解决这个问题。

[154] 第4.1和4.2节可将解决方法运用于下采样处理的上述两新问题。根据本发明的建议,尺度编码转换器实施是在图5和6的第6节中描述。

[155] 4.1 DCT块的子采样

[156] 在以帧为基础的视频缩小化中,需要将4个8×8DCT块合并成一个新的8×8DCT块(包括一个场块的具体细节将在稍后描述)。而且,输出块应该是输入块的一个低通版本。此处理可通过将输入矩阵乘以一子采样矩阵(最好使用一低通滤波器)而在空间域中实施。在空间域中乘以子采样矩阵相当于在DCT领域中乘以一矩阵的DCT系数,因为正交变换的分布特性。然而,在一些下采样滤波器的DCT领域中的下采样处理的运算(计算)次数可以是在空间域相对运算的总数。此问题的解决方法是采用稀疏下采样矩阵(例如,一个只有小部分元素为非零值的矩阵,例如,大约30%或更低)。小

[157] 稀疏下采样矩阵基于在DCT基向量与DCT基向量对称结构之间的正交属性。在R.Dugad和N.Ahuja的“A Fast Scheme ForDownsampling And Upsampling In The DCT Domain,”InternationalConference on Image Processing(ICIP)99中讨论了一个方法,在此仅列出供参考,该方法来自4个处理块的较低4×4DCT系数,将4×4IDCT应用到每个DCT子块,形成一新的8×8像素块,并且应用在一8×8DCT中,以获得一个输出块。因为下采样是固定,所以下采样矩阵可预先计算。通过将8×8DCT矩阵分成左与右半部,下采样矩阵的值大约一半是零,因为在4×4IDCT矩阵的栏与两左与右8×4DCT矩阵的列之间是正交的。这种运算(一维空间)可依下列算术表示:

[158]

[159] 其中b是8×1空间输入向量,B是它相对的8×1DCT向量,b1和b2是子子采样的4×1向量,B1和B2是较低的4×1DCT向量,T是8×8DCT变换矩阵,T4是4×4DCT矩阵,TL和TR是T的左与右半部。上标“t”表示一矩阵转置。Dugad的算法亦采用以DCT基向量的对称属性,以减少下采样处理的复杂度。因为T的奇数列是非对称的,而T的偶数列是对称的,所以TLT4t和TRT4t的大小是相同 ( T L T 4 t ( i , j ) = ( - 1 ) i + j T R T 4 t ( i , j ) , 0 i 7,0 j 3 ) . “i”是一矩阵行索引,而且“j”是一矩阵列索引。因此,TLT4t和TRT4t可根据相同的组件计算,亦即,一对称部分E(i+j是偶数的索引)、及一非对称部分O(i+j是奇数的索引)( T L T 4 t = E + O T R T 4 t = E - O )。当下采样处理完成时,此配置便可有效减少2个因子的乘算数值:

[160] B = T L T 4 t B 1 + T R T 4 t B 2 = ( E + O ) B 1 + ( E - O ) B 2 = E ( B 1 + B 2 ) + O ( B 1 - B 2 )

[161] 将4个场块转换成一帧块的Dugad方法实施上不简单。此情况(一维空间)中,下采样处理的扩展可如下所示:

[162] B = T ( S T T 4 t B T + S B T 4 t B B )

[163] 其中BT和BB是较低的4×1场向量,ST和SB是分别对应它顶端ST及底端SB的一个8×4解交织矩阵DCT值。或者,如果(j=2i,0≤i≤3)及SB(i,j)=0,ST的组件ST(i,j)=1。或者,如果(j=2i+1,0≤i≤3)及SB(i,j)=0,SB的组件SB(i,j)=1。

[164] 为此,根据本发明用以下采样及解交织的Dugad算法修改。

[165] 因为S和T不是彼此正交,所以缩小化与解交织处理的操作会更复杂,因此,下采样矩阵不是稀疏矩阵。在此仅列出供参考的于1999年8月于IEEE Trans.Circ.and Syst.For Video Technol.,第9册,第696-700页,由C.Yim和M.A.Isnardi发表的名称“An EfficientMethod For DCT_Domain Image Resizing With Mixed Field/Frame-ModeMacroblocks”中建议一个场块下采样的有效方法。一个低通滤波器(其下采样矩阵(S=0.5[I8I8])是稀疏的)整合在解交织矩阵中。

[166] I8表示一8×8恒等矩阵,而且[I8I8]表示包含连结成两恒等矩阵的一16×8矩阵。当然,恒等矩阵在对线全部是1,而其他全是零。

[167] 该方法是使用4个8×8IDCT场块开始,然后应用下采样矩阵S,并且执行8×8DCT,以获得输出块。注意,8×8IDCT是使用在此方法,以取代4×4IDCT。此运算是如下式(在一维空间)所示:

[168]

[169] 4.2 MV数据的子采样

[170] ME是整个视频编码处理的瓶颈。因此,可通过使用4个最初MB的MV而估计改变尺度MD的MV,而无需实际执行ME(假设所有MB是以中间模式编码)。注意,假设有一MPEG-2比特流,因为每个MB具有一输入(只有一MPEG-4比特流对于每个块可具有一MV),所以MV数据的子采样可采用4个MB的MV。最简单解决是将4个MV一起平均,以获得新的MV,但是当这些4个MV是不同时,便会出现不佳的估计。在1999年9月于IEEE Trans.Circ.and ForVideo Technol.,第9册,第929-936页,由B.Shen,I.K.Sethi和B.Vasudev发表名为“Adaptive Motion-Vector Resampling For CompressedVideo Downscaling”的文章中显示一较好结果,其中可通过将更多加权提供给最坏预测MV而获得。对每个MV的一个匹配精确A可通过在该MB的非零AC系数的数量表示。通过使用Shen等人的技术,下采样MB的新MV可依下式计算:

[171] MV = 1 2 Σ i = 1 4 M V i A i Σ i = 1 4 A i

[172] M.R.Hashemi、L.Winger、和S.Panchanathan发表的名为“Compressed Domain Motion Vector Resampling For Downscaling OfMPEG Video,”ICIP 99中建议一种非线性方法,可用来估计改变尺度MB的MV。类似Shen等人的算法,Hashemi的技术采用处理MB的空间运动而估计新的MV。在Hashemi方法中使用了称为最大平均相关性(MAC)的一种启发式测量,以在输出MV的该等4个最初MV中识别出其中一个。通过使用MAC,缩小化MB的新MV可依下列计算:

[173] MV = max Σ i = 1 4 A i ρ d i

[174] 其中ρ是空间相关性,并且设定成0.85,而且di是在第i输入MV(MVi)与输出MV之间的欧氏距离。

[175] 5.尺度编码转换器的实施

[176] 图5是根据本发明而描述的尺度编码转换器。B帧可出现在输入比特流中,但是可通过编码转换器被丢弃,因此不会出现在输出比特流中。

[177] 在编码转换器500中,可加入MV定标功能510、DCT定标功能520、及空间定标功能540。开关530和535可协调运作,所以在第一设定中,DCT功能455的输出可导入量化功能340,而且开关535可关闭,以允许空间定标功能540的一输出可输入加法器445。在开关530和535的第二设定中,DCT定标功能520的输出可导入量化功能340,而且开关535可打开。

[178] 编码转换器500可将MPEG-2比特流转换成对应较小尺度视频图像的MPEG-4比特流内,例如,从ITU-R 601(720×480)到SIF(352×240)。

[179] 若要实现MPEG-4比特流的频宽需求,编码转换器500可在水平与垂直方向(在空间定标功能540)对两视频子采样,并且跳过所有B帧(在时间定标功能545和546),藉此减少时间分辨率。注意,时间定标功能546可在DCT定标功能520之后选择性提供。在执行缩小化之前的B帧跳越可减少复杂度。

[180] 而且,在子采样之前的低通滤波器(可在空间定标功能540)将可改善视频质量。

[181] 可略加修改,使本发明扩充,包括其他下采样因子与B-VOPs。明确地说,可实现MV缩小化变化与模式决定。B-VOP的MV缩小化是包括逆向MV的一直接扩展。B-VOP的模式决定能以P-VOP(例如,通过将单向MV转换成双向MV,同样可在一P-VOP将内部MB转换成中间MB)的类似方式处理。

[182] 下面,我们讨论有关尺度编码转换器500的6个问题。同样假设输入影像是704×480像素分辨率,而且使用MP@ML MPEG-2编码器编码,而且希望输出是包含SIF处理影像(使用N的一帧率减少)的简单轮廓MPEG-4比特流。然而,本发明可扩展到其他输入与输出格式、及分辨率。

[183] 5.1逐行扫描视频MV缩小化处理(亮度)

[184] 当所有4个MB以中间模式编码、及使用帧预测时,此问题便会出现。在这些MES的每个MV是在每个方向(水平与垂直)以2缩小,以决定4个块MPEG-4(MPEG-4允许每个8×8块有一MV块)的MV。定标的MV然后可通过使用正常MPEG-4程序而预测性编码(使用一中央滤波器)。

[185] 注意,每个MB(包含4个块)必须在MPEG-2与MPEG-4中以相同模式编码。随着视频缩小化,输出MB(4个块)对应4个输入MB。

[186] 5.2隔行扫描视频MV下采样(亮度)

[187] 当所有4个MB以中间模式编码并使用场预测时,此问题便会存在。需要在每个MB中将两个场MV组合,以符合改变块的一帧MV。建议的编码转换器可根据它相邻的MV而取得新的MV,以取代根据空间运动而设定新的MV。所有8个周围MB的MV可用来找到一预测器(场MV可在MB具场预测的情况而平均)。来自这些8个MV的中间值可变成一预测器,而且从欧氏距离接近的目前MB的场MV在水平方向是以2定标,以变成新的MV。

[188] 5.3 MV下采样(色度)

[189] 当所有4个MB以中间模式编码、及使用帧或场预测(MPEG-4能以相同方式处理有关一色度块的两预测模式)时,此问题便会发生。该处理遵循MPEG-4方法,以便从亮度MV获得一色度MV,亦即,一色度MV是4个对应8×8亮度MV平均的缩小版。

[190] 5.4 DCT下采样(亮度逐行扫描、色度)

[191] 当所有4个亮度MB内部或相互间模式编码、使用帧MD结构、及它们的8个色度块(4个用于Cr,而且4个用于Cb)使用帧或场结构时,此问题便会发生。Dugad的方法可通过在每一方向的2因子而用来缩小化亮度与色度DCT块。

[192] 5.5交织DCT下采样(亮度)

[193] 此问题会以两方法之中任一个出现。首先,相关MB使用场预测,其次,它的相关MD使用帧预测。在任何情况下,希望将4个8×8场DCT块(2个用于顶端场,而且2个用于底部场)缩小成一8×8帧DCT块。第一种情况的解决方法是要使用相同场DCT块,当作MC的选取之一。第二种情况包括解交织,而且建议将上述的Dugad和Yim方法组合。

[194] 明确地说,编码转换器可根据Yim算法而在垂直方向(而且同时执行解交织)先将4个场块缩小,以获得两帧块。编码转换器然后可在水平方向将这些两帧块缩小,以便通过使用Dugad算法而获得输出块。

[195] 在图6中,4个8×8系数场模式DCT块是在600显示,两个8×8帧模式DCT块是在610显示,而且1个8×8帧模式DCT块是在620显示。

[196] 根据本发明的DCT缩小化程序可概述如下:

[197] 1.通过如在600的显示将4个场块组合而形成16×16系数输入矩阵。

[198] 2.对于垂直缩小化与滤波而言,根据Yim的算法而将一低通(LP)滤波器D应用到输入矩阵的每一列。LP输入矩阵如610的显示目前是16×8像素。

[199] 3.从LP矩阵([B1B2])可形成B1和B2 8×8矩阵。

[200] 4.根据Dugad的算法执行B1和B2的每一栏的水平缩小化运算,以获得输出矩阵(8×8)。(620)可依下列计算:

[201] B = B 1 ( T L T 4 t ) t + B 2 ( T R T 4 t ) t = ( B 1 + B 2 ) E + ( B 1 - B 2 ) O

[202] 其中E和O表示如上述的偶数与奇数列。

[203] 特别是,由如下示的奇数“O”与偶数“E”矩阵组成的一水平下采样矩阵可使用(忽略定标因素):

[204] E=[  e(0)       0           0           0,

[205]       0          e(1)        0           e(2),

[206]       0          0           0           0,

[207]       0          e(3)        0           e(4),

[208]       0          0           e(5)       0,

[209]       0          e(6)        0          e(7),

[210]       0          0           0          0,

[211]       0          e(8)        0          e(9)].

[212] O=[  0          0           0          0,

[213]       o(0)       0           o(1)       0,

[214]       0          o(2)        0          0,

[215]       o(3)       0           o(4)       0,

[216]       0          0           0          0,

[217]       o(5)       0           o(6)       0,

[218]       0          0           0          o(7),

[219]       o(8)       0           o(9)       0  ].

[220] 下列系数可使用:

[221] e(0)=4          o(0)=2.56915448

[222] e(1)=0.831469612    o(1)=-0.149315668

[223] e(2)=0.045774654    o(2)=2

[224] e(3)=1.582130167    o(3)=-0.899976223

[225] e(4)=-0.195090322    o(4)=1.026559934

[226] e(5)=2          o(5)=0.601344887

[227] e(6)=-0.704885901   o(6)=1.536355513

[228] e(7)=0.980785280    o(7)=2

[229] e(8)=0.906127446    o(8)=-0.509795579

[230] e(9)=1.731445835    o(9)=-0.750660555.

[231] 本质上,一DCT稀疏矩阵的乘积是当作下采样矩阵使用。

[232] 该技术通常可扩充用于一N×N块的2∶1缩小,其包括4个N/2×N/2系数场模式块。其他缩小比率亦可适用。

[233] 5.6特殊情况

[234] 当所有4个MB不是以相同模式(不落下在任何一五个先前情况)编码时,特殊情况便会发生。我们始终假设在其他内部MB之中任何内部或跳过MB是在具零MV的中间模式。场MV可根据第5.2节而合并,以获得帧MV,然后应用第5.1节的技术。MC建议决定内部方块的结构,其可通过编码转换器而当作具有一零MV的内部块处理。

[235] 6.结论

[236] 可以理解,本发明可提供一种编码转换器结构,它具有较小误差且具有最低可能复杂度。此误差会在MPEG-4纹理编码处理(QP编码、DC预测、非线性DC定标器)产生。这些处理过程应该在未来的MPEG-4中移除,以建立一近似无损的编码转换系统。

[237] 本发明亦可提供一尺度编码转换器的整个细节,以便将由MPEG-2 MP@ML编码的ITU-R 601交织视频编码比特流转换成简单轮廓MPEG-4比特流,其包含适用于一种视频流应用的SIF处理视频。

[238] 对于场模式DCT块的空间缩小化而言,建议以一种新的方式中将垂直与水平缩小化技术组合,以使稀疏下采样矩阵可用于垂直与水平方向,藉此减少编码转换器的交换。

[239] 而且,对于MV缩小化而言,建议使用来自它8个相邻MV的中间值。因为所预测的MV可与全局的MV使用,所以此建议比4.2节的算法较好。它亦能与只具有两MV的一交织MB,而不是每个ME的4个MV。

[240] 虽然本发明已描述各种不同的较佳具体实施例,但可以理解,在本发明所附的权利要求范围内,可作各种不同修订与改编。

高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈