首页 / 专利库 / 图形技术 / 色度 / 灵活量化

灵活量化

阅读:2发布:2021-11-29

专利汇可以提供灵活量化专利检索,专利查询,专利分析的服务。并且一种数字媒体 编码器 / 解码器 使用提供沿着所编码的数字媒体数据的各个维度改变量化的功能的灵活量化技术,这些维度包括空间、 频率 子带和色通道。该编解码器利用一 信号 表示方案来高效地用信号表示灵活量化组合的各种排列以用于主要使用情形。当量化器选择可用时,该编解码器通过定义一量化器子集并从该集合中索引当前量化器来高效地编码当前量化器。,下面是灵活量化专利的具体信息内容。

1.一种数字媒体处理方法,包括:
存储表示存储器中的压缩的数字媒体数据的比特流的至少部分;以及
通过向所述数字媒体数据的的变换系数应用量化参数并向所述数字媒体数据的所述块应用变换的反向操作来解码所述比特流的所述至少部分,其中应用于亮度系数和色度系数的所述量化参数至少在第一色度量化模式和第二色度量化模式之间选择性地变化,在所述第一色度量化模式中所述色度系数使用与所述亮度系数相同的一个或多个量化参数,在所述第二色度量化模式中所述色度系数使用不同于所述亮度系数的量化参数。
2.如权利要求1所述的方法,其特征在于,所述量化参数通过指定所述量化参数的索引位置的量化参数索引值来用信号表示。
3.如权利要求1所述的方法,其特征在于,所述第一色度量化模式和所述第二色度量化模式在所述比特流中用信号表示。
4.如权利要求1所述的方法,其特征在于,所述量化参数至少在第一空间维度量化模式和第二空间维度量化模式之间选择性地变化,在所述第一空间维度量化模式中跨的全部细分应用相同的一个或多个量化参数,在所述第二空间维度量化模式中所述帧的细分使用不同的量化参数。
5.如权利要求4所述的方法,其特征在于,应用于DC系数和AC系数的量化参数至少在第一频率量化模式和第二频率量化模式之间选择性地变化,在所述第一频率量化模式中所述AC系数使用与所述DC系数相同的一个或多个量化参数,在所述第二频率量化模式中所述AC系数使用不同于所述DC系数的量化参数。
6.如权利要求1所述的方法,其特征在于,应用于低通DC系数、低通AC系数和高通AC系数的量化参数至少在第一频率量化模式和第二频率量化模式之间选择性地变化,在所述第一频率量化模式中所述高通AC系数使用与所述低通DC系数和所述低通AC系数相同的一个或多个量化参数,在所述第二频率量化模式中所述高通AC系数、所述低通DC系数和所述低通AC系数使用不同的量化参数。
7.一种图片解码器设备,包括:
数据存储缓冲区,用于存储已编码的图片数据的至少部分;以及
处理器,被编程用于通过向所述图片数据的块的变换系数应用量化参数并向所述图片数据的所述块应用变换的反向操作来解码所述比特流的所述至少部分,其中应用于亮度系数和色度系数的所述量化参数至少在第一色度量化模式和第二色度量化模式之间选择性地变化,在所述第一色度量化模式中所述色度系数使用与所述亮度系数相同的量化参数,在所述第二色度量化模式中所述色度系数使用不同于所述亮度系数的量化参数。
8.如权利要求7所述的设备,其特征在于,所述量化参数通过指定所述量化参数的索引位置的量化参数索引值来用信号表示。
9.如权利要求7所述的设备,其特征在于,所述第一色度量化模式和所述第二色度量化模式在所述比特流中用信号表示。
10.如权利要求7所述的设备,其特征在于,所述量化参数至少在第一空间维度量化模式和第二空间维度量化模式之间选择性地变化,在所述第一空间维度量化模式中跨帧的全部部分应用相同的一个或多个量化参数,在所述第二空间维度量化模式中所述帧的不同部分使用不同的量化参数。
11.如权利要求10所述的设备,其特征在于,应用于DC系数和AC系数的量化参数至少在第一频率量化模式和第二频率量化模式之间选择性地变化,在所述第一频率量化模式中所述AC系数使用与所述DC系数相同的一个或多个量化参数,在所述第二频率量化模式中所述AC系数使用不同于所述DC系数的量化参数。
12.如权利要求10所述的设备,其特征在于,应用于低通DC系数、低通AC系数和高通AC系数的量化参数至少在第一频率量化模式和第二频率量化模式之间选择性地变化,在所述第一频率量化模式中所述高通AC系数使用与所述低通DC系数和所述低通AC系数相同的一个或多个量化参数,在所述第二频率量化模式中所述高通AC系数、所述低通DC系数和所述低通AC系数使用不同的量化参数。
13.一种数字媒体处理方法,包括:
通过向所述数字媒体数据的块应用变换的操作并向所述数字媒体数据的所述块的变换系数应用量化参数来编码数字媒体数据,其中应用于亮度系数和色度系数的所述量化参数至少在第一频率量化模式和第二频率量化模式之间选择性地变化,在所述第一频率量化模式中所述色度系数使用与所述亮度系数相同的量化参数,在所述第二频率量化模式中所述色度系数使用不同于所述亮度系数的量化参数;以及
生成已编码数字媒体数据的比特流,所述比特流包括指示根据第一色度量化模式或第二色度量化模式进行编码的信号。
14.如权利要求13所述的方法,其特征在于,所述量化参数通过指定所述量化参数的索引位置的量化参数索引值来用信号表示。
15.一种图片编码器设备,包括:
数据存储缓冲区,用于存储要被编码的图片数据;以及
处理器,被编程为:
通过向所述数字媒体数据的块应用变换的操作并向所述数字媒体数据的所述块的变换系数应用量化参数来编码数字媒体数据,其中应用于亮度系数和色度系数的所述量化参数至少在第一频率量化模式和第二频率量化模式之间选择性地变化,在所述第一频率量化模式中所述色度系数使用与所述亮度系数相同的量化参数,在所述第二频率量化模式中所述色度系数使用不同于所述亮度系数的量化参数;以及
生成已编码数字媒体数据的比特流,所述比特流包括指示根据第一色度量化模式或第二色度量化模式进行编码的信号。

说明书全文

灵活量化

[0001] 本申请是申请日为2007年5月4日,申请号为201210297902.7,名为“灵活量化”的分案申请(其为申请号为200780015871.9,国际申请号为PCT/US2007/010848,名为“灵活量化”的申请的分案申请)的分案申请。
[0002] 背景
[0003] 1.基于变换的编码
[0004] 变换编码是在许多音频、图像和视频压缩系统中使用的一种压缩技术。未压缩数字图像和视频通常被表示或捕捉为以二维(2D)网格排列的图像或视频中各位置处的图元或色彩的样本。这被称为图像或视频的空间域表示。例如,用于图像的典型格式由被排列为网格的24位彩色图元流构成。每一样本是表示诸如RGB或YIQ等色彩空间内该网格中的一个像素位置处的色彩分量的数字。各种图像和视频系统可使用各种不同的色彩、空间和时间分辨率采样。类似地,数字音频通常被表示为时间采样的音频信号流。例如,典型的音频格式由在有规律的时间间隔处所取的16位音频信号幅度样本流构成。
[0005] 未压缩数字音频、图像和视频信号可消耗大量的存储和传输能。变换编码通过将信号的空间域表示变换成频域(或其它类似的变换域)表示,然后降低该变换域表示的某些一般较不可感知频率分量的分辨率,减小了数字音频、图像和视频的大小。这一般与降低空间域中的图像或视频或时域中的音频的色彩或空间分辨率相比,产生了较不可感知的数字信号劣化。
[0006] 更具体而言,图1所示的典型的基于块变换的编解码器100将未压缩的数字图像的像素划分成固定大小的二维块(X1,...Xn),每一块可能与其它块重叠。对每一块应用进行空间-频率分析的线性变换120-121,这将块内彼此隔开的样本转换成一般表示块间隔上相应的频带内的数字信号的强度的一组频率(或变换)系数。为了压缩,变换系数可被选择性地量化130(即,诸如通过丢弃系数值的最低有效位或将较高分辨率数字集中的值映射到较低分辨率来降低分辨率),并且还被熵或可变长度编码130成压缩的数据流。在解码时,变换系数进行反变换170-171以便几乎重构原始的色彩/空间采样图像/视频信号(重构块)。
[0007] 块变换120-121可被定义为对大小为N的向量x的数学运算。最通常的是,该运算是线性乘法,从而产生变换域输出y=Mx,M是变换矩阵。当输入数据是任意长时,它被分段成大小为N的向量,并且向每一段应用块变换。出于数据压缩的目的,选择可逆块变换。换言之,矩阵M是可逆的。在多个维度中(例如,对于图像和视频),块变换通常被实现为可分操作。沿数据的每一维(即,行和列)可分地应用矩阵乘法。
[0008] 对于压缩,变换系数(向量y的分量)可被选择性地量化(即,诸如通过丢弃系数值的最低有效位或将较高分辨率数字集中的值映射到较低分辨率来降低分辨率),并还可被熵或可变长度编码为压缩的数据流。
[0009] 在解码器150中解码时,如图1所示,在解码器150侧应用这些操作的反过程(反量化/熵解码160和反块变换170-171)。在重构数据时,将逆矩阵M-1(反变换170-171)作为乘数应用于变换域数据。当应用于变换域数据时,反变换几乎重构原始时域或空间域数字媒体。
[0010] 在许多基于块变换达到编码应用中,变换理想地是可逆的以取决于量化因子同时支持有损和无损压缩两者。如果例如没有量化(一般被表示为量化因子1),则利用可逆变换的编解码器可在解码时精确地再现输入数据。然而,这些应用中的可逆性的要求约束了对用于设计编解码器的变换的选择。
[0011] 诸如MPEG和Windows Media等许多图像和视频压缩系统利用基于离散余弦变换(DCT)的变换。已知DCT具有得到近乎最优的数据压缩的良好能量压缩特性。在这些压缩系统中,在压缩系统的编码器和解码器两者中的重构环路中采用了反DCT(IDCT)来重构各个图像块。
[0012] 2.量化
[0013] 根据一个可能的定义,量化是用于通常用于有损压缩的近似不可逆映射函数的术语,其中有一组指定的可能输出值,并且该组可能的输出值中的每一成员具有导致对该特定输出值的选择的一组相关联的输入值。已经开发了各种量化技术,包括标量或矢量、均匀或非均匀、有或没有死区、以及自适应或非自适应量化。
[0014] 量化操作本质上是按照量化参数QP的加偏除法(biased division),这在编码器处执行。反量化或乘法操作是与QP的乘法,这在解码器处执行。这些过程共同引入了原始变换系数数据的丢失,这表现为解码的图像中的压缩误差或伪像。在最简单的编解码器中,可向一帧中的所有变换系数应用特定的固定QP值。尽管这在某些情况下可能是可接受的解决方案,但是它也有几个缺点:
[0015] 人类视觉系统对于所有频率,或对一帧内的所有空间位置,或对所有亮度色度通道并不都是同样敏感的。对不同系数使用不同QP值提供了甚至具有相同或更少数量的压缩比特的视觉上更出众的编码。同样,也可适当地优化其它误差度量。
[0016] 码率控制或编码器产生期望大小的压缩文件的能力并不容易在整个帧上用单个QP来执行。
[0017] 因此,期望的是允许编码器以任意的方式跨图像改变QP。然而,这意味着用于每一数据分区的实际QP值应在比特流中用信号表示。这导致巨大的开销,仅仅是为了携带QP信号表示信息,从而导致其在实践中是不合适的。所需的是用信号通知QP的灵活但节省比特的手段,尤其是对于经常遇到的情形。
[0018] 概括而言,量化是大多数图像和视频编解码器控制压缩的图像质量和压缩比的主要机制。大多数流行的编解码器支持的量化方法提供了极少的特征或极少的灵活性,或者导致附加比特的重大开销。通常,图像或视频帧通常被均匀地量化,或以在空间位置上改变量化的有限能力来量化。这一灵活性的缺乏损害了压缩质量,并阻止了进行中的准确的码率控制。另一方面,某些编解码器在支持量化方法方面提供几乎无限制的的自由。编码来用信号表示不同量化器的使用在已编码媒体中花费了额外的比特,并且本身会不利地影响压缩效率。此外,构建一致解码器的过程需要量化器方法的所有可能组合生成的大量测试遍,这可能是费力的。
[0019] 概述
[0020] 以下详细描述呈现了提供沿着已编码的数字媒体数据的各维改变量化的能力的灵活量化技术的各种变型。例如,该灵活量化技术的一种代表性实现可以在三个维度上改变量化-在(i)空间位置,(ii)频率子带,以及(iii)色通道上。该详细描述还呈现了在已编码数字媒体数据中高效地用信号表示该灵活量化的方式。该量化方法的好处是因涉及量化的辅助信息而引入的开销对于主要使用情形被最小化,同时如果编码器需要则允许最大的灵活性。
[0021] 提供本概述以便以简化的形式介绍将在以下详细描述中进一步描述的一些概念。该概述不旨在标识所要求保护的主题的关键特征或本质特征,也不旨在用于帮助确定所要求保护的主题的范围。本发明的其它特征和优点在参考附图继续阅读以下对实施例的详细描述后将变得显而易见。
[0022] 附图简述
[0023] 图1是现有技术中常规的基于块变换的编解码器的框图
[0024] 图2是包含块模式编码的代表性编码器的流程图
[0025] 图3是包含块模式编码的代表性解码器的流程图。
[0026] 图4是根据灵活量化技术的包含用于用信号表示DC量化器的伪代码定义的表。
[0027] 图5是根据灵活量化技术的包含用于用信号表示低通量化器的伪代码定义的表。
[0028] 图6是根据灵活量化技术的包含用于用信号表示高通量化器的伪代码定义的表。
[0029] 图7是根据灵活量化技术的包含用于用信号表示帧层处的量化器的伪代码定义的表。
[0030] 图8是根据灵活量化技术的包含用于用信号表示瓦块层处的量化器的伪代码定义的表。
[0031] 图9是根据灵活量化技术的包含用于用信号表示瓦块层处的DC子带的量化器的伪代码定义的表。
[0032] 图10是根据灵活量化技术的包含用于用信号表示瓦块层处的低通子带的量化器的伪代码定义的表。
[0033] 图11是根据灵活量化技术的包含用于用信号表示瓦块层处的高通子带的量化器的伪代码定义的表。
[0034] 图12是根据灵活量化技术的包含用于用信号表示宏块层处的量化器的伪代码定义的表。
[0035] 图13是根据灵活量化技术的包含用于在频率模式中用信号表示宏块层处的低通量化器的伪代码定义的表。
[0036] 图14是根据灵活量化技术的包含用于在频率模式中用信号表示宏块层处的高通量化器的伪代码定义的表。
[0037] 图15是用于实现具有灵活量化的媒体编码器/解码器的合适的计算环境的框图。
[0038] 详细描述
[0039] 以下详细描述涉及提供能够改变沿着空间、频率和色彩维度应用的量化的高效灵活量化(此处称为“灵活量化”)的编码和解码技术。以下描述在数字媒体压缩系统或编解码器的上下文中描述了该技术的一个示例实现。该数字媒体系统以压缩形式对数字媒体数据进行编码以便传输或存储,并解码该数据以供回放或其它处理。出于说明的目的,包含这一灵活量化的该示例性压缩系统是图像或视频压缩系统。或者,该技术也可被结合到用于其它2D数据的压缩系统或编解码器中。灵活量化技术不要求数字媒体压缩系统以特定的编码格式来编码压缩的数字媒体数据。
[0040] 1.编码器/解码器
[0041] 图2和3是在代表性2维(2D)数据编码器200和解码器300中采用的过程的一般化图示。该图呈现了结合了实现块模式编码的2D数据编码器和解码器的压缩系统的一般化或简化的图示。在使用块模式编码的替换压缩系统中,可使用比本代表性编码器和解码器中所示的更多或更少的过程来进行2D数据压缩。例如,某些编码器/解码器还可包括色彩转换、色彩格式、可缩放编码、无损编码、宏块模式等等。取决于量化,压缩系统(编码器和解码器)可提供2D数据的无损和/或有损压缩,量化可基于从无损到有损变化的量化参数。
[0042] 2D数据编码器200产生压缩比特流220,它是作为输入提供给编码器的2D数据210的更紧凑表示(对于典型输入)。例如,2D数据输入可以是图像、视频序列的一帧、或具有两个维度的其它数据。2D数据编码器将输入数据帧划分成块(一般在图2中示为分区230),这在所示的实现中是形成块该帧的平面的规则图案的非重叠4x4像素块。这些块被分组成称为宏块的群集,在该代表性编码器中其大小是16x16像素。宏块进而被分组成称为瓦块的规则结构。瓦块也可形成图像上的规则图案,使得平行中的瓦块是统一的高度且是对齐的,而垂直列中的瓦块是统一的宽度且是对齐的。在该代表性编码器中,瓦块可以是任意大小,该大小在水平和/或垂直方向上是16的倍数。替换编码器实现可以将图像划分成块、宏块、瓦块或其它大小和结构的其它单元。
[0043] 对块之间的每一边缘应用“前向重叠”算子240,之后使用块变换250来变换每一4×4的块。该块变换250可以是由Srinivasan在2004年12月17日提交的题为“Reversible Transform For Lossy And Lossless 2-D Data Compression”(用于有损和无损2D数据压缩的可逆变换)的美国专利申请第11/015,707号中所描述的可逆的、无缩放的2D变换。重叠算子240可以是由Tu等人在2004年12月17日提交的题为“Reversible Overlap Operator for Efficient Lossless Data Compression”(用于高效无损数据压缩的可逆重叠算子)的美国专利申请第11/015,148号;以及Tu等人在2005年1月14日提交的题为“Reversible 2-Dimensional Pre-/Post-Filter for Lapped Biorthogonal Transform”(用于重叠双正交变换的可逆2维预/后滤波器)的美国专利申请第11/035,991号中描述的可逆重叠算子。或者,可使用离散余弦变换或其它块变换和重叠算子。在变换之后,令每一4×4的变换块的DC系数260经受一类似的处理链(块化、前向重叠、之后是4×4的块变换)。所得的DC变换系数和AC变换系数被量化270、熵编码280和分组化290。
[0044] 解码器执行反过程。在解码器侧,从其各自的分组中提取310变换系数位,从中系数本身被解码320和解量化330。DC系数340通过应用反变换来重新生成,并且DC系数的平面使用跨DC块边缘应用的合适的平滑算子来“反重叠”。随后,通过向DC系数应用4×4的反变换350来重新生成整个数据,并从比特流中解码AC系数342。最后,对所得图像平面中的块边缘进行反重叠滤波360。这产生经重构的2D数据输出。
[0045] 在一个示例性实现中,编码器200(图2)将输入图像压缩成压缩比特流220(例如,文件),而解码器300(图3)基于是采用无损还是有损编码来重构原始输入或其近似。编码过程涉及应用以下所讨论的前向重叠变换(LT),这是用同样在以下更全面描述的可逆2维预/后滤波来实现的。解码过程涉及应用使用可逆2维预/后滤波的反重叠变换(ILT)。
[0046] 所示的LT和ILT在确切的意义上是彼此的逆,并且因此可被统称为可逆重叠变换。作为一种可逆变换,LT/ILT对可用于无损图像压缩。
[0047] 由所示的编码器200/解码器300压缩的输入数据210可以是各种色彩格式(例如,RGB/YUV 4:4:4、YUV 4:2:2或YUV 4:2:0彩色图像格式)的图像。通常,输入图像总是具有亮度(Y)分量。如果它是RGB/YUV 4:4:4、YUV 4:2:2或YUV 4:2:0图像,则该图像还具有色度分量,诸如U分量和V分量。图像的这些单独的色彩平面或分量可具有不同的空间分辨率。在例如YUV 4:2:0色彩格式的输入图像的情况下,U和V分量具有Y分量一半的宽度和高度。
[0048] 如上所述,编码器200将输入图像或图片块化成宏块。在一个示例性实现中,编码器200将输入图像块化成Y通道中的16×16像素区域(称为“宏块”)(取决于色彩格式,可以是U和V通道中的16×16、16×8或8×8区域)。每一宏块色彩平面被块化成4×4像素的区域或块。因此,宏块按以下对于本示例性编码器实现的方式由各种色彩格式组成:
[0049] 1.对于灰度图像,每一宏块包含16个4×4的亮度(Y)块。
[0050] 2.对于YUV 4:2:0格式彩色图像,每一宏块包含16个4×4的Y块,并且4个各自为4×4的色度(U和V)块。
[0051] 3.对于YUV 4:2:2格式彩色图像,每一宏块包含16个4×4的Y块,并且8个各自为4×4的色度(U和V)块。
[0052] 4.对于RGB或YUV 4:4:4彩色图像,每一宏块对Y、U和V通道中的每一个包含16个块。
[0053] 因此,在变换之后,该代表性编码器200/解码器300中的宏块具有三个频率子带:DC子带(DC宏块)、低通子带(低通宏块)和高通子带(高通宏块)。在该代表性系统中,低通和/或高通子带在比特流中是可任选的-这些子带可被完全丢弃。
[0054] 此外,压缩的数据可按以下两种次序之一被压缩到比特流中:空间次序和频率次序。对于空间次序,瓦块内的同一宏块的不同子带被排序在一起,且所得的每一瓦块的比特流被写入一个分组中。对于频率次序,来自瓦块内的不同宏块的同一子带被分组在一起,且因此瓦块的比特流被写入三个分组中:DC瓦块分组、低通瓦块分组和高通瓦块分组。另外,可以有其它数据层。
[0055] 由此,对于该代表性系统,图像按以下“维度”来组织:
[0056] 空间维度:帧→瓦块→宏块;
[0057] 频率维度:DC|低通|高通;以及
[0058] 通道维度:亮度|色度_0|色度_1……(例如,Y|U|V)。
[0059] 以上箭头表示分层结构,而垂直条表示划分。
[0060] 尽管该代表性系统按照空间、频率和通道维度来组织压缩的数字媒体数据,但是此处描述的灵活量化方法可以应用于沿着更少、更多或其它维度来组织其数据的替换编码器/解码器系统。例如,该灵活量化方法可应用于使用更大数量的频带、其它格式的色通道(例如,YIQ、RGB等)、附加图像通道(例如,用于立体声视觉或其它多照相机阵列)的编码。
[0061] 2.灵活量化综述
[0062] 在该代表性编码器/解码器中,量化操作本质上是按照量化参数QP的加偏除法,这在编码器处执行。反量化或乘法操作是与QP的乘法,这在解码器处执行。然而,此处描述的灵活量化的替换实现可利用其它形式的量化,包括均匀和非均匀、标量或矢量、有或没有死区等。这些量化/反量化过程共同引入了原始变换系数数据的丢失,这表现为解码的图像中的压缩误差或伪像。在最简单的编解码器中,可向一帧中的所有变换系数应用特定的固定QP值。尽管这在某些情况下可能是可接受的解决方案,但是它也有几个缺点:
[0063] 人类视觉系统对于所有频率,或对一帧内的所有空间位置,或对所有亮度和色度通道并不都是同样敏感的。对不同系数使用不同QP值提供了甚至具有相同或更少数量的压缩比特的视觉上更出众的编码。同样,也可适当地优化其它误差度量。
[0064] 码率控制或编码器产生期望大小的压缩文件的能力并不容易在整个帧上用单个QP来执行。
[0065] 因此,理想地,应当可能允许编码器以任意的方式跨图像改变QP。然而,这意味着用于每一数据分区(宏块/瓦块/通道/子带等)的实际QP值应在比特流中用信号表示。这导致巨大的开销,仅仅是为了携带QP信号表示信息,从而导致其在实践中是不合适的。所需的是用信号通知QP的灵活但节省比特的手段,尤其是对于经常遇到的情形。
[0066] 此处描述的灵活量化技术提供了沿着已编码数字媒体数据的各个分区或维度来改变量化的能力。例如,代表性编码器200/解码器300系统中的灵活量化技术的一种实现可以在三个维度上改变量化-在(i)空间位置,(ii)频率子带,以及(iii)色通道上。然而,在该灵活量化技术的其它替换实现中,量化可以在更少、更多或其它数据维度或分组上变化。该技术还包括在已编码媒体数据中高效地用信号表示灵活量化的方式。该量化方法的好处是因涉及量化的辅助信息而引入的开销对于主要使用情形被最小化,同时如果编码器需要则允许最大的灵活性。
[0067] 该灵活量化技术提供了对量化的细空间粒度控制。在一个具体实现中,该灵活量化允许对应用于帧、瓦块或向下到宏块的量化的控制。如果帧没有被均匀量化,则每一瓦块可以被均匀量化;如果瓦块没有被均匀量化,则每一宏块将被不同地量化。
[0068] 该灵活量化还允许沿着频率子带维度进行量化控制。在一个具体实现中,该灵活量化包括指定频率子带之间的量化关系的子带模式。子带可被均匀量化,或被部分均匀量化(低通子带使用DC子带量化器,和/或高通子带使用低通量化器),或被独立量化。
[0069] 该灵活量化还允许对沿着数据的通道维度应用的量化的控制。在一个具体实现中,该灵活量化包括指定色通道之间的量化关系的通道模式。通道可被均匀量化,或者部分地均匀量化(色度通道均匀,但亮度通道独立),或者被独立量化。
[0070] 此处描述的灵活量化还提供高效地在压缩的数字媒体数据的辅助信息中用信号表示上述对空间、频率子带和通道的量化控制的组合的技术,这对于主要使用情形是重要的。此外,该灵活量化技术提供了通过从数字媒体数据中的一组定义的可能量化器子集进行索引来高效地定义量化器选择的方式。
[0071] 3.空间维度中的灵活量化:
[0072] 在空间维度中,在代表性编码器/解码器中由灵活量化技术提供三个选择:
[0073] ·整个帧可使用相同的量化规则来编码。
[0074] ·否则,整个瓦块可使用相同的量化规则来编码,而帧中的不同瓦块可以使用不同的量化规则。
[0075] ·否则,瓦块中的每一宏块可使用相同的量化规则来编码,而瓦块中的不同宏块可以使用不同的量化规则。
[0076] 用信号表示这些可能性的一种手段如下:在帧级的比特流中发送指示第一可能性是否为真的二进制信号。如果否,则在每一瓦块内的比特流中发送指示对该瓦块使用的量化规则的数目的固定长度码元。如果瓦块使用了多于一个量化规则,则在对应的瓦块内的每一宏块中发送指示由该宏块使用的量化规则的可变长度码元。解码器以与编码器一致的方式解释该比特流。
[0077] 代表性编码器200/解码器300使用上述信号表示的变体。由此处标记为“XXX_FRAME_UNIFORM”的通用句法元素表示的二进制信号仅在帧级发送(其中XXX是指定量化器控制的特定频率子带或通道维度的占位符)。在瓦块级,仅当帧级句法元素(XXX_FRAME_UNIFORM)为假时在瓦块级句法元素(XXX_QUANTIZERS)中发送不同量化器规则的数目。如果该数目等于1,则意味着仅有一个规则,且因此该瓦块内的所有宏块用相同的量化规则来均匀编码(指示选择2),如果否,则指示第三种可能性的选择。
[0078] 4.跨频带的灵活量化:
[0079] 对于跨频带的灵活量化,代表性编码器200/解码器300的比特流句法定义两个开关
[0080] ·低通宏块使用与同一空间位置处的DC宏块相同的量化规则。这对应于句法元素USE_DC_QUANTIZER。
[0081] ·高通宏块使用与同一空间位置处的低通宏块相同的量化规则。这对应于句法元素USE_LP_QUANTIZER。
[0082] 这些开关在整个帧使用相同的量化规则时在帧层启用,或者在其它情况下在瓦块层启用。这些开关不在宏块层启用。因此,瓦块内的所有宏块跨频率子带遵守相同的规则。在适当(帧或瓦块)层处对每一开关发送一二进制码元。
[0083] 5.跨图像通道的灵活量化:
[0084] 对于跨通道的灵活量化,代表性编码器200/解码器300的比特流句法定义三个选择:
[0085] ·所有通道-亮度和色度具有相同的量化规则。这由通用句法元素XXX_CH_MODE==CH_UNIFORM来指示。
[0086] ·亮度遵循一个量化规则,而所有色度通道遵循一不同的量化规则,由XXX_CH_MODE==CH_MIXED指示。
[0087] ·所有通道都自由选择不同的量化规则,由XXX_CH_MODE==CH_INDEPENDENT指示。
[0088] 6.组合的灵活量化:
[0089] 代表性编码器200/解码器300使用在以下图4-14所示的代码表中定义的比特流句法,该句法可以如上所述高效地跨维度来编码灵活量化选项中的特定选择。采用跨每一空间、频率子带和通道维度可用的若干量化选项,可用量化选项的排列数目是很大的。代表性编码器200/解码器300的比特流可以用空间或频率排序来布局的事实增加了跨三个维度的灵活量化的复杂性。然而,这不改变可用量化选项,并且仅影响信号的串行化。图4-14定义的句法提供了对组合的灵活量化规则的高效编码。
[0090] 如在代表性编码器/解码器的句法中定义的组合的量化规则的某些突出特征如下。
[0091] 不允许DC量化在宏块的基础上变化。这允许对量化的DC值不同地编码而不必进行反缩放操作。即使在AC(低通和高通)频带用变化的量化编码的时候也用相对较小的量化器来对图像瓦块的DC频带编码不会显著影响比特率。
[0092] 在一个极端,帧内的所有变换系数使用相同的量化参数。在另一极端,用于所有通道的低通和高通量化规则都允许对瓦块/帧的每一宏块独立地变化。唯一的限制是不同低通和高通量化器规则(覆盖所有通道)的数目各自被限于16。每一这样的规则可以为每一通道指定独立的量化参数值。
[0093] 在这些极端之间,允许如由图4-14所示的句法表指定的若干组合。
[0094] 7.量化器参数的索引:
[0095] 代表性编码器/解码器中的特定量化参数(QP)基于谐波比例。量化器参数索引(QPI)的8位值对应于可能相当大的QP值。执行第二级索引使得跨宏块变化的QPI可以用高效的方式来编码。
[0096] 更具体而言,编码器200可以定义比特流中包含1到16个QPI“矢量”的集合。基于选择哪一XXX_CHANNEL_MODE,每一QPI矢量由一个或多个QPI值组成。基于频率子带开关,这些集合是为DC、低通和高通子带定义的。此外,DC集合仅有一个QPI矢量,因为在瓦块通道中只允许一个DC量化器。对这些集合的编码在图4-6所示的表中定义。
[0097] 如图7-11的表所示,对DC、低通和高通频率子带的QPI矢量集合的信号表示如下发生。基于其它编码模式,每一集合的势(即,该集合中的QPI矢量数)对低通和高通子带在相应的瓦块或帧的开始处指示。DC集合的势为1。在该伪代码表中,表示势的句法元素被标记为“XXX_QUANTIZERS”。(在实践中,在比特流中发送XXX_QUANTIZERS–1)。表中标记为“XXX_QUANTIZER”的句法元素表示QPI集合的编码,这在图4-6所示的表中定义。
[0098] 在宏块级,仅发送来自QPI集合内的所需QPI矢量的索引QI就足够。图12-14的表定义了在宏块的基础上发送QI的句法。对应于QI的句法元素被标记为“XXX_QUANTIZER_INDEX”。使用可变长度代码来用信号表示QI。首先,发送指示QI是否为0的一位码元。如果不是,则发送指示与0不同的特定QI的其长度由ceil(log2(XXX_QUANTIZERS-1))给出的固定长度代码。这允许用低至每宏块一位来对“默认”量化规则(QI=0)进行高效编码。当XXX_QUANTIZERS为1时,XXX_QUANTIZER_INDEX唯一地为0,且因此不需要用信号表示QI。
[0099] 8.扩展
[0100] 以上对灵活量化的描述是专用于其在代表性编码器和解码器中的实现以及句法的。然而,该技术的原理也可扩展到其它数字媒体压缩系统和格式。例如,代表性编码器/解码器只有三个频率子带(DC、低通和高通)。但是,更一般地,灵活量化的替换实现可以用直接的方式扩展到多个频率子带。同样,替换灵活量化实现可以在更细的空间粒度改变量化器,诸如通过在子宏块(诸如块)级发送量化索引(QI)信息。对灵活量化技术的基本原理的许多扩展在同一框架内都是可能的。
[0101] 9.计算环境
[0102] 上述用于灵活量化的处理技术可以在各种数字媒体编码和/或解码系统的任一种上实现,包括计算机(各种形状因数,包括服务器、台式机、膝上型计算机、手持式计算机等);数字媒体记录器和播放器;图像和视频捕捉设备(诸如照相机、扫描仪等);通信设备(诸如电话、移动电话、会议设备等);显示、打印或其它呈现设备;以及其它示例等等。该灵活量化技术可用硬件电路、控制数字媒体处理硬件的固件、以及在计算机或在其他计算环境中执行的通信软件来实现,诸如图15中所示。
[0103] 图15示出了其中可实现所描述的实施例的合适计算环境(1500)的一个一般示例。计算环境(1500)并不旨在对本发明的使用范围或功能提出任何局限,因为本发明可在不同的通用或专用计算环境中实现。
[0104] 参考图15,计算环境(1500)包括至少一个处理单元(1510)和存储器(1520)。在图15中,这一最基本的配置(1530)被包括在虚线内。处理单元(1510)执行计算机可执行指令,并且可以是真实或虚拟处理器。在多处理系统中,多个处理单元执行计算机可执行指令以提高处理能力。存储器(1520)可以是易失性存储器(例如,寄存器、高速缓存、RAM)、非易失性存储器(例如,ROM、EEPROM、闪存等)或两者的某种组合。存储器(1502)储存实现所描述的使用灵活量化技术的数字媒体编码/解码的软件(1580)。
[0105] 计算环境可具有额外的特征。例如,计算环境(1500)包括存储(1540)、一个或多个输入设备(1550)、一个或多个输出设备(1560)以及一个或多个通信连接(1570)。诸如总线、控制器或网络等互连机制(未示出)将计算环境(1500)的各组件互连。通常,操作系统软件(未示出)为在计算环境(1500)中执行的其它软件提供操作环境,并协调计算环境(1500)的各组件的活动。
[0106] 存储(1540)可以是可移动或不可移动的,并包括磁盘、磁带或磁带盒、CD-ROM、CD-RW、DVD或可用于储存信息并可在计算环境(1500)内访问的任何其它介质。存储(1540)储存实现所描述的使用灵活量化技术的数字媒体编码/解码的软件(1580)的指令。
[0107] 输入设备(1550)可以是诸如键盘鼠标、笔或跟踪球等触摸输入设备、语音输入设备、扫描设备或向计算环境(1500)提供输入的另一设备。对于音频,输入设备(1550)可以是声卡或接受来自话筒或话筒阵列的模拟或数字形式的音频输入的类似设备,或向计算环境提供音频样本的CD-ROM读取器。输出设备(1560)可以是显示器、打印机、扬声器、CD刻录机或提供来自计算环境(1500)的输出的另一设备。
[0108] 通信连接(1570)允许在通信介质上与另一计算实体的通信。通信介质传达诸如计算机可执行指令、压缩音频或视频信息、或已调制数据信号中的其它数据的信息。已调制数据信号是其一个或多个特征以在信号中编码信息的方式设置或改变的信号。作为示例而非局限,通信介质包括以电、光、RF、红外、声学或其它载波实现的有线或无线技术。
[0109] 此处所描述的使用灵活量化技术的数字媒体编码/解码可在计算机可读介质的一般上下文中描述。计算机可读介质可以是可在计算环境内访问的任何可用介质。作为示例而非局限,对于计算环境(1500),计算机可读介质可包括存储器(1520)、存储(1540)、通信介质和以上任一种的组合。
[0110] 此处描述的使用灵活量化技术的数字媒体编码/解码可在诸如程序模块中所包括的、在目标真实或虚拟处理器上的计算环境中执行的计算机可执行指令的一般上下文中描述。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、库、对象、类、组件、数据结构等。程序模块的功能可以如各实施例中所需的组合或在程序模块之间分离。用于程序模块的计算机可执行指令可以在本地或分布式计算环境中执行。
[0111] 出于表示的目的,详细描述使用了如“确定”、“生成”、“调整”和“应用”等术语来描述计算环境中的计算机操作。这些术语是由计算机执行的操作的高级抽象,且不应与人类所执行的动作混淆。对应于这些术语的实际的计算机操作取决于实现而不同。
[0112] 鉴于可应用本发明的原理的许多可能的实施例,要求保护落入所附权利要求书及其等效技术方案的范围和精神之内的所有这样的实施例作为本发明。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈