首页 / 专利库 / 视听技术与设备 / 视频编码层 / 用于视频编码中扩展空间可分级性的改进层间预测

用于视频编码中扩展空间可分级性的改进层间预测

阅读:298发布:2021-06-14

专利汇可以提供用于视频编码中扩展空间可分级性的改进层间预测专利检索,专利查询,专利分析的服务。并且一种用于为 视频编码 中扩展的空间分级性提供改进的层间预测,以及在扩展的空间分级性的情况下为 运动矢量 改进层间预测的改进的方法和系统。在各种实施方式中,针对宏 块 模式的预测,在确定两个块是否应当被合并时使用来自基本层的实际参考 帧 索引和运动矢量。另外,4×4块中的多个代表 像素 可以用来代表虚拟基本层宏块中的每个4×4块。用于虚拟基本层宏块中相关块的分区和运动矢量信息可以从所有那些4×4块的分区信息和运动矢量推导出。,下面是用于视频编码中扩展空间可分级性的改进层间预测专利的具体信息内容。

1.一种用于对代表可分级比特流中视频的至少一部分的增强 层进行编码的方法,包括:
至少部分基于与多个参考层块相对应的多个参考帧索引值,推导 出规定所述增强层块的分区的编码模式指示符,其中具有相同参考 帧索引的参考层块被合并,以推导出分区大小;以及利用所述编码模式指示符,对所述增强层块进行编码。
2.根据权利要求1所述的方法,其中具有相同运动矢量信息的 参考层块被合并,以推导出所述分区大小。
3.根据权利要求1所述的方法,其中具有差值度量比预先确定 的阈值小的运动矢量信息的参考层块被合并,以推导出所述分区大 小。
4.根据权利要求3所述的方法,其中所述差值度量由运动矢量 分量的绝对差的和推导出,并且所述阈值的值等于1。
5.根据权利要求1所述的方法,其中多个代表像素用于为每个 相应的参考层块选择分区和运动矢量信息。
6.根据权利要求1所述的方法,其中如果所述多个参考块具有 不同的参考帧索引,则选择来自具有最小参考帧索引的参考块的运 动矢量信息。
7.一种计算机程序产品,具体化在计算机可读介质中,包括用 于执行根据权利要求1的过程的计算机代码。
8.一种设备,包括:
处理器;和
存储器单元,其可通信地连接至所述处理器,并且包括:
用于至少部分基于与多个参考层块相对应的多个参考帧索引 值,推导出规定增强层块的分区的编码模式指示符的计算机代码, 其中具有相同参考帧索引的参考层块被合并,以推导出分区大小; 以及用于利用所述编码模式指示符,对所述增强层块进行编码的计 算机代码。
9.根据权利要求8所述的设备,其中具有相同运动矢量信息的 参考层块被合并,以推导出所述分区大小。
10.根据权利要求8所述的设备,其中具有差值度量比预先确定 的阈值小的运动矢量信息的参考层块被合并,以推导出所述分区大 小。
11.根据权利要求10所述的设备,其中所述差值度量由运动矢 量分量的绝对差的和推导出,并且所述阈值的值等于1。
12.根据权利要求8所述的设备,其中多个代表像素用于为每个 相应的参考层块选择分区和运动矢量信息。
13.根据权利要求8所述的设备,其中如果所述多个参考块具有 不同的参考帧索引,则选择来自具有最小参考帧索引的参考块的运 动矢量信息。
14.一种设备,包括:
用于至少部分基于与多个参考层块相对应的多个参考帧索引值, 推导出规定增强层块的分区的编码模式指示符的装置,其中具有相 同参考帧索引的参考层块被合并,以推导出分区大小;以及利用所述编码模式指示符,对所述增强层块进行编码。
15.一种用于对代表可分级比特流中视频帧的至少一部分的增 强层块进行解码的方法,包括:
至少部分基于与多个参考层块相对应的多个参考帧索引值,推导 出规定增强层块的分区的编码模式指示符,其中具有相同参考帧索 引的参考层块被合并,以推导出分区大小;以及利用所述编码模式指示符,对所述增强层块进行解码。
16.根据权利要求15所述的方法,其中具有相同运动矢量信息 的参考层块被合并,以推导出所述分区大小。
17.根据权利要求15所述的方法,其中具有差值度量比预先确 定的阈值小的运动矢量信息的参考层块被合并,以推导出所述分区 大小。
18.根据权利要求17所述的方法,其中所述差值度量由运动矢 量分量的绝对差的和推导出,并且所述阈值的值等于1。
19.根据权利要求15所述的方法,其中多个代表像素用于为相 应的参考层块选择分区和运动矢量信息。
20.根据权利要求15所述的方法,其中如果所述多个参考块具 有不同的参考帧索引,则选择来自具有最小参考帧索引的块的运动 矢量信息。
21.一种计算机程序产品,具体化在计算机可读介质中,包括用 于执行根据权利要求15的过程的计算机代码。
22.一种设备,包括:
处理器;和
存储器单元,其可通信地连接至所述处理器,并且包括:
用于至少部分基于与多个参考层块相对应的多个参考帧索引 值,推导出规定增强层块的分区的编码模式指示符的计算机代码, 其中具有相同参考帧索引的参考层块被合并,以推导出分区大小; 以及利用所述编码模式指示符,对所述增强层块进行解码。
23.根据权利要求22所述的设备,其中具有相同运动矢量信息 的参考层块被合并,以推导出所述分区大小。
24.根据权利要求22所述的设备,其中具有差值度量比预先确 定的阈值小的运动矢量信息的参考层块被合并,以推导出所述分区 大小。
25.根据权利要求24所述的设备,其中所述差值度量由运动矢 量分量的绝对差的和推导出,并且所述阈值的值等于1。
26.根据权利要求22所述的设备,其中多个代表像素用于为相 应的参考层块选择分区和运动矢量信息。
27.根据权利要求22所述的设备,其中如果所述多个参考块具 有不同的参考帧索引,则选择来自具有最小参考帧索引的块的运动 矢量信息。
28.一种设备,包括:
用于至少部分基于与多个参考层块相对应的多个参考帧索引值, 推导出规定增强层块的分区的编码模式指示符的装置,其中具有相 同参考帧索引的参考层块被合并,以推导出分区大小;以及用于利用所述编码模式指示符,对所述增强层块进行解码的装 置。
29.一种用于对代表可分级比特流中视频帧的至少一部分的增 强层块进行编码的方法,包括:
基于来自多个参考块的分区和运动矢量信息,推导出用于所述增 强层块的分区和运动矢量信息;以及
利用所述分区和运动矢量信息,对所述增强层块进行编码。
30.根据权利要求29所述的方法,其中如果被映射的参考块的 每一个具有不同的参考帧索引,则选择来自具有最小参考帧索引的 参考块的运动矢量信息,以推导出用于所述增强层块的分区和运动 矢量信息。
31.根据权利要求29所述的方法,其中如果多于一个的被映射 的块具有最小参考帧索引,则选择用于具有最小参考帧索引的相应 参考块的运动矢量信息的平均,以推导出用于所述增强层块的分区 和运动矢量信息。
32.根据权利要求31所述的方法,其中所述平均包括使用加权 系数的加权平均,并且用于每个被映射的参考块的运动矢量的加权 系数利用以下至少一个而被确定:
所述参考块中由所述运动矢量代表的区域的大小、用于所述运动 矢量的增量运动矢量、用于所述参考块的分区大小、所述参考块的 块类型和所述参考层块的块模式。
33.一种计算机程序产品,具体化在计算机可读介质中,包括用 于执行根据权利要求29的过程的计算机代码。
34.一种设备,包括:
处理器;和
存储器单元,其可通信地连接至所述处理器,并且包括:
用于基于来自多个参考块的分区和运动矢量信息,推导出用于 增强层块的分区和运动矢量信息的计算机代码;以及
用于利用所述分区和运动矢量信息,对所述增强层块进行编码 的计算机代码。
35.根据权利要求34所述的设备,其中如果被映射的参考块的 每一个具有不同的参考帧索引,则选择来自具有最小参考帧索引的 参考块的运动矢量信息,以推导出用于所述增强层块的分区和运动 矢量信息。
36.根据权利要求34所述的设备,其中如果多于一个的被映射 的块具有最小参考帧索引,则选择用于具有最小参考帧索引的相应 参考块的运动矢量信息的平均,以推导出用于所述增强层块的分区 和运动矢量信息。
37.根据权利要求36所述的设备,其中所述平均包括使用加权 系数的加权平均,并且用于每个被映射的参考块的运动矢量的加权 系数利用以下至少一个而被确定:
所述参考块中由所述运动矢量代表的区域的大小、用于所述运动 矢量的增量运动矢量、用于所述参考块的分区大小、所述参考块的 块类型和用于所述参考层块的块模式。
38.一种设备,包括:
用于基于来自多个参考块的分区和运动矢量信息,推导出用于所 述增强层块的分区和运动矢量信息的装置;以及
用于利用所述分区和运动矢量信息,对所述增强层块进行编码的 装置。
39.一种用于对代表可分级比特流中视频帧的至少一部分的增 强层块进行解码的方法,包括:
基于来自多个参考块的分区和运动矢量信息,推导出用于所述增 强层块的分区和运动矢量信息;以及
利用所述分区和运动矢量信息,对所述增强层块进行解码。
40.根据权利要求39所述的方法,其中如果被映射的参考块的 每一个具有不同的参考帧索引,则选择来自具有最小参考帧索引的 所述参考块的运动矢量信息,以推导出用于所述增强层块的分区和 运动矢量信息。
41.根据权利要求39所述的方法,其中如果多于一个的被映射 的块具有最小参考帧索引,则选择用于具有最小参考帧索引的相应 参考块的运动矢量信息的平均,以推导出用于所述增强层块的分区 和运动矢量信息。
42.根据权利要求41所述的方法,其中所述平均包括使用加权 系数的加权平均,并且用于每个被映射的参考块的运动矢量的加权 系数利用以下至少一个而被确定:
所述参考块中由所述运动矢量代表的区域的大小、用于所述运动 矢量的增量运动矢量、用于所述参考块的分区大小、所述参考块的 块类型和所述参考层块的块模式。
43.一种计算机程序产品,具体化在计算机可读介质中,包括用 于执行根据权利要求39的过程的计算机代码。
44.一种设备,包括:
处理器;和
存储器单元,其可通信地连接至所述处理器,并且包括:
用于基于来自多个参考块的分区和运动矢量信息,推导出用于 所述增强层块的分区和运动矢量信息的计算机代码;以及
用于利用所述分区和运动矢量信息,对所述增强层块进行解码 的计算机代码。
45.根据权利要求44所述的设备,其中如果被映射的参考块的 每一个具有不同的参考帧索引,则选择来自具有最小参考帧索引的 参考块的运动矢量信息,以推导出用于所述增强层块的分区和运动 矢量信息。
46.根据权利要求44所述的设备,其中如果多于一个的被映射 的块具有最小参考帧索引,则选择用于具有最小参考帧索引的相应 参考块的运动矢量信息的平均,以推导出用于所述增强层块的分区 和运动矢量信息。
47.根据权利要求46所述的设备,其中所述平均包括使用加权 系数的加权平均,并且用于每个被映射的参考块的运动矢量的加权 系数利用以下至少一个而被确定:
所述参考块中由所述运动矢量代表的区域的大小、用于所述运动 矢量的增量运动矢量、用于所述参考块的分区大小、所述参考块的 块类型和用于所述参考层块的块模式。
48.一种设备,包括:
用于基于来自多个参考块的分区和运动矢量信息,推导出用于所 述增强层块的分区和运动矢量信息的装置;以及
用于利用所述分区和运动矢量信息,对所述增强层块进行解码的 装置。

说明书全文

技术领域

发明总体上涉及视频编码领域。更具体地,本发明涉及支持 扩展空间可分级性的可分级视频编码。

背景技术

本部分意在为权利要求书中阐述的本发明提供背景或上下文。 此处的描述可以包括可被探究的概念,但是这些概念并不必须是以 前已经构思过或者探究过的那些。因此,除非在此指出,否则在本 部分中所描述的并不是本申请说明书和权利要求书的现有技术, 也不因为包括在此部分中就承认是现有技术。
已经针对不同技术规定了不同标准。视频编码标准包括ITU-T H.261、ISO/IEC MPEG-1Visual、ITU-T H.262或ISO/IEC MPEG-2 Visual、ITU-T H.263、ISO/IEC MPEG-4Visual和ITU-T H.264(也 称为ISO/IEC MPEG-4高级视频编码(AVC)或简称为H.264/AVC)。 另外,当前,正在为开发新的视频编码标准而进行着努。正在开 发的一个这种标准是可分级视频编码(SVC)标准,其将成为对 H.264/AVC标准的可分级扩展。SVC的最新草案是H.264/高级视频 编码(AVC)标准的附录F(现在是附录G)。具体地,附录F包 括公知为扩展空间可分级性(ESS)的特征,其在没有保持基本层宏 (MB)与增强层宏块之间的边缘对齐的情况下,提供了对信号的 编码和解码。当利用为1或2的比例进行空间分级并且宏块边缘在 不同层之间对齐时,可以将其视为空间可分级性的特殊案例。
例如,当利用二元(dyadic)分辨率分级(即,幂为2的分级分 辨率)时,可以保持宏块的边缘对齐。此现象在图1中示出,其中 左侧的半分辨率(基本层帧1000)被上采样,以便给出右侧的帧 的全分辨率版本(增强层帧1100)。考虑基本层帧1000中的宏块 MB0,经过上采样的此宏块的边界被示出为增强层帧1100中的外边 界。在此情形下,需要注意的是,经过上采样的宏块精确地包含增 强层处的四个全分辨率宏块,MB1、MB2、MB3和MB4。四个增强层 宏块的MB1、MB2、MB3和MB4边缘精确地对应于宏块MB0的上采 样的边界。重要的是,所标识的基本层宏块是覆盖增强层宏块MB1、 MB2、MB3和MB4中每一个的唯一基本层宏块。换言之,为了形成 对MB1、MB2、MB3和MB4的预测,不需要其它的基本层宏块。
另一方面,在非二元可分级性的情形中,情况大有不同。这在 图2中针对为1.5的分级因子示出。在此情形中,基本层帧1000中 的基本层宏块MB10和MB20被从16×16上采样至较高分辨率增强层 帧1100中的24×24。然而,考虑增强层宏块MB30,可以清楚地看到 此宏块由经过上采样的两个不同宏块MB10和MB20覆盖。这样,为 了形成针对增强层宏块MB30的预测,需要两个基本层宏块MB10和 MB20事实上,取决于所使用的分级因子,单个增强层宏块可以由 多达四个基本层宏块覆盖。
在H.264/AVC标准的附录F的当前草案中,即使形成预测可能 需要若干基本层宏块,但是,相对于相关联的基本层帧对增强层宏 块进行编码也是可能的。由于编码效率与预测准确度紧密相关,所 以期待的是:形成对增强层宏块的准确预测,以便改进编码效率。
根据H.264/AVC标准的附录F的当前草案,当前增强层宏块的 很多方面可以从与其对应的基本层宏块预测出。例如,对来自基本 层的帧内编码宏块(也称为帧内宏块或者帧内MB)进行完全地解码 或重建,使得它们可以被上采样并直接用于预测相应增强层处的亮 度像素值和色度像素值。另外,来自基本层的帧间编码宏块(也称 为帧间宏块或帧间MB)并未完全重建。取而代之的是,仅对每个基 本层帧间MB的预测残差进行解码,并且可以用于预测增强层预测 残差,而不对基本层帧间MB进行运动补偿。这称为“残差预测”。 此外,对于帧间MB,基本层运动矢量也被上采样,并用于预测增强 层运动矢量。
除了上述以外,在H.264/AVC标准的附录F中,针对每个增强 层宏块定义了名称为base_mode_flag的标志。当此标志等于1时, 则应当从与增强层宏块对应的基本层MB完全预测(或导出)该增 强层宏块的类型、模式和运动矢量。由于用于从基本层MB推导出 增强层宏块的宏块类型、模式和运动矢量的相同方法对于编码器解码器都是已知的,所以在这种情况下,不需要进一步将宏块类型 和模式以及其运动矢量信息编码成比特流。如果base_mode_flag等 于0,则不导出增强层的宏块类型和模式信息。
如上所述,在某些情况下,增强层宏块的宏块类型和模式信息 可以从其基本层MB完全预测。根据H.264/AVC标准的附录F的当 前草案,当增强层宏块并未与基本层宏块边缘对齐时,针对每个增 强层宏块,基于覆盖了该增强层宏块的基本层宏块来推导出虚拟基 本层宏块。虚拟基本层宏块的类型、模式和运动矢量都是基于基本 层MB确定的。随后,该虚拟基本层宏块将被视为来自基本层的精 确地覆盖此增强层宏块的唯一宏块。如果对于当前增强层宏块的 base_mode_flag等于1,则其类型、模式和运动矢量被设置得与虚拟 基本层宏块的那些相同。
在H.264/AVC标准的附录F的当前草案中定义的、用于确定虚 拟基本层宏块的类型、模式和运动矢量的方法是自下至上的过程。 首先,对于虚拟基本层宏块的每个4×4块,位于该块的第二行和第 二列中的一个像素被用作该块的代表点,其在图3中示出。在图3 中,宏块在300处表示。该宏块内的4×4块在310处表示,而每个4×4 块中的代表像素在320处表示。当虚拟基本层宏块中的当前4×4块 仅由来自基本层的一个4×4块覆盖时,使用虚拟基本层宏块的每个 4×4块中的一个像素具有简单这一优势。但是,当其由来自基本层的 多个4×4块覆盖时,这种方法可能不够准确。
图4(a)和图4(b)示出了虚拟基本层宏块300与相应基本层 宏块之间的关系。在上采样之后,基本层中将精确地覆盖当前增强 层宏块的区域在图4(b)中的410处表示。这也是对应于虚拟基本 层宏块300的区域。虚拟基本层宏块300中的4×4块中的代表像素 被标记为pe。其在基本层中的对应像素是pb。根据H.264/AVC标准 的附录F的当前草案,基本层中pb所位于的、在图4(b)中指示为 420的4×4块的宏块分区信息被用作增强层处pe所在的4×4块的分 区信息。换言之,基本层中覆盖像素pe的4×4块的分区信息用作pe 所位于的4×4块的分区信息。这样,虚拟基本层宏块300中的每个4×4 块可以具有分区信息。与分区信息相关联的运动矢量还用作对增强 层运动矢量的预测值。
在虚拟基本层宏块中的四个8×8块中的每一个内,在4×4块级 别处激活块合并过程。如图5所示,如果块1、2、3和4都从来自 基本层的相同单独分区推导出它们的分区,则8×8块的模式被设置 为8×8。否则,如果块1和块2从来自基本层的相同分区推导出它们 的分区,并且块3和块4也从来自基本层的另一相同分区推导出它 们的分区,则8×8块的模式被确定为8×4。类似地,如果块1和块3 具有相同分区,并且块2和块4具有来自基本层的相同分区,则8×8 块的模式被确定为4×8。否则,8×8块的模式被确定为4×4。此过程 在其他所有三个8×8块内单独重复。
如果所有四个8×8块都处于8×8模式,则如图6所示,也在8×8 块级别处执行块合并过程。在图6中,块1、2、3和4都代表8×8 块。如果块1、2、3和4都从来自基本层的相同单独分区推导出它 们的分区,则虚拟基本层宏块的模式被确定为16×16。如果块1和块 2具有相同分区,并且块3和块4也具有来自基本层的相同分区,则 虚拟基本层宏块的模式被确定为16×8。如果块1和块3具有相同分 区,并且块2和块4也具有相同分区,则虚拟基本层宏块的模式被 设置为8×16。否则,虚拟基本层宏块的模式被设置为8×8。
根据H.264/AVC标准的附录F的当前草案,对宏块模式的预测 仅仅基于来自基本层的分区信息。在此布置中,仅当块共享来自基 本层的相同分区信息时,块才可以合并。然而,在扩展空间可分级 性的情况下,来自基本层的不同分区具有相同的参考帧索引和运动 矢量是相当常见的。例如,来自基本层的两个相邻宏块可以具有相 同的参考帧索引和运动矢量。另外,在扩展空间可分级性的情况下, 增强层宏块由来自基本层的多个宏块覆盖是非常常见的。因此,在 确定是否应当合并两个块时仅使用分区信息经常不必要地创建出宏 块内的小分区。这种小分区增大了运动补偿中采样插值过程期间的 计算复杂度。
鉴于上述内容,期待的是:为扩展空间可分级性的情况提供用 于宏块模式和运动矢量的改进的层间预测的系统。

发明内容

本发明的各种实施方式为上述扩展空间可分级性的情况提供用 于对针对宏块模式的层间预测进行改进的系统和方法。各种实施方 式还在扩展空间可分级性的情况下,提供了用于对针对运动矢量的 层间预测进行改进的系统和方法。用于预测宏块模式的传统系统仅 仅基于来自基本层的分区信息;仅当块共享来自基本层的相同分区 信息时,它们才能合并。另一方面,在本发明的实施方式中,合并 过程包括:依靠参考帧索引和运动矢量信息。当块共享来自基本层 的相同参考帧索引和运动矢量信息时,这些块可以在适用时合并。 因此,即使在两个块具有来自基本层的不同分区时,这两个块也可 以合并在一起。此系统和方法可以避免不必要地创建小块分区,这 样将减小运动补偿插值过程中的计算复杂度。
各种实施方式提供了用于对代表可分级比特流中视频帧的至少 一部分的增强层块进行编码的方法、计算机程序产品和设备,由此, 至少部分基于与多个参考层块相对应的多个参考帧索引值来推导出 规定所述增强层块的分区的编码模式指示符,其中具有相同参考帧 索引的参考层块被合并以推导出分区大小。利用所述编码模式指示 符对所述增强层块进行编码。实施方式还提供了用于对代表可分级 比特流中视频帧的至少一部分的增强层块进行解码的方法、计算机 程序产品和设备,由此,至少部分基于与多个参考层块相对应的多 个参考帧索引值来推导出规定增强层块的分区的编码模式指示符, 其中具有相同参考帧索引的所述参考层块被合并以推导出分区大 小。利用所述编码模式指示符对所述增强层块进行解码。
其他实施方式提供了用于对代表可分级比特流中视频帧的至少 一部分的增强层块进行编码的方法、计算机程序产品和设备,由此, 基于来自多个参考块的至少一个的分区和运动矢量信息,推导出用 于所述增强层块的分区和运动矢量信息。利用所述分区和运动矢量 信息对所述增强层块进行编码。又一些其他实施方式提供了用于对 代表可分级比特流中视频帧的至少部分的增强层块进行解码的方 法、计算机程序产品和设备,由此,基于来自多个参考块的至少一 个的分区和运动矢量信息,推导出用于所述增强层块的分区和运动 矢量信息。利用分区和运动矢量信息对增强层块进行解码。
在本发明的另一实施方式中,用于块合并的条件可以放宽。在 此实施方式中,只要块共享相同的参考帧索引和类似的运动矢量, 则相邻块便可以合并在一起。用于合并后的较大块的运动矢量是从 将被合并(预合并)的块的运动矢量推导出的。
另外,虚拟基本层宏块中的每个4×4块传统上已基本上由位于 块中第二行和第二列的单个像素表示,而用于当前块的分区信息已 通过将代表像素映射到基本层并随后在基本层处定位4×4块而获得。 相反,在本发明的各种实施方式中,在4×4块中的多个代表像素可 以用于代表块。当对于虚拟基本层宏块中的当前块而言,基本层中 有多个4×4块可用时,用于虚拟基本层宏块中的当前块的分区和运 动矢量信息可以从所有那些4×4块的分区信息和运动矢量推导出。 当在从基本层推导分区和运动矢量信息时使用4×4块中的多于一个 代表像素时,可以在增强层处获得运动矢量的更准确预测。运动矢 量的这种改进预测可以由此改进编码效率。
本发明的各种实施方式可以在使用任何常见编程语言(例如, C/C++或者汇编语言)的软件中直接实现。本发明的实施方式还可以 以硬件实现并在消费设备中使用。
本发明的这些和其他优势和特征与其组织和操作的方式一起将 从结合附图的下述具体实施方式中变得清楚,其中贯穿下述若干附 图,相同的元素具有相同的标号。

附图说明

图1示出了二元分辨率分级中宏块边界的定位;
图2示出了非二元分辨率分级中宏块边界的定位;
图3是虚拟基本层宏块的表示,其中16个4×4块的每个中具有 代表像素;
图4(a)是虚拟基本层宏块的表示,而图4(b)示出了图4(a) 的虚拟基本层宏块与多个基本层宏块之间的关系;
图5示出了根据H.264/AVC标准的附录F、如何在虚拟基本层 宏块中的4×4块级别处对块进行合并;
图6示出了根据H.264/AVC标准的附录F、如何在虚拟基本层 宏块中的8×8块级别处对块进行合并;
图7是示出了当根据H.264/AVC标准的附录F使用单个代表像 素时,由来自基本层的多个4×4块覆盖的4×4块的表征;
图8是示出了根据本发明一个实施方式的、在4×4块中使用多 个代表像素的表征;
图9示出了用于与本发明的各种实施方式一起使用的通用多媒 体通信系统;
图10是可以在本发明的实现中使用的通信设备的透视图;以及
图11是图10的通信设备的电话电路的示意性表征。

具体实施方式

本发明的各种实施方式为上述扩展空间可分级性的情况提供用 于对针对宏块模式的层间预测进行改进的系统和方法。各种实施方 式还在扩展空间可分级性的情况下,提供了用于对针对运动矢量的 层间预测进行改进的系统和方法。用于预测宏块模式的传统系统仅 仅基于来自基本层的分区信息;仅当块共享来自基本层的相同分区 信息时,它们才能合并。另一方面,在本发明的实施方式中,合并 过程包括:依靠参考帧索引和运动矢量信息。当块共享来自基本层 的相同参考帧索引和运动矢量信息时,这些块可以在适用时合并。 因此,即使在两个块具有来自基本层的不同分区时,这两个块也可 以合并在一起。
在本发明的另一实施方式中,针对块合并的条件可以放宽。在 此实施方式中,只要块共享相同的参考帧索引和类似的运动矢量, 则相邻块便可以合并在一起。用于合并后的较大块的运动矢量是从 将被合并(预合并)的块的运动矢量推导出的。
另外,虚拟基本层宏块中的每个4×4块传统上已基本上由位于 块中第二行和第二列的单个像素表示,而用于当前块的分区信息已 通过将代表像素映射到基本层并随后在基本层处定位4×4块而获得。 相反,在本发明的各种实施方式中,在4×4块中的多个代表像素可 以用于代表块。当对于虚拟基本层宏块中的当前块而言,基本层中 有多个4×4块可用时,用于虚拟基本层宏块中的当前块的分区和运 动矢量信息可以从所有那些4×4块的分区信息和运动矢量推导出。 当在从基本层推导分区和运动矢量信息时使用4×4块中的多于一个 代表像素时,在增强层处获得运动矢量的更准确预测是可能的。
根据本发明的各种实施方式,用于确定虚拟基本层宏块的类型、 模式和运动矢量的方法仍然是自下而上的过程。然而,为了实现上 述改进,实施了很多改变。
在块合并方面,如果两个块具有来自基本层的相同参考帧索引 和类似的或相同的运动矢量,则它们可以合并。如图4(b)所示, 可以出于示例目的进行假设:基本层MB1和基本层MB2都具有帧间 16×16模式,并且另外,都具有相同的参考帧索引和运动矢量。根据 图4(a)和图4(b)中所示的关系,虚拟基本层宏块中的4×4块M 和P从基本层MB1获得分区信息,而4×4块N和Q从基本层MB2 获得分区信息。根据本发明的一个实施方式,块M、N、P和Q可以 合并,因为它们都具有来自基本层的相同参考帧索引和运动矢量信 息。在合并后,用于8×8块的模式是8×8。然而,根据H.264/AVC 标准的附录F中当前定义的方法,这种合并是不被允许的,因为它 们来自不同的基本层宏块并由此属于不同的分区。在使用传统规则 合并之后,用于8×8块的模式可以是4×8,即使这种子分区是没有 必要的。此外,归因于这种不必要的子分区,进一步的块合并也是 不会发生的。例如,如果假设在图4中,基本层宏块MB3和MB4与 MB1和MB2一样,也具有帧间16×16模式,并且具有相同的参考帧 索引和运动矢量,则根据本发明的实施方式,虚拟基本层宏块300 中的块最终可以全部合并在一起,以及帧间16×16的模式将被指派 给虚拟基本层。然而,根据当前在H.264/AVC标准的附录F中定义 的方法,用于虚拟基本层宏块300的模式是8×8,某些8×8块具有 进一步的子分区。
尽管使用不必要的小分区不会影响编码效率,但是其会影响计 算复杂度。在运动补偿过程期间,通常会在分区或子分区的基础上 进行采样插值。对较大分区的插值的复杂度通常比对与该较大分区 具有相同总大小的许多较小分区的插值复杂度要低。这主要是因为, 当对较大分区进行插值时,可以共享和利用更多的中间数据来降低 计算复杂度。
在本发明的另一实施方式中,针对块合并的条件可以放宽到一 定程度。只要相邻块共享相同的参考帧索引和类似的运动矢量,则 它们便可以合并在一起。运动矢量的相似度可以通过预先确定的阈 值Tmw来测量。假设两个运动矢量分别是(Δx1,Δy1)、(Δx2,Δy2), 则两个运动矢量之间的差值可以表示为:D((Δx1,Δy1),(Δx2, Δy2))。在此实例中,D是某个失真测量。例如,该失真测量可以 被定义为两个矢量之间的平方差的和。失真测量还可以定义为两个 矢量之间绝对差的和。只要D((Δx1,Δy1),(Δx2,Δy2))不大 于阈值Tmw,则两个运动矢量就可以视为是相似的。
阈值Tmw可以被定义为数量,例如阈值Tmw=0、1或2等。Tmw 还可以定义为百分数,诸如,在(Δx1,Δy1)或(Δx2,Δy2)的1% 内等。Tmw的某些其他形式的定义也是允许的。当Tmw等于0时,其 要求(Δx1,Δy1)和(Δx2,Δy2)精确地相同,其是在前述本发明的 实施方式中描述的条件。
用于合并后的较大块的运动矢量可以从合并之前的那些块的运 动矢量推导出。推导方法可以基于不同标准。例如,推导出的运动 矢量可以是合并前的那些块的运动矢量的平均或者加权平均。其还 可以是那些运动矢量的中间值。
以下描述针对4×4块的分区信息和运动矢量的推导。如前所述, 在扩展空间可分级性的情况下,增强层宏块(以及虚拟基本层MB) 中的4×4块可以由多达四个基本层4×4块覆盖。如果单个像素在4×4 块中用作针对该块的代表,则选择基本层4×4块中的一个,并且所 选择的块的分区和运动矢量信息被用作对当前4×4块的预测。这种 方法可能不够准确,这在图7中得到证实。在图7中,来自基本层 的经过上采样的4×4块的边界在700处表示。可见,虚拟基本层宏 块中的第一个4×4块710实际上由来自基本层的四个4×4块720、 722、724和726覆盖。当使用代表像素(在图7中的730处指示) 时,选择来自基本层的四个4×4块的一个(在图7中是720),并且 其分区和运动矢量信息被用作针对第一个4×4块710的预测,即使 其他三个4×4块可能具有不同的分区和运动矢量信息。
在本发明的一个实施方式中,在从基本层为当前4×4块推导分 区和运动矢量信息时,并没有将一个像素用作该4×4块的代表,而 是将很多像素用作代表。例如,如图8所指示的,四个采样800、810、 820和830可以用作4×4块840的代表像素。针对每个代表采样,可 以定位相应的基本层4×4块,其中所述基本层4×4块是图8中的840、 850、860和870。整体上,可以由来自基本层的多达4个4×4块。 用于当前4×4块的分区和运动矢量信息随后可以从来自该基本层的 四个4×4块的分区和运动矢量信息推导出。
为了从来自基本层的多个4×4块推导出分区和运动矢量信息, 在一个实施方式中应用下述规则。第一,当来自基本层的4×4块具 有不同的参考帧索引时,则应当选择具有较小参考帧索引值的块。 第二,当来自基本层的不止一个4×4块具有最小的参考帧索引值时, 应当计算这些4×4块的运动矢量的平均或加权平均,并用作针对当 前4×4块中运动矢量的预测。第三,当使用上述加权平均操作时, 用于来自基本层的每个运动矢量的加权系数可以基于许多因素确 定。这些因素包括但不限于,当前4×4块中由运动矢量表示的区域 的大小、其增量运动矢量(即,运动矢量及其相邻运动矢量之间的 差分运动矢量)、运动矢量的分区大小、运动矢量的宏块类型和模 式等。
图9示出了用于与本发明一起使用的通用多媒体通信系统。如 图9所示,数据源100以模拟、未压缩数字格式或压缩数字格式或 这些格式的任意组合提供源信号。编码器110将源信号编码成已编 码媒体比特流。编码器110能够对多于一个的媒体类型(诸如,音 频和视频)进行编码,或者可能需要多于一个的编码器110以对源 信号的不同媒体类型进行编码。编码器110还可以得到合成产生的 输入,诸如图形和文本,或者其能够产生合成媒体的已编码比特流。 在下文中,仅考虑对一个媒体类型的一个已编码媒体比特流进行处 理,以便简化描述。然而,应当注意的是,典型地实时广播服务包 括若干流(典型地,至少一个音频、视频和文本字幕流)。还应当 注意的是,系统可以包括很多编码器,但是在下文中,不失一般性 地,仅考虑一个编码器110,以简化描述。
已编码媒体比特流传输至存储设备120。存储设备120可以包括 任何类型的海量存储器,以存储已编码的媒体比特流。存储设备120 中已编码媒体比特流的格式可以是基本自包含的(elementary self-contained)比特流格式,或者一个或多个已编码比特流可以封装 至容器文件中。某些系统“直播”操作,即,省略存储设备,而直接 将已编码媒体比特流从编码器110传输至发送器130。已编码媒体比 特流随后传输至发送器130,根据需要,也称为服务器。在传输中使 用的格式可以是基本自包含的比特流格式、分组流格式,或者一个 或多个已编码媒体比特流可以封装至容器文件中。编码器110、存储 设备120和发送器130可以位于相同物理设备中,或者它们可以包 括在单独的设备中。编码器110和发送器130可以利用直播实时内 容进行操作,在该情况下,已编码媒体比特流通常不会永久存储, 而是在内容编码器110和/或发送器130中缓冲一小段时间,以平滑 处理延迟、传输延迟和已编码媒体比特速率的变化。
发送器130使用通信协议栈来发送已编码媒体比特流。栈可以 包括但不限于实时传输协议(RTP)、用户数据报协议(UDP)和因 特网协议(IP)。当通信协议栈是面向分组的时候,发送器130将 已编码媒体比特流封装至分组中。例如,当使用RTP时,发送器130 根据RTP净荷格式将已编码媒体比特流封装至RTP分组中。通常, 每个媒体类型具有专用RTP净荷格式。再次需要注意,系统可以包 含多于一个的发送器130,但是为了简化,以下描述仅考虑一个发送 器130。
发送器130可以或可以不通过通信网络连接至网关140。网关 140可以执行不同类型的功能,诸如将根据一个通信协议栈的分组流 转译成另一通信协议栈、合并以及分流数据流,以及根据下行链路 和/或接收器的能力操纵数据流,诸如控制根据流行的下行链路网络 条件控制转发的比特流的比特速率。网关140的示例包括多点会议 控制单元(MCU)、电路交换和分组交换视频电话之间的网关、蜂 窝一键通(PoC)服务器、手持数字视频广播(DVB-H)系统中的 IP封装器,或者将本地广播传输转发到家庭无线网络的机顶盒。当 使用RTP时,网关140被称为RTP混合器,并且作为RTP连接的 端点。
系统包括一个或者多个接收器150,其通常能够接收、解调已传 输的信号,以及将其解封装为已编码的媒体比特流。已编码的媒体 比特流通常进一步由解码器160处理,其输出是一个或者多个未压 缩的媒体流。应当注意,待解码的比特流可以从虚拟地位于任何类 型网络中的远程设备接收。另外,比特流可以从本地硬件或软件接 收。最后,重现器170可以例如通过扬声器或者显示器重现未压缩 的媒体流。接收器150、解码器160和重现器170可以处于相同物理 设备中,或者它们可以被包含在单独的设备中。
图10和图11示出了本发明可以在其中实现的一个代表性通信 设备12。然而,应当理解,本发明不旨在限于一种特定类型的通信 设备12或其他电子设备。图10和图11的通信设备12包括外壳30、 液晶显示器形式的显示器32、小键盘34、麦克36、机38、电 池40、红外端口42、天线44、根据本发明一个实施方式的UICC形 式的智能卡46、读卡器48、无线接口电路52、编解码器电路54、 控制器56、存储器58和电池80。单独的电路和元件可以是本领域 公知的所有类型,例如Nokia范围内的移动电话系列。
通信设备可以使用各种传输技术进行通信,包括但不限于,码 分多址(CDMA)、全球移动通信系统(GSM)、通用移动通信系 统(UMTS)、时分多址(TDMA)、频分多址(FDMA)、传输控 制协议/互联网协议(TCP/IP)、短消息传递服务(SMS)、多媒体消 息传递服务(MMS)、电子邮件、即时消息传递服务(IMS)、蓝 牙、IEEE 802.11等。通信设备可以使用各种媒体进行通信,各种媒 体包括但不限于无线电、红外、激光、线缆连接等。
在方法步骤的通常背景下对本发明进行了描述,在一个实施方 式中,这些方法步骤可以通过程序产品来实现,该计算机程序产品 包括在网络环境中由计算机执行的计算机可执行指令,诸如程序代 码。计算机可读介质可以包括可移除的或者不可移除的存储设备, 包括但不限于只读存储器(ROM)、随机访问存储器(RAM)、压 缩盘(CD)、数字通用盘(DVD)等。通常,程序模块包括例程、 程序、对象、组件、数据结构等,用于执行具体任务或者实现特定 的抽象数据类型。计算机可执行指令、相关数据结构和程序模块代 表了用于执行此处公开的方法的步骤的程序代码的示例。这种可执 行指令或者相关联的数据结构的特定序列代表了用于实现在这种步 骤中描述的功能的对应动作的示例。
本发明的软件和web实现能够利用具有基于规则的逻辑或者其 他逻辑的标准编程技术来实现各种数据库搜索步骤、相关步骤、比 较步骤和决策步骤。还应当注意的是,此处以及权利要求书中使用 的词语“组件”和“模块”意在包括使用一行或者多行软件代码的 实现和/或硬件实现和/或用于接收手动输入的设备。
出于示例和描述的目的,已经给出了本发明实施的前述说明。 前述说明并非是穷举性的,也并非要将本发明限制到所公开的确切 形式,根据上述教导还可能存在各种变形修改,或者是可能从本 发明的实践中得到各种变形和修改。选择和描述这些实施方式是为 了说明本发明的原理及其实际应用,使得本领域的技术人员能够在 适合于所构思特定用途的各种实施方式和各种修改中利用本发明。 在此描述的实施方式的特征可以合并在方法、设备、计算机程序产 品和系统的所有可能实施方式中。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈