以RTP净荷格式传输SEI消息专利检索-视频编码层视听技术与设备专利检索查询-专利查询网

以RTP净荷格式传输SEI消息

阅读：65发布：2021-06-13

专利汇可以提供以RTP净荷格式传输SEI消息专利检索，专利查询，专利分析的服务。并且提供了一种系统和方法，其通过在SEI消息中传送时间层0图片索引(诸如，t10_pic_idx)，而不是可选地将它们包括在NAL单元报头中，来修改差错复原特征。另外，提供了一种机制，用于在实时传输协议(RTP)分组中支持任何SEI消息的重复。支持任何SEI消息的这种重复促进了基于任何已接收分组来检测丢失的时间层0图片。，下面是以RTP净荷格式传输SEI消息专利的具体信息内容。

权利要求

1.一种对代表视频序列的已编码比特流进行封包的方法，所述方法包括：
将已编码视频序列的至少一部分封包至第一分组中，其中所述第一分组包括概述了所述已编码视频序列的所述至少一部分的内容的信息，以及
在所述第一分组中提供与所述已编码视频序列的所述至少一部分相关联的补充增强信息。
2.根据权利要求1所述的方法，其中概述了所述已编码视频序列的所述至少一部分的内容的信息被放置于位于所述第一分组内所有其他数据单元之前的数据单元中，并且其中所述数据单元还包括所述补充增强信息。
3.根据权利要求2所述的方法，其中所述补充增强信息包括在净荷内容可伸缩性信息网络抽象层单元中，并且其中所述净荷内容可伸缩性信息网络抽象层单元的净荷部分用来重复所述净荷内容可伸缩性信息网络抽象层单元中第一个网络抽象层单元的访问单元的补充增强信息单元。
4.根据权利要求2所述的方法，其中所述补充增强信息包括在净荷内容可伸缩性信息网络抽象层单元中，并且其中所述净荷内容可伸缩性信息网络抽象层单元的净荷部分包括标记重复补充增强信息消息的参考图片。
5.一种计算机程序产品，具体化在计算机可读介质上，包括用于执行权利要求1的过程的计算机代码。
6.一种设备，包括：
处理器；以及
 存储器单元，其可通信地连接至所述处理器，并且包括：
用于将已编码视频序列的至少一部分封包至第一分组中的计算机代码，其中所述第一分组包括概述了所述已编码视频序列的所述至少一部分的内容的信息，以及
用于在所述第一分组中提供与所述已编码视频序列的所述至少一部分相关联的补充增强信息的计算机代码。
7.根据权利要求6所述的设备，其中概述了所述已编码视频序列的所述至少一部分的内容的信息被放置于位于所述第一分组内所有其他数据单元之前的数据单元中，并且其中所述数据单元还包括所述补充增强信息。
8.根据权利要求7所述的设备，其中所述补充增强信息包括在净荷内容可伸缩性信息网络抽象层单元中，并且其中所述净荷内容可伸缩性信息网络抽象层单元的净荷部分用来重复所述净荷内容可伸缩性信息网络抽象层单元中第一个网络抽象层单元的访问单元的补充增强信息单元。
9.根据权利要求7所述的设备，其中所述补充增强信息包括在净荷内容可伸缩性信息网络抽象层单元中，并且其中所述净荷内容可伸缩性信息网络抽象层单元的净荷部分包括标记重复补充增强信息消息的参考图片。
10.一种用于对代表图像序列的时间可伸缩比特流进行封包的方法，所述方法包括：
将所述图像序列的至少一部分封包至第一分组中，其中所述第一分组包括概述了所述已编码图像序列的所述至少一部分的内容的第一信息，以及
在所述第一分组中提供指示时间层分级中最低时间层内图像的解码顺序的第二信息。
11.根据权利要求10所述的方法，其中所述第二信息包括时间层图片索引。
12.根据权利要求11所述的方法，其中所述时间层图片索引包括可伸缩视频编码比特流中的多个网络抽象层单元。
13.根据权利要求11所述的方法，其中，如果所述图像代表即时解码刷新图片，则所述时间层图片索引的值等于以下之一：零值和预定范围内的任何其他值。
14.根据权利要求11所述的方法，其中，如果所述图像不代表即时解码刷新图片，则所述时间层图片索引的值是具有时间层为零的前一图片的时间层图片索引的取模操作后的值的函数。
15.一种计算机程序产品，具体化在计算机可读介质中，包括配置用于执行权利要求10的过程的计算机代码。
16.一种设备，包括：
处理器；以及
存储器单元，其可通信地连接至所述处理器，并且包括：
用于将图像序列的至少一部分封包至第一分组中的计算机代码，其中所述第一分组包括概述了所述已编码图像序列的所述至少一部分的内容的第一信息，以及
用于在所述第一分组中提供指示时间层分级中最低时间层内图像的解码顺序的第二信息的计算机代码。
17.根据权利要求16所述的设备，其中所述第二信息包括时间层图片索引。
18.根据权利要求17所述的设备，其中所述时间层图片索引包括可伸缩视频编码比特流中的多个网络抽象层单元。
19.根据权利要求17所述的设备，其中，如果所述图像代表即时解码刷新图片，则所述时间层图片索引的值等于以下之一：零值和预定范围内的任何其他值。
20.根据权利要求17所述的设备，其中，如果所述图像不代表即时解码刷新图片，则所述时间层图片索引的值是具有时间层为零的前一图片的时间层图片索引的取模操作后的值的函数。
21.一种用于对已编码视频进行解包的方法，包括：
从第一分组中解包已编码图像序列的至少一部分，其中所述第一分组包括概述了所述已编码图像序列的所述至少一部分的内容的第一信息，以及
从所述第一分组获得指示时间层分级中最低时间层内图像的解码顺序的第二信息。
22.根据权利要求21所述的方法，其中所述第二信息包括时间层图片索引。
23.根据权利要求22所述的方法，其中所述时间层图片索引包括可伸缩视频编码比特流中的多个网络抽象层单元。
24.根据权利要求22所述的方法，其中，如果所述图像代表即时解码刷新图片，则所述时间层图片索引的值等于以下之一：零值和预定范围内的任何其他值。
25.根据权利要求22所述的方法，其中，如果所述图像不代表即时解码刷新图片，则所述时间层图片索引的值是具有时间层为零的前一图片的时间层图片索引的取模操作后的值的函数。
26.一种计算机程序产品，具体化在计算机可读介质中，包括配置用于执行权利要求21的过程的计算机代码。
27.一种设备，包括：
处理器；以及
存储器单元，其可操作地连接至所述处理器，并且包括：
用于从第一分组中解包已编码图像序列的至少一部分的计算机代码，其中所述第一分组包括概述了所述已编码图像序列的所述至少一部分的内容的第一信息，以及
用于从所述第一分组获得指示时间层分级中最低时间层内图像的解码顺序的第二信息的计算机代码。
28.根据权利要求27所述的设备，其中所述第二信息包括时间层图片索引。
29.根据权利要求28所述的设备，其中所述时间层图片索引包括可伸缩视频编码比特流中的多个网络抽象层单元。
30.根据权利要求28所述的设备，其中，如果所述图像代表即时解码刷新图片，则所述时间层图片索引的值等于以下之一：零值和预定范围内的任何其他值。
31.根据权利要求28所述的设备，其中，如果所述图像不代表即时解码刷新图片，则所述时间层图片索引的值是具有时间层为零的前一图片的时间层图片索引的取模操作后的值的函数。
32.一种用于对已编码视频进行解包的方法，包括：
从第一分组解包已编码视频序列的至少一部分，其中所述第一分组包括概述了所述已编码视频序列的至少一部分的内容的信息，以及
从所述第一分组获得与所述已编码视频序列的所述至少一部分相关联的补充增强信息。
33.根据权利要求32所述的方法，其中概述了所述已编码视频序列的所述至少一部分的内容的信息处在位于所述第一分组内所有其他数据单元之前的数据单元中，并且其中所述数据单元还包括所述补充增强信息。
34.根据权利要求33所述的方法，其中所述补充增强信息包括在净荷内容可伸缩性信息网络抽象层单元中，并且其中所述净荷内容可伸缩性信息网络抽象层单元的净荷部分用来重复所述净荷内容可伸缩性信息网络抽象层单元中第一个网络抽象层单元的访问单元的补充增强信息单元。
35.根据权利要求33所述的方法，其中所述补充增强信息包括在净荷内容可伸缩性信息网络抽象层单元中，并且其中所述净荷内容可伸缩性信息网络抽象层单元的净荷部分包括标记重复补充增强信息消息的参考图片。
36.一种计算机程序产品，具体化在计算机可读介质上，包括用于执行权利要求32的过程的计算机代码。
37.一种设备，包括：
处理器；以及
存储器单元，其可通信地连接至所述处理器，并且包括：
用于从第一分组解包已编码视频序列的至少一部分的计算机代码，其中所述第一分组包括概述了所述已编码视频序列的至少一部分的内容的信息，以及
用于从所述第一分组获得与所述已编码视频序列的所述至少一部分相关联的补充增强信息的计算机代码。
38.根据权利要求37所述的设备，其中概述了所述已编码视频序列的所述至少一部分的内容的信息被放置在位于所述第一分组内所有其他数据单元之前的数据单元中，并且其中所述数据单元还包括所述补充增强信息。
39.根据权利要求38所述的设备，其中所述补充增强信息包括在净荷内容可伸缩性信息网络抽象层单元中，并且其中所述净荷内容可伸缩性信息网络抽象层单元的净荷部分用来重复所述净荷内容可伸缩性信息网络抽象层单元中第一个网络抽象层单元的访问单元的补充增强信息单元。
40.根据权利要求38所述的设备，其中所述补充增强信息包括在净荷内容可伸缩性信息网络抽象层单元中，并且其中所述净荷内容可伸缩性信息网络抽象层单元的净荷部分包括标记重复补充增强信息消息的参考图片。
41.一种设备，包括：
用于将已编码视频序列的至少一部分封包至第一分组中的装置，其中所述第一分组包括概述了所述已编码视频序列的所述至少一部分的内容的信息，以及
用于在所述第一分组中提供与所述已编码视频序列的所述至少一部分相关联的补充增强信息的装置。
42.一种设备，包括：
用于将所述图像序列的至少一部分封包至第一分组中的装置，其中所述第一分组包括概述了所述已编码图像序列的所述至少一部分的内容的第一信息，以及
用于在所述第一分组中提供指示时间层分级中最低时间层内图像的解码顺序的第二信息的装置。
43.一种设备，包括：
用于从第一分组中解包已编码图像序列的至少一部分的装置，其中所述第一分组包括概述了所述已编码图像序列的所述至少一部分的内容的第一信息，以及
用于从所述第一分组获得指示时间层分级中最低时间层内图像的解码顺序的第二信息的装置。
44.一种设备，包括：
用于从第一分组解包已编码视频序列的至少一部分的装置，其中所述第一分组包括概述了所述已编码视频序列的至少一部分的内容的信息，以及
用于从所述第一分组获得与所述已编码视频序列的所述至少一部分相关联的补充增强信息的装置。

说明书全文

技术领域

本发明一般地涉及可伸缩视频编码领域。更具体地，本发明涉及H.264/高级视频编码(AVC)和可伸缩视频编码(SVC)中的差错复原。

背景技术

本部分意在为权利要求书中阐述的本发明提供背景或上下文。此处的描述可以包括可被探究的原理，但是这些原理并不必须是以前已经构思过或者探究过的那些。因此，除非在此指出，否则在本部分中所描述的并不是本申请说明书和权利要求书的现有技术，也不因为包括在此部分中就承认是现有技术。
视频编码标准包括ITU-T H.261、ISO/IEC MPEG-1 Visual、ITU-T H.262或ISO/IEC MPEG-2 Visual、ITU-T H.263、ISO/IEC MPEG-4 Visual和ITU-T H.264(也称为ISO/IEC MPEG-4AVC)。另外，当前，正在努力开发新的视频编码标准。正在开发的一个这种标准是 SVC标准，其将成为对H.264/AVC标准的可伸缩扩展。另一正在开发的标准是多视点编码标准(MVC)，其也是H.264/AVC的扩展。另外还在努力开发中国视频编码标准。
SVC的最新草案在2006年10月于中国杭州举办的第21次JVT 会议中提出的JVT-U201，即“Joint Draft 8 of SVC Amendment”中进行了描述，可从 ftp3.itu.ch/av-arch/jvt-site/2006_10_Hangzhou/JVT-U201.zip得到。 MVC的最新草案在2006年10月于中国杭州举办的第21次JVT会议中提出的JVT-U209，即“Joint Draft 1.0 on Multiview Video Coding” 中进行了描述，可从 ftp3.itu.ch/av-arch/jvt-site/2006_10_Hangzhou/JVT-U209.zip得到。通过参考，在此并入这两个文件的全部内容。
可伸缩媒体通常被安排在数据的分级层中。基本层包含已编码媒体流(诸如，视频序列)的个体表示。增强层包含与层级中之前层相关的精细数据。随着增强层被添加至基本层，已解码媒体流的质量逐渐得以改进。增强层增强了时间分辨率(即，帧速率)、空间分辨率，或者简单地增强了另一层或其部分所代表的视频内容的质量。每个层与其依赖层的全部一起是处于某个空间分辨率、时间分辨率和质量水平的视频信号的一个表示。因此，在此使用的术语 “可伸缩层表示”用于描述可伸缩层及其全部依赖层。对应于可伸缩层表示的可伸缩比特流的部分可以被提取，并被解码以便以某个逼真度来产生原始信号的表示。
视频编码层(VCL)和网络抽象层(NAL)的概念是从高级视频编码(AVC)继承来的。VCL包含编解码器的信号处理功能；诸如变换、量化、运动补偿预测、环路滤波器、层间预测之类的机制。基本层或增强层的已编码图片由一个或多个片(slice)组成。NAL 将VCL生成的每个片封装至一个或多个NAL单元中。NAL单元包括NAL单元报头和NAL单元净荷。NAL单元报头包括指示NAL 单元是否包含已编码片的NAL单元类型、已编码片数据分区、序列或图片参数集合等。NAL单元流是许多NAL单元的串联。根据 H.264/AVC或其扩展(例如，SVC)的编码比特流可以是NAL单元流，或者通过将开始码作为NAL单元流中每个NAL单元的前缀，该比特流可以是字节流。
每个SVC层由NAL单元形成，代表该层的已编码视频比特。仅携带一个层的实时传输协议(RTP)流会携带仅属于该层的NAL单元。携带完整可伸缩视频比特流的RTP流会携带基本层和一个或多个增强层的NAL单元。SVC规定这些NAL单元的解码顺序。
在某些情况中，增强层中的数据可以在某个位置之后或者可以在任意位置被截断，其中每个截断位置可以包括代表逐步增强的视觉质量的附加数据。如果截断点的间距很小，则可伸缩性可以说是 “精细粒度”的，因此存在术语“精细粒度(细颗粒)可伸缩性” (FGS)。与FGS相反，那些仅可以在某些粗略位置被截断的增强层所提供的可伸缩性称为“粗糙粒度(颗粒度)可伸缩性”(CGS)。
根据H.264/AVC视频编码标准，访问单元包括一个基本编码图片。在有些系统中，可以通过将访问单元定界符NAL单元插入到比特流中，来简化对访问单元边界的检测。在SVC中，访问单元可以包括多个基本编码图片，但是dependency_id(依赖性id)、 temporal_level(时间层)和quality_level(质量水平)的每个唯一组合最多具有一个图片。
已编码视频比特流可以包括额外信息，用于增强视频针对各种目的的使用。例如，H.264/AVC中所定义的补充增强信息(SEI)和视频可用信息(VUI)提供了这样的功能。H.264/AVC标准及其扩展包括通过SEI消息来支持SEI信令。解码过程并不需要SEI消息来生成输出图片中的正确采样值。而是，SEI消息对于其他目的(例如，差错复原和显示)而言是有帮助的。H.264/AVC包含用于所规定的 SEI消息的语法和语义，但是没有定义用于在接收端中处理消息的过程。因此，编码器需要在创建SEI消息时遵从H.264/AVC标准，而并不要求遵从H.264/AVC标准的解码器为了输出顺序一致而处理 SEI消息。将SEI消息的语法和语义包括在H.264/AVC中的原因之一是为了允许系统规范(诸如，3GPP多媒体规范和DVB规范)对补充信息做出一致解释，并因此允许互操作。其目的在于系统规范可以要求在编码端和解码端两者都使用特定SEI消息，而且可以在系统规范中为应用规定接收端中用于处理SEI消息的过程。
SVC使用与H.264/AVC中所使用的机制类似的机制来提供分级的时间可伸缩性。在SVC中，可以从已编码比特流中丢弃参考图片和非参考图片的某个集合，而不会影响剩余比特流的解码。分级时间可伸缩性需要用于运动补偿的多个参考帧，即，存在包含多个已解码图片的参考图片缓冲器，编码器可以从中选择用于帧间预测的参考帧。在H.264/AVC中，称为子序列的特征支持分级时间可伸缩性，其中每个增强层包含子序列，而每个子序列包含多个参考图片和/或非参考图片。子序列还包括许多相互依赖的图片，这些图片可以被布置，而不会干扰任何较低子序列层中的任何其他子序列。子序列层基于它们彼此的依赖性而被分级布置。因此，当最高增强层中的子序列被布置时，剩余的比特流保持有效。在H.264/AVC中，通过使用子序列相关的补充增强信息(SEI)消息，可以实现对空间可伸缩性信息的信号传送。在SVC中，在网络抽象层(NAL)单元的报头中指示时间层分级。
另外，SVC使用层间预测机制，由此可以根据除了当前重建层或下一较低层之外的其他层来预测某些信息。可以层间预测的信息包括内部纹理、运动和残差数据。层间运动预测还包括块编码模式、报头信息等的预测，其中来自于较低层的运动信息可以用于预测较高层。还可以使用SVC中的帧内编码，即，使用来自于周围宏块或较低层的共位宏块的预测。这种预测技术并不使用运动信息，并且因此被称为帧内预测技术。此外，来自于较低层的残差数据还可以用于预测当前层。
如上所述，SVC涉及利用某些最差质量的“基本层”的编码，以及将质量提高至最大水平的增强信息的编码。SVC流的基本层通常兼容高级视频编码(AVC)。换言之，AVC解码器可以对SVC流的基本层进行解码，并且可以忽略SVC特定的数据。这一特征已经通过规定特定于SVC的已编码片NAL单元类型而实现、为将来在 AVC中使用而预留，并且根据AVC规范必须被跳过。
H.264/AVC的即时解码刷新(IDR)图片仅包含帧内编码的片，并且使得除了当前图片之外的所有参考图片被标记为“未用于参考”。已编码视频序列依照解码顺序(从IDR访问单元(含)到下一IDR访问单元(不含)或者到比特流的末端)定义为连续访问单元的序列，无论哪个出现在前。H.264/AVC中的图片组(GOP)表示按解码顺序连续的多个图片，开始于帧内编码图片，结束于解码顺序中的下一GOP或者已编码视频序列的第一图片(不含)。GOP 内按照输出顺序在帧内图片后面的所有图片可以被正确解码，无论任何之前图片是否已解码。开放GOP是这样的图片组，其中依照输出顺序中在初始帧内图片之前的图片可能不能正确解码。H.264/AVC 解码器可以根据H.264/AVC比特流中的恢复点SEI消息识别开始开放GOP的帧内图片。开始开放GOP的图片在此称为开放解码刷新 (ODR)图片。封闭GOP是这样的图片组，其中所有图片可以被正确解码。在H.264/AVC中，封闭GOP从IDR访问单元开始。
已编码图片可以由索引t10_pic_idx表示。索引t10_pic_idx指示 SVC比特流中与一个访问单元具有相同dependency_id和 qualityl_level值的NAL单元，其中tempora_level等于零。对于 temporal_level等于零的IDR图片，t10_pic_idx的值等于零或者等于 0到N-1(含)范围内的任何值，其中N是正整数。对于temporal_level 等于零任何其他图片，t10_pic_idx的值等于(t10_pic_idx_0+1)％N，其中t10_pic_idx_0是temporal_level等于0的前一图片的t10_pic_idx 的值，％表示取模操作。在当前SVC规范中，t10_pic_idx作为条件字段包括在NAL单元报头中。接收机或者MANE可以检查 t10_pic_idx的值，以确定其是否接收到所有关键图片(即， temporal_level等于0的图片)。如果丢失了关键图片，则可以发送反馈以通知编码器，该编码器继而可以采取某些修复措施，例如，重传丢失的关键图片。
用于H.264/AVC的RTP净荷格式在请求评述(RFC)3984中规定(在www.rfc-editor.org/rfc/rfc3984.txt可得)，而用于SVC的草案 RTP净荷格式在互联网工程任务组(IETF)互联网草案 draft-ietf-avt-rtp-svc-00中规定(在 tools.ietf.org/id/draft-ietf-avt-rtp-svc-00.txt可得)。
RFC 3984规定了若干种封包模式，其中之一是交织模式。如果正在使用交织封包模式，则来自于不止一个访问单元的NAL单元可以被封包至一个RTP分组中。RFC 3984还规定了解码顺序编号 (DON)的概念，其中DON指示在RTP流中传送的NAL单元的解码顺序。
在SVC RTP净荷格式草案中，规定了一种新的NAL单元类型，称为净荷内容可伸缩性信息(PACSI)NAL单元。PACSI NAL单元如果存在的话，则其是聚合分组(aggregation packet)中的第一个 NAL单元，并且其他类型的分组中不存在PASCI NAL单元。PASCI NAL单元指示可伸缩性特征，这些特征对于净荷中所有剩余NAL单元是公用的，因此使得MANE更加容易决定是否转发/处理/丢弃聚合分组。发送器可以创建PASCI NAL单元，而接收器可以忽略它们，或者将它们用作启用高效聚合分组处理的提示。当聚合分组的第一聚合单元包括PASCI NAL单元时，在同一分组中至少存在一个附加聚合单元。根据聚合分组中剩余的NAL单元来设置RTP报头字段。当PASCI NAL单元包括在多次聚合分组中时，设置PASCI NAL单元的解码顺序编号以便指示：该PASCI NAL单元在聚合分组中的 NAL单元里、在解码顺序上是第一个NAL单元，或者该PASCI NAL 单元具有与聚合分组中的剩余NAL单元里、在解码顺序上是第一个的NAL单元相同的解码顺序编号。PASCI NAL单元的结构与四字节的SVC NAL单元报头(其中E等于0)是一样的，如下所述。

发明内容

本发明的各种实施方式提供了一种方法，其通过在SEI消息中传送时间层0图片索引(诸如，t10_pic_idx)，而不是可选地将它们包括在NAL单元报头中，来修改差错复原特征。另外，提供了一种机制，用于在实时传输协议(RTP)分组中支持任何SEI消息的重复。支持任何SEI消息的这种重复促进了基于任何已接收分组来检测丢失的时间层0图片。
在SEI消息中传送t10_pic_idx会产生与在NAL单元报头中传送 t10_pic_idx一样直接且鲁棒的丢失检测。此外，不需要对NAL单元报头或片报头做出改变，也不需要改变t10_pic_idx的语义。另外，实现诸如在此描述的差错复原特征并不会影响已规定的H.264/AVC 或其当前扩展的解码过程。
各种实施方式提供了一种方法、计算机程序产品和设备，用于封包代表视频序列的已编码比特流，包括：将已编码视频序列的至少一部分封包至第一分组中，其中所述第一分组包括概述了所述已编码视频序列的所述至少一部分的内容的信息；以及在所述第一分组中提供与所述已编码视频序列的所述至少一部分相关联的补充增强信息。实施方式还提供了一种方法、计算机程序产品和设备，用于对已编码视频进行解包，包括：从第一分组解包已编码视频序列的至少一部分，其中所述第一分组包括概述了所述已编码视频序列的至少一部分的内容的信息。另外，与已编码视频序列的至少一部分相关联的补充增强信息从第一分组获得。
各种实施方式提供了一种方法、计算机程序产品和设备，用于将代表图像序列的时间可伸缩比特流进行封包，所述方法包括：将所述图像序列的至少一部分封包至第一分组，其中所述第一分组包括概述了所述已编码图像序列的所述至少一部分的内容的第一信息，以及在所述第一分组中提供指示时间层分级中最低时间层内图像的解码顺序的第二信息。又一些实施方式提供了一种方法、计算机程序产品和设备，用于对已编码视频进行解包，包括：从第一分组中解包已编码图像序列的至少一部分，其中所述第一分组包括概述了所述已编码图像序列的所述至少一部分的内容的第一信息。另外，指示时间层分级中最低时间层内图像的解码顺序的第二信息从第一分组获得。
本发明的这些和其他优势和特征与其组织和操作的方式一起将从结合附图的下述具体描述中变得清楚，其中贯穿下述若干附图，类似的元素具有类似的标号。

附图说明

图1示出了用于与本发明一起使用的通用多媒体通信系统；
图2是可以在本发明的实现中使用的移动电话的透视图；
图3是图2的移动电话的电话电路的示意性图；以及
图4是示例性时间可伸缩比特流的图示。

具体实施方式

图1示出了用于与本发明一起使用的通用多媒体通信系统。如图1所示，数据源100以模拟格式、未压缩数字格式或压缩数字格式或这些格式的任意组合来提供源信号。编码器110将源信号编码成已编码媒体比特流。编码器110能够对不止一种媒体类型(诸如，音频和视频)进行编码，或者可能需要不止一个编码器110以对源信号的不同媒体类型进行编码。编码器110还可以得到合成产生的输入，诸如图形和文本，或者其能够产生合成媒体的已编码比特流。在下文中，仅考虑对一种媒体类型的一个已编码媒体比特流进行处理，以便简化描述。然而，应当注意的是，典型地实时广播服务包括若干流(典型地，至少一个音频、视频和文本字幕流)。还应当注意的是，系统可以包括很多编码器，但是在下文中，不失一般性地，仅考虑一个编码器110，以简化描述。
应当理解，尽管包含在此的文字和示例具体描述了编码过程，但是本领域技术人员容易理解，相同的概念和原理还可以应用至对应的解码过程，反之亦然。
已编码媒体比特流传输至存储设备120。存储设备120可以包括任何类型的海量存储器，以存储已编码媒体比特流。存储设备120 中已编码媒体比特流的格式可以是基本自包含的(elementary self-contained)比特流格式，或者一个或多个已编码比特流可以封装至容器文件中。某些系统“直播”操作，即，省略存储设备，而直接将已编码媒体比特流从编码器110传输至发送器130。已编码媒体比特流随后传输至发送器130，根据需要，也称为服务器。在传输中使用的格式可以是基本自包含的比特流格式、分组流格式，或者一个或多个已编码媒体比特流可以封装至容器文件中。编码器110、存储设备120和发送器130可以位于相同物理设备中，或者它们可以包括在单独的设备中。编码器110和发送器130可以利用直播实时内容进行操作，在该情况下，已编码媒体比特流通常不会永久存储，而是在内容编码器110和/或发送器130中缓冲一小段时间，以平滑处理延迟、传输延迟和已编码媒体比特速率的变化。
发送器130使用通信协议栈来发送已编码媒体比特流。栈可以包括但不限于RTP、用户数据报协议(UDP)和互联网协议(IP)。当通信协议栈是面向分组的时候，发送器130将已编码媒体比特流封装至分组中。例如，当使用RTP时，发送器130根据RTP净荷格式将已编码媒体比特流封装至RTP分组中。通常，每个媒体类型具有专用RTP净荷格式。再次需要注意，系统可以包含多于一个的发送器130，但是为了简化，以下描述仅考虑一个发送器130。
发送器130可以或可以不通过通信网络连接至网关140。网关 140可以执行不同类型的功能，诸如将根据一种通信协议栈的分组流转译成另一通信协议栈、合并以及分流数据流，以及根据下行链路和/或接收器的能力操纵数据流，诸如控制根据流行的下行链路网络条件控制转发的比特流的比特速率。网关140的示例包括多点会议控制单元(MCU)、电路交换和分组交换视频电话之间的网关、蜂窝一键通(PoC)服务器、手持数字视频广播(DVB-H)系统中的 IP封装器，或者将本地广播传输转发到家庭无线网络的机顶盒。当使用RTP时，网关140被称为RTP混合器，并且作为RTP连接的端点。
系统包括一个或者多个接收器150，其通常能够接收、解调已传输的信号，以及将其解封装为已编码的媒体比特流。已编码的媒体比特流通常进一步由解码器160处理，其输出是一个或者多个未压缩的媒体流。最后，重现器170可以例如通过扬声器或者显示器重现未压缩的媒体流。接收器150、解码器160和重现器170可以位于相同物理设备中，或者它们可以被包含在单独的设备中。应当注意，待解码的比特流可以从虚拟地位于任何类型网络中的远程设备接收。另外，比特流可以从本地硬件或软件接收。
比特速率、解码复杂度和图片大小这些方面中的可伸缩性是异构环境和易出错环境所期望的性质。为了对抗诸如对比特速率、显示分辨率、网络吞吐量和接收设备中的计算功率的局限之类的限制，此性质是期望的。
本发明的通信设备可以使用各种传输技术进行通信，包括但不限于，码分多址(CDMA)、全球移动通信系统(GSM)、通用移动通信系统(UMTS)、时分多址(TDMA)、频分多址(FDMA)、传输控制协议/互联网协议(TCP/IP)、短消息传递服务(SMS)、多媒体消息传递服务(MMS)、电子邮件、即时消息传递服务(IMS)、蓝牙、IEEE 802.11等。通信设备可以使用各种介质进行通信，包括但不限于无线电、红外、激光、线缆连接等。
图2和图3示出了本发明可以在其中实现的一个代表性通信设备12。然而，应当理解，本发明不旨在限于一种特定类型的移动设备12或其他电子设备。图2和图3中所描绘的某些或全部特征可以并入图1所代表的任一或全部设备中。
图2和图3的通信设备12包括外壳30、液晶显示器形式的显示器32、小键盘34、麦克风36、耳机38、电池40、红外端口42、天线44、根据本发明一个实施方式的UICC形式的智能卡46、读卡器 48、无线接口电路52、编解码器电路54、控制器56和存储器58。单独的电路和元件可以是本领域公知的所有类型，例如Nokia范围内的移动电话系列。
图4示出了具有四个时间层和用于每个图片的t10_pic_idx的值的示例性比特流。等于0的时间层被称为层的层级中最低时间层。根据t10_pic_idx的语义，如果图片具有等于0的时间层，则 t10_pic_idx是图片本身的时间层0索引。因此，用于图片顺序计数 (POC)等于0、8和16的图片的t10_pic_idx值分别等于0，1和2。如果图片的时间层大于0，则t10_pic_idx是解码顺序上在前的时间层等于0的图片的时间层0索引。因此，用于POC等于1到7的图片的t10_pic_idx值全部等于1，因为对于它们而言，解码顺序上在前的时间层等于0的图片是POC等于8的图片，而用于POC等于9 到15的图片的t10_pic_idx值全等于2，因为对于它们而言，解码顺序上在前的时间层等于0的图片是POC等于16的图片。
本发明的各种实施方式提供了一种方法，其通过在SEI消息中传送时间层0图片索引(诸如，t10_pic_idx)，而不是可选地将它们包括在NAL单元报头中，来修改差错复原特征。另外，提供了一种机制，用于在实时传输协议(RTP)分组中支持任何SEI消息的重复。支持任何SEI消息的这种重复促进了基于任何已接收分组来检测丢失的时间层0图片。
代表t10_pic_idx索引的字段可以包括在新的SEI消息中，其可以与时间层等于0或等于任何值的每个已编码图片相关联。新SEI 消息可以称为t10图片索引SEI消息，例如，并且可以如下进行规定：
t10_picture_index(净荷大小){ C 描述符 t10 pic_idx 5 u(8) }
与在NAL单元报头中传送t10_pic_idx相比，在新的SEI消息中传送t10_pic_idx会产生同样直接和鲁棒的时间层0图片丢失检测。而且，不需要对NAL单元报头或片报头做出改变，也不需要改变 t10_pic_idx的语义。另外，实现诸如在此描述的差错复原特征并不会影响已规定的H.264/AVC或其当前扩展的解码过程。事实上，类似于t10_pic_idx的差错复原特征，诸如还包括帧计数的子序列信息 SEI消息，之前已作为SEI消息被包括，这与诸如NAL单元报头和片报头之类的高层语法结构形成了鲜明对比。因此，这种传送时间层0图片索引的方法与H.264/AVC的其他传统差错复原特征是相称的。
此外，可以将净荷内容可伸缩性信息(PACSI)NAL单元修改为包括新的SEI消息。目前，PACSI NAL单元如果存在的话，则其是分组中的第一个NAL单元，并且包含概述了分组内容的SVC NAL 单元报头。PACSI NAL单元的净荷是空的。用于PACSI NAL单元的NAL单元类型是从在SVC规范和H.264/AVC RTP净荷规范中未规定的那些值中选择的，从而导致H.264/AVC或SVC解码器和 H.264/AVC RTP接收机忽略PACSI NAL单元。
假设在PACSI NAL单元净荷中允许SEI NAL单元，则PACSI NAL单元净荷中的任何SEI NAL单元可以用于重复PACSI NAL单元之后(而不是嵌套在其中)的第一个NAL单元的访问单元的SEI NAL单元。另外，PACSI NAL单元可以包括标记重复SEI消息的参考图片和可以在访问单元中的第一个VCL NAL单元之前出现的其他NAL单元。这使得能够检测到解码顺序在先的时间层0图片的长期图片索引指派。应当注意，作为在新的SEI消息中传送t10_pic_idx 的结果而带来的任何附加比特速率开销都是可以忽略的。
如上所述，当使用交织封包模式时，PACSI NAL单元可以仅包含用于RTP净荷的第一个NAL单元的SEI消息。然而，根据本发明的另一实施方式，PACSI NAL单元不会照那样封装新的SEI消息，而是封装SEI NAL单元的对，加上解码顺序编号(DON)或DON 差、任何其他图片标识符或者RTP净荷内的任何其他NAL单元标识符，诸如净荷内的NAL单元序列编号。
根据本发明的又一实施方式，可以在RTP净荷规范中规定新的 NAL单元类型，其可以称为交织PACSI(IPACSI)。此NAL单元可以插入在RTP净荷的任何AVC/SVC NAL单元之前。另外，IPACSI 的净荷可以包括用于AVC/SVC NAL单元所属的访问单元的SEI NAL单元的重复。
应当注意，本发明的各种实施方式并不将dependency_id和/或 quality_level与t10_pic_idx SEI消息相关联，因为当dependency_id＞0 或quality_level＞0时，t10_pic_idx SEI消息可以在可伸缩嵌套SEI中使用。因此，可伸缩嵌套SEI的不止一个用途是可能的，尽管在媒体感知网元(MANE)中的解析过程或多或少地变得复杂。备选地，可以针对dependency_id和quality_level的不同值在t10_pic_idx SEI 消息本身中实现循环。
应当注意，除了在此针对t10_pic_index给出的问题之外还存在其他问题。例如，当时间层1图片将不止一个时间层0图片用作预测参考时，t10_pic_index可能不是时间层1图片可以被解码的可靠指示。因此，可以采取用于解决t10_pic_index的问题的其他方法。例如，在后续时间层0图片中使用不同的长期索引使得被指派了特定长期索引的图片不大可能被错误地参考。此外，实际上使用的参考图片，包括是长期的那些，可以在使用参考图片列表重新排序命令时基于片报头而被推断出。仍然作为备选，可以使用子序列SEI 消息，其中子序列层编号和子序列标识符可以智能地用来推断何处出现了子序列层丢失。在某些预测结构中，短期参考图片可以替代长期参考图片而被利用。在又一备选中，“传输”层可以是解决常规t10_pic_idx问题的基础，例如，使用RTP音频可视反馈(AVPF) 简档的种类未确认(NACK)分组，其中NACK分组可以在任何时候检测到时间层0图片潜在丢失时被传输。
在方法步骤的通常背景下对本发明进行了描述，在一个实施方式中，这些方法步骤可以通过程序产品来实现，该程序产品包括在网络环境中由计算机执行的计算机可执行指令，诸如程序代码。计算机可读介质可以包括可移除的或者不可移除的存储设备，包括但不限于只读存储器(ROM)、随机访问存储器(RAM)、压缩盘(CD)、数字通用盘(DVD)等。通常，程序模块包括例程、程序、对象、组件、数据结构等，用于执行具体任务或者实现特定的抽象数据类型。计算机可执行指令、相关数据结构和程序模块代表了用于执行此处公开的方法的步骤的程序代码的示例。这种可执行指令或者相关联的数据结构的特定序列代表了用于实现在这种步骤中描述的功能的对应动作的示例。
本发明的软件和web实现能够利用具有基于规则的逻辑或者其他逻辑的标准编程技术来实现，从而实现各种数据库搜索步骤、相关步骤、比较步骤和决策步骤。还应当注意的是，此处以及权利要求书中使用的词语“组件”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收手动输入的设备。
出于示例和描述的目的，已经给出了本发明实施的前述说明。前述说明并非是穷举性的，也并非要将本发明限制到所公开的确切形式，根据上述教导还可能存在各种变形和修改，或者是可能从本发明的实践中得到各种变形和修改。选择和描述这些实施方式是为了说明本发明的原理及其实际应用，使得本领域的技术人员能够在适合于所构思特定用途的各种实施方式和各种修改中利用本发明。在此描述的实施方式的特征可以合并在方法、设备、计算机程序产品和系统的所有可能实施方式中。

标题	发布/更新时间	阅读量
一种信息中心网络多层次视频媒体系统及其使用方法	2020-05-08	529
压缩/解压缩的装置和系统、芯片、电子装置、方法	2020-05-08	169
广播级内模块式超高清摄像机	2020-05-11	695
处理和传输媒体数据的方法和装置	2020-05-11	992
一种基于SVC数据特性的P2P流媒体分片及调度方法	2020-05-08	255
将子块细分的推导用于来自基础层的预测的可伸缩视频编码	2020-05-12	834
用于混合的交错和递进内容的可伸缩视频编码的方法	2020-05-11	643
一种基于动态注意力机制的多事件视频描述方法	2020-05-08	733
不同视频块尺寸的仿射模式计算	2020-05-11	965
在应用层实现无缝录像的方法、装置及终端设备	2020-05-12	765