编码视频数据的方法以及装置专利检索-视频编码层视听技术与设备专利检索查询-专利查询网

编码视频数据的方法以及装置

阅读：347发布：2020-06-03

专利汇可以提供编码视频数据的方法以及装置专利检索，专利查询，专利分析的服务。并且本发明提供编码视频数据的方法和装置。其中该视频数据配置为基础层以及增强层，以及该增强层比该基础层具有更高空间解析度以及更高品质，该方法包含：从媒介或者处理器接收与该增强层相关的输入数据对应的信息；识别该基础层的多个子区块相关的运动数据；使用包含该基础层的多个子区块相关的运动数据在内的预测信息，编码与该增强层相关的该输入数据；以及透过使用压缩区域中用于多个子区块的代表运动数据而压缩该基础层的多个子区块相关的运动数据，其中所述压缩运动数据，在编码该增强层相关的输入数据之后实施，以及该压缩运动数据被存储用于其他视频帧。通过利用本发明，可获得更高效能以及/或者更多灵活性。，下面是编码视频数据的方法以及装置专利的具体信息内容。

权利要求

1.一种编码视频数据的方法，用于视频编码系统中，其中该视频数据配置为基础层以及增强层，以及该增强层比该基础层具有更高空间解析度以及更高品质，该方法包含：
从媒介或者处理器接收与该增强层相关的输入数据对应的信息；
识别该基础层的多个子区块相关的运动数据；
使用包含该基础层的多个子区块相关的运动数据在内的预测信息，编码与该增强层相关的该输入数据；以及
透过使用压缩区域中用于多个子区块的代表运动数据而压缩该基础层的多个子区块相关的运动数据，其中所述压缩运动数据，在编码该增强层相关的输入数据之后实施，以及该压缩运动数据被存储用于其他视频帧。
2.如权利要求1所述的编码视频数据的方法，其特征在于，该多个子区块对应NxN个子区块，N为正整数，以及N为预先定义或者与N相关的信息整合到片级别、图片级别或者序列级别。
3.如权利要求1所述的编码视频数据的方法，其特征在于，该代表运动数据基于与该多个子区块其中之一相关的运动数据而选择，或者基于该多个子区块相关的运动数据的大多数而选择。
4.如权利要求1所述的编码视频数据的方法，其特征在于，所述多个子区块其中之一对应左上子区块、左下子区块或者右下子区块的角子区块，或者对应中心左上子区块、中心右上子区块、中心左下子区块、或者中心右下子区块的中心子区块。
5.如权利要求4所述的编码视频数据的方法，其特征在于，该多个子区块的所述其中之一的位置为预先定义，或者与该位置相关信息整合到片级别、图片级别或者序列级别。
6.如权利要求1所述的编码视频数据的方法，其特征在于，语法元素为暗示推导或者明示指示以指示所述压缩运动数据在所述编码与该增强层相关的输入数据之后实施，或者在相同接入单元的所有层被处理之后实施，其中，该语法整合到片级别、图片级别或者序列级别。
7.一种编码视频数据的装置，用于视频编码系统中，其中该视频数据配置为基础层以及增强层，以及该增强层比该基础层具有更高空间解析度以及更高品质，该装置包含：
从媒介或者处理器接收与该增强层相关的输入数据的元件；
识别该基础层的多个子区块相关的运动数据的元件；
使用包含该基础层的多个子区块相关的运动数据在内的预测信息，编码与该增强层相关的该输入数据的元件；以及
透过使用压缩区域中用于多个子区块的代表运动数据而压缩该基础层的多个子区块相关的运动数据的元件，其中所述压缩运动数据，在编码该增强层相关的输入数据之后实施，以及该压缩运动数据被存储用于其他视频帧。
8.如权利要求7所述的编码视频数据的装置，其特征在于，该多个子区块对应NxN个子区块，N为正整数，以及N为预先定义或者与N相关的信息整合到片级别、图片级别或者序列级别。
9.如权利要求7所述的编码视频数据的装置，其特征在于，该代表运动数据基于与该多个子区块其中之一相关的运动数据而选择，或者基于该多个子区块相关的运动数据的大多数而选择。
10.如权利要求7所述的编码视频数据的装置，其特征在于，所述多个子区块其中之一对应左上子区块、左下子区块或者右下子区块的角子区块，或者对应中心左上子区块、中心右上子区块、中心左下子区块、或者中心右下子区块的中心子区块。
11.如权利要求10所述的编码视频数据的装置，其特征在于，该多个子区块的所述其中之一的位置为预先定义，或者与该位置相关信息整合到片级别、图片级别或者序列级别。
12.如权利要求7所述的编码视频数据的装置，其特征在于，语法元素为暗示推导或者明示指示以指示所述压缩运动数据在所述编码与该增强层相关的输入数据之后实施，或者在相同接入单元的所有层被处理之后实施，其中，该语法整合到片级别、图片级别或者序列级别。
13.一种编码视频数据的装置，包括：
处理器，在执行存储器中所储存的程序时，执行权利要求1-6中任一项所述的编码视频数据的方法的步骤。

说明书全文

编码视频数据的方法以及装置

技术领域

[0001] 本发明有关于视频编码。特别地，本发明有关于将基础层(base layer)的运动信息(motion information)用于增强层(enhancement layer)编码的可伸缩(scalable)编码。

背景技术

[0002] 压缩数字视频(Compressed digital video)已经广泛用于各种应用中，例如数字网络上的视频流(streaming)以及数字频道(channel)上的视频传输。经常，单一视频内容可以在具有不同特性的多个网络上传递(deliver)。例如，实时体育赛事(live sport event)可以承载在宽频网络上的高频宽流格式中，以用于优质(premium)视频服务。在这类应用中，压缩视频通常保留有高解析度(resolution)以及高品质(quality)，所以视频内容(content)适合用于高解析度装置，例如HDTV或者高解析度LCD显示。相同内容也可以透过蜂窝数据网络而承载，这样，内容可以在便携式装置，例如智能手机或者联网便携媒介装置上观看。在这类应用中，由于网络频宽问题，以及智能手机或者便携装置上的典型的低解析度显示，视频内容通常压缩为较低解析度以及较低比特率(bitrate)。因此，对于不同网络环境以及不同应用，视频解析度以及视频品质的需求有显著差异。甚至由于不同网络架构以及网络业务条件，对于相同类型的网络，用户可以体验不同可用频宽。因此，当网络发生拥塞(congestion)，当可用频段为高以及接收较低品质，但是平滑视频，用户可能期望接收到较高品质的视频。另一个场景中，由于有限计算资源，高端视频播放器可以处理高解析度以及高比特率压缩视频，而低成本视频播放器只能处理低解析度以及低比特率压缩视频。相应地，在可伸缩的方式构建压缩视频，以致不同空间时间(spatial-temporal)解析度(resolution)以及/或者品质的视频可以从相同压缩比特流中获得。

[0003] ISO/IEC MPEG的联合视频组(Joint Video Team，JVT)以及ITU-T VCEG将H.264/AVC标准标准化为一个可伸缩视频编码(Scalable Video Coding，SVC)扩展。H.264/AVC SVC比特流可以包含从低帧率(frame-rate)、低解析度以及低品质到高帧率，高解析度以及高品质的视频信息。这个单一视频流可以适应不同应用以及显示在不同配置的装置上。相应地，H.264/AVC SVC适合各种视频应用，例如视频广播、视频流以及视频监控(surveillance)以适应网络架构、业务条件、用户体验等等。

[0004] SVC中提供三种可伸缩性，即帧率可伸缩(temporal scalability)、空间可伸缩(spatial scalability)以及品质可伸缩(quality scalability)。SVC使用多层编码结构以利用三维可伸缩。SVC的主要目标为没有转换编码(trans-coding)或者重新编码(re-encoding)的前提下，产生一个可伸缩比特流，以及该比特流可以容易以及快速适应到与各种传输频道、多样视频能力(capabilities)以及不同计算资源相关的比特率需求。SVC设计的重要特征为可缩放在比特流级别(bitstream level)提供。换言之，得到具有减少空间以及/或者帧率解析度的视频的比特流可以透过从可缩放比特流中提取网络抽象层(Network Abstraction Layer，NAL)单元(或者网络单元)而简单地获得。用于品质优化(refinement)的NAL单元可以额外地截断(truncated)以减少比特率以及相关视频品质。

[0005] 举例说明，帧率可伸缩可以根据H.264/AVC标准，基于B图片的分层(hierarchical)编码结构而推导(derive)。图1为具有4个时间层的分层B图片架构以及8个图片的图片组(Group of Picture，GOP)的例子示意图。图1中的图片0以及8被称作关键图片(key pictures)。关键图片的帧间预测(Inter prediction)只是用之前的关键图片的参考。两个关键图片之间的其他图片分层(hierarchically)预测。只具有关键图片的视频形成可缩放系统的最粗略(coarsest)帧率解析度。透过根据可缩放系统的增强层，增加更多B图片而逐步优化较低级别(比较粗略)视频而获得帧率可缩放。在图1的例子中图片4为使用关键图片的第一个双向预测，即关键图片之后图片0以及8被编码。图片2在使用图片0以及4双向预测，图片6为使用图片4以及图片8双向预测，剩余图片，即图片1、3、5以及7使用如图1所示的两个分别相邻图片而双向处理，如图1所示。相应地，对于GOP的处理顺序为0、8、4、2、
6、1、3、5以及7。根据图1的分层处理而处理之后的图片形成了分层的四级别图片，其中图片
0以及8属于第一时间顺序，图片4属于第二时间顺序，图片2以及6属于第三时间顺序以及图片1、3、5以及7属于第四时间顺序。透过编码基本级别图片以及增加更高时间顺序图片能够提供更高级别视频。举例说明，基础级别图片0以及8可以与第二级别时间顺序图片4合并以形成第二级别图片。透过解码基础级别图片以及增加更高时间顺序图片能够提供更高级别视频。举例说明，基础级别图片0以及8可以被与第二时间顺序图片4而合并，以形成第二级别图片。透过进一步增加第三时间顺序图片到第二级别视频可以形成第三级别视频。相似地，透过增加第四时间顺序图片到第三级别视频可以形成第四级别视频。相应地，达到帧率伸缩。如果原始视频具有30帧每秒的帧率，那么基础级别视频具有30/8＝3.75每秒的帧率。
第二级别，第三级别以及第四级别视频对应7.5,15,以及30帧每秒。第一时间顺序图片也称作基础级别视频或者基础级别图片。第二时间顺序图片到第四时间顺序图片也称作增强级别视频或者增强级别图片。除了使能帧率伸缩，在增加编码-解码延迟的的前提下，分层B图片的编码架构也提高了典型IBBP GOP结构上的编码效率。

[0006] SVC中，支持基于图2所示的金字塔(pyramid)编码方案的空间伸缩。在具有空间伸缩的SVC系统中，视频序列首先下采样(down-sampled)以获得不同空间解析度(层)的更小的图片。举例说明，原始解析度的图片210可以由空间抽取(decimation)220处理以获得解析度降低图片211。解析度降低图片211可以进一步由空间抽取221处理以获得进一步解析度降低图片212，如图2所示。除了二值(dyadic)空间解析度，其中空间解析度被每一个级别降低为一半，SVC也支持任意解析度比，其中称作扩展空间伸缩(extended spatial scalability，ESS)。图2的SVC系统描述了具有3层的空间伸缩系统的例子示意图，其中层0对应具有最低空间解析度的图片，层2对应具有最高解析度的图片。层0图片没有参考其他层而编码，即，单层编码。举例说明，最低层图片212使用运动补偿以及帧内预测(Intra prediction)230而编码。

[0007] 运动补偿以及帧内预测230可以产生语法元素(syntax element)以及编码相关信息，这样运动信息用于进一步的熵编码240。图2实际上给出了提供空间伸缩以及频率伸缩(也称作SNR伸缩)的组合SVC系统。该系统也可以提供帧率伸缩，没有明示。对于每一个单层编码，残差(residual)编码错误可以使用SNR增强层编码250而优化。图2的SNR增强层可以提供多个品质级别(品质伸缩)。每一被支持解析度层可以透过像无伸缩编码系统的分别单层运动补偿以及帧内预测而编码。每一较高空间层也可以使用基于一个或者更多较低空间层的层之间编码而编码。举例说明，层1视频可以使用基于层0视频，或者基于逐宏块(macroblock by macroblock)或者其他区块单元的单层编码，自适应地编码。相似地，层2视频可以使用层间预测，基于已重建层1视频，或者单层编码而自适应地编码如图2所示，层1图片211可以透过运动补偿以及帧内预测231、基础层熵编码241以及SNR增强层编码251而编码。相似地，层2图片210可以透过运动补偿以及帧内预测232、基础层熵编码242以及SNR增强层编码252而编码。SNR增强层编码250、SNR增强层编码251以及SNR增强层编码252连接到多工器(multiplexer)260以输出可伸缩比特流。由于层之间编码，编码效率可以被提高。
进一步说，编码层1的所需信息可以依赖于被重建层0(层之间预测)。SVC系统中较高层被称作增强层。H.264SVC提供三个类型层之间预测工具：层之间(inter-layer)运动预测、层之间帧内预测以及层之间残差预测。

[0008] SVC中，增强层(Enhancement Layer，EL)可以复用基础层(Base Layer，BL)中的运动信息以减少层之间运动数据冗余(redundancy)。举例说明，EL宏块编码可以在宏块类型(mb_type)决定之前，利用旗标(flag)，例如base_mode_flag以指示出是否EL运动信息为直接来自BL。如果base_mode_flag等于1，具有相关参考索引的EL宏块的分割以及运动矢量为来自对应BL中对应位置(collocated)8x8区块的对应数据。BL的参考图片索引直接用在EL中。EL的运动矢量从BL相关数据中缩放(scale)。除此之外，已缩放BL运动矢量可以用作EL的额外运动矢量预测子(predictor)。

[0009] 层之间残差预测使用上采样(up-sampled)BL冗余信息以减少编码EL冗余所需信息。BL的对应位置冗余可以为逐块(block-wise)上采样，使用双向滤波器，以及可以用作EL中对应宏块的冗余的预测。参考层冗余的上采样基于变换区块基础而完成，以保证跨越变换区块边界之间不使用滤波。

[0010] 与层之间残差预测相似，层之间帧内预测减少了EL的冗余纹理(texture)信息。EL中的预测为逐块上采样对应位置的BL重建信号而产生。在层之间帧内预测上采样过程中，4抽头(tap)以及2抽头FIB滤波器分别用于亮度(luma)以及色度(chroma)分量。与层之间残差预测不同，层之间帧内预测的滤波总是在子区块边界之间实施。为了解码简单，层之间帧内预测可以只用于BL的已编码宏区块内。

[0011] SVC中，品质伸缩透过编码多个品质EL而实现，其中，多个品质EL包含多个优化系数。伸缩视频比特流可以轻易截断或者提取以提供具有不同视频品质或者比特流大小的视频比特流。SVC中，品质伸缩，(作为SNR伸缩而被熟知)可以透过两个策略而提供，粗粒度伸缩(Coarse Grain Scalability，CGS)以及中粒度伸缩(Medium Grain Scalability，MGS)。CGS可以看作是空间伸缩的一个特例，其中BL以及EL的空间解析度相同。但是，EL的品质更好(EL的QP比BL的QP更小)。用于空间伸缩编码的相同层之间预测机制可以被使用。但是不是是对应上采样或者解区块运作。进一步说，层之间帧内预测以及残差预测直接在变换域实施。对CGS的层之间预测透过使用更小量化步长(step)大小，重新量化EL中冗余信号而获得纹理信息的优化，其中上述更小量化步长大小比用于预测CGS层的小。CGS可以提供多个预先决定品质点。

[0012] 为了提供更细比特率粒度(granularity)而保持品质伸缩的合理复杂度，MGS被H.264SVC所用。MGS可以看作是CGS的扩展，其中，一个CGS片(slice)被分割为几个MGS片。CGS中已量化系数基于zigzag扫描顺序中的扫描位置而划分为16个类别。系数的这些16个类别可以分布在不同片中以提供比CGS更多量化提取点。

[0013] 使用与之前已编码视频数据相关的运动信息的预测编码为改进视频编码的有力工具。当使用帧间编码之间(Inter coding)模式，之前已编码视频数据可以对应之前已编码图片帧。当使用帧内编码内(Intra coding)模式，之前已编码视频数据可以对应已经编码的相邻多个区块。区块(即，预测单元或者PU)可以复用(reuse)来自之前已编码帧(帧间编码模式)或者相同帧中相邻区块(帧内模式)的对应区块的运动信息。在此情况下(即，融合(merge)模式)，没有必要传送融合索引(merge index)之外的信息以识别用于共享运动信息的区块。对于帧间(Inter)模式，运动矢量预测(Motion Vector Prediction，MVP)方案被用于选择MVP候选列表中MVP候选相关的运动信息，以编码当前区块。期望在伸缩编码系统中，透过使用来自较低层的运动信息用于编码较高层区块而提高编码效率。

[0014] 当前HEVC中，只提供基于多层B编码结构的没有任何空间伸缩以及品质伸缩的单层编码。期望为当前HEVC提供空间伸缩以及品质伸缩的能力。进一步说，期望提供H.264SVC上的优化SVC以获得更高效能以及/或者更多灵活性。

发明内容

[0015] 本发明提供一种编码视频数据的方法，用于视频编码系统中，其中该视频数据配置为基础层以及增强层，以及该增强层比该基础层具有更高空间解析度以及更高品质，该方法包含：从媒介或者处理器接收与该增强层相关的输入数据对应的信息；识别该基础层的多个子区块相关的运动数据；使用包含该基础层的多个子区块相关的运动数据在内的预测信息，编码与该增强层相关的该输入数据；以及透过使用压缩区域中用于多个子区块的代表运动数据而压缩该基础层的多个子区块相关的运动数据，其中所述压缩运动数据，在编码该增强层相关的输入数据之后实施，以及该压缩运动数据被存储用于其他视频帧。

[0016] 本发明另提供一种编码视频数据的装置，用于视频编码系统中，其中该视频数据配置为基础层以及增强层，以及该增强层比该基础层具有更高空间解析度以及更高品质，该装置包含：从媒介或者处理器接收与该增强层相关的输入数据的元件；识别该基础层的多个子区块相关的运动数据的元件；使用包含该基础层的多个子区块相关的运动数据在内的预测信息，编码与该增强层相关的该输入数据的元件；以及透过使用压缩区域中用于多个子区块的代表运动数据而压缩该基础层的多个子区块相关的运动数据的元件，其中所述压缩运动数据，在编码该增强层相关的输入数据之后实施，以及该压缩运动数据被存储用于其他视频帧。

[0017] 通过利用本发明，可获得更高效能以及/或者更多灵活性。附图说明

[0018] 图1为使用分层B图片的帧率伸缩视频编码例子示意图。

[0019] 图2为提供空间伸缩以及品质伸缩的合并伸缩视频编码系统的例子示意图，其中提供3个空间层。

[0020] 图3为CU结构复用于伸缩视频编码的例子示意图，其中，用于基础层的CU结构被伸缩以及用作增强层的初始CU结构。

[0021] 图4为根据本发明的实施例，压缩区域中小单元的位置，以推导代表运动数据的示意图。

[0022] 图5为使用多个基础层运动矢量，获得(derivation)运动矢量以用于层之间运动预测的示意图。

[0023] 图6为根据本发明的一个实施例，伸缩视频系统中流程示意图。

[0024] 图7为根据本发明的实施例，伸缩视频编码系统中流程示意图。

具体实施方式

[0025] HEVC中，引入编码单元(Coding Unit，CU)作为编码处理的新区块结构。一个图片分为最大CU(largest CU，LCU)，以及每一个LCU自适应分割为多个CU，直到获得叶子(leaf)CU，或者达到最小CU大小。CU结构信息必须传递给解码器一侧，所以相同CU结构可以在解码器一侧被恢复。为了提高用于伸缩HEVC的与CU结构相关的编码效率，BL的CU结构可以由EL复用(reuse)。在EL LCU或者CU级别，一个旗标(flag)被传送以指示是否CU结构从BL的对应CU中复用。EL LCU以及EL CU分别指EL中的LCU以及EL中的CU。如果复用BL CU结构，BL CU结构被伸缩以匹配EL的解析度，已经被伸缩BL CU结构被EL所复用。BL LCU以及BL CU分别指BL中的LCU以及BL中的CU。EL可以复用的CU结构信息包含CU分解(split)旗标以及冗余四叉树(quad-tree)分解旗标。进一步，已伸缩CU结构的leaf CU，可以进一步分割为子CU。图3给出了CU分割(Partition)复用的例子。分割310对应BL的CU结构。EL的图片解析度水平上还有垂直上，为BL的图片解析度的二倍。BL的对应CU分割315的CU结构(如粗线方块表示)被放大为2被。已伸缩CU结构320然后用做EL LCU的初始CU结构。EL中已伸缩CU的leaf CU可以进一步分解为多个子CU，以及结果由图3的CU分割330所表示。旗标可以用于指示是否leaf CU被进一步分为多个子CU。图3给出了被复用CU结构的例子，其他信息也被复用。举例说明，预测类型、预测大小，融合索引，帧间参考方向(inter reference direction)、参考图片索引、运动矢量MVP索引，以及帧内模式(Intra mode)也可以复用。当在信息/数据需要在EL中复用时，信息数据可以伸缩。

[0026] 不只有CU结构可以被复用，其他信息也可以同时被复用。举例说明，Cu预测模式、CU分割模式，融合候选索引，帧间预测旗标(Inter prediction flag(inter_pred_flag)、参考图片索引，运动矢量、MVP索引，帧内预测模式等可以被伸缩(如果需要)以及被复用。

[0027] 在一个leaf CU中模式信息复用：模式信息，包含EL的leaf的跳过旗标(Skip flag)、Cu预测模式、CU分割模式、融合候选索引、帧间预测旗标、参考图片索引、运动矢量，MVP索引、帧内预测模式等，可以共享BL中对应CU的相同模式信息，或者缩放模式信息。旗标可以用于指示是否EL可以复用来自BL的模式信息。对于模式信息的每一片，或者多于一片的信息，旗标可以用于指示是否EL可以复用来自BL的模式信息。

[0028] 模式信息复用BL中对应预测单元(PU)的模式信息，包含CU预测模式、CU分割模式、融合候选索引、帧间预测旗标，参考图片索引，运动矢量以及MVP索引，融合候选等，可以用做EL运动信息编码的预测子(predictors)或者候选。举例说明，BL MV以及BL MVP可以被增加到AMVP的MVP列表中以及/或者融合候选列表中。在一个实施例中，BL MV可以设定为AMVP/融合候选列表中第一个候选从而用于EL。Bl中对应PU的融合候选也可以增加到融合候选列表以及/或者AMVP中的MVP列表中。如上所述，运动信息可以包含各种元素，例如Cu预测模式，Cu分割模式，融合候选索引，帧间预测旗标，参考图片索引，运动矢量以及MVP索引，融合候选。每一个元素称作本发明所揭露的信息片。

[0029] 与所选MVP索引、融合候选索引以及帧内预测模式索引相关的BL信息，可以用于自适应改变EL MVP列表、融合索引列表以及帧内最大概率模式列表(Intra most probable mode list)中的索引顺序。举例说明，在HEVC测试模式版本6.0(HEVC Test Model Version 6.0，HM-6.0)中，MVP列表的顺序为{左MV(left MVP),上MVP(above MVP)，对应位置MVP(collocated MVP)}。如果对应BL PU选择above MVP，above EL MVP的顺序可以向前移动。
EL MVP列表可以为{above MVP,left MVP,collocated MVP}。BL MV，缩放MV，MVP候选，缩放MVP候选，融合候选以及缩放融合候选可以替代一些EL MVP候选以及/或者融合候选。举例说明，BL MV可以替代时间对应位置MV，以用于AMVP/融合候选的得出。BL信息指与BL中区块相关的运动信息，以及EL MVP列表指用于EL的MVP列表。

[0030] 当前PU包含BL中多于一个对应位置区块时，与对应位置区块相关的运动信息可以用于推导至少一个层之间MVP或者融合候选。当在BL中有多于一个对应位置区块时，预先定义的搜索顺序可以用于推导MVP候选列表中的所述至少一层之间候选，或者从BL的所述多于一个对应位置区块中推导融合候选列表。

[0031] 当运动信息不可以用于EL中运动矢量预测时，BL中对应运动信息可以被使用。举例说明，如果右上区块的MV可用，那么BL的右上区块中对应区块的MV可以被使用。

[0032] BL MV、MVP候选以及融合候选包含MV、MVP候选，Bl中对应区块的融合候选。BL MV、MVP候选以及融合候选也可以包含MV、MVP候选以及BL中对应区块的相邻区块中的融合候选。举例说明，相邻区块可以对应BL中左下区块。

[0033] 为了提高编码效率、具有(上采样)基础层运动矢量的冗余校验可以被实施。如果(上采样)基础层运动矢量被放在空间以及时间融合/AMVP候选之前，对于空间以及时间融合/AMVP候选，具有(上采样)基础层运动矢量的等同校验可以被实施。如果空间或者时间融合/AMVP候选与基础层运动矢量(上采样)相同，那么可以被去掉。另一方面，如果(上采样)基础层运动矢量被放在空间以及时间融合/AMVP候选之后，那么等同校验也可以被实施。

[0034] 帧内预测BL帧内预测模式信息可以用于预测EL帧内预测模式信息。BL中对应PU的帧内预测模式可以被增加到最可能模式(Most Probable Mode，MPM)列表中，以用于帧内模式编码。在一个实施例中，BL帧内预测模式可以被设定为最可能模式列表中的第一最可能模式。

[0035] 在一个实施例中，EL中帧内预测模式顺序根据BL帧内模式进行调整。BL帧内预测模式的相邻方向模式也可以被增加到帧内最可能模式列表中。在另一个实施例中，预测方向接近(close to)BL帧内模式的预测方向的剩余帧内预测模式被分配更短码字。

[0036] 在另一个实施例中，帧内预测被使用受限(constrained)帧内预测模式而事实，以用于除了最高EL的所有比特流层。

[0037] 在再一个实施例中，为了简化Cu结构，层之间帧内预测模式可以被包含以作为EL的帧内预测模式之一。层之间帧内预测模式可以被包含作为EL的帧内预测模式之一。层之间帧内预测用于上采样BL重建纹理，作为EL的预测子。

[0038] 冗余四叉树信息复用BL中对应CU的冗余四叉树(Quadtree)分割以及已编码区块样态(Coded Block Pattern，CBP)可以被缩放以及用于得到EL冗余四叉树分割以及CBP编码。

[0039] 纹理信息复用在H.264/AVC缩放扩展中，4抽头以及2抽头FIR滤波器分别用于亮度以及色度的纹理信号的上采样运作。本发明的实施例使用上采样方法用于HEVC SVC，以替代H.264/AVC扩展中的4抽头以及2抽头FIR滤波器。上采样滤波器可以为下列滤波器中一个或者组合：离散余弦变换插值滤波器(Discrete Cosine Transform Interpolation Filter，DCTIF)、离散正选变换插值滤波器(Discrete Sine Transform Interpolation Filter，DSTIF)、维纳滤波器(Wiener filter)，非本地均值滤波器(non-local mean filter)，平滑滤波器(smoothing filter)，自适应重采样滤波器(adaptive resampling filter)以及双向滤波器(bilateral filter)。在一个实施例中，上采样滤波器为自适应滤波器以及自适应到已解码BL信息，其中包含BL纹理以及BL帧内预测模式。举例说明，方向插值滤波器可以用于对应BL CU及其相邻区域的纹理信息，或者帧内预测末模式决定的滤波方向(orientation)而被用于上采样。滤波器可以跨越Cu、PU或者TU边界，或者限制在CU、PU或者TU边界内。

[0040] 层之间帧内预测的填充以及解区块过程可以被跳过以减少计算以及数据依赖问题。Bl中的采样自适应偏移(Sample Adaptive Offset，SAO)以及自适应闭环滤波器(Adaptive Loop Filter，ALF)也可以跳过。填充、解区块、SAO以及ALF的跳过可以在整个CTB上，或者在leaf CU、或者PU、或者TU、或者预先定义区域，或者LCU边界，或者leaf CU边界，或者PU边界，或者TU边界，或者预先定义区域的边界实施。基于CTB的，或者基于CU的维纳滤波器以及/或者自适应偏移也可以用于层之间帧内预测，其中滤波器以及/或者自适应偏移用于Bl纹理数据或者已上采样BL纹理数据。在另一个实施例中，双向预测，或者加权预测可以在BL的纹理信息以及EL的空间纹理信息合并时使用。

[0041] 残差信息复用：H.264/AVC SVC中，2抽头FIR滤波器用于亮度以及色度分量的冗余信号的上采样运作。在一个实施例中，其他上采样方法用于缩放HEVC以替代H.264/AVC SVC中2抽头FIR滤波器。滤波器可以为下列多个滤波器之一或者组合：DCTIF、DSTIF、维纳滤波器、非本地均值(mean)滤波器，平滑滤波器以及双向滤波器。所有上述滤波器可以限制在跨TU边界或者不跨越。

[0042] 残差预测可以在空间域或者频域实施，无论BL以及EL是否相同解析度。

[0043] 在H.264/AVC SVC中，层之间冗余预测只用于MB之间类型。在本发明中，对于HEVC SVC扩展，层之间冗余预测可以用于CU之间以及CU内。

[0044] 熵编码数据信息复用BL信息可以用于EL中的熵编码。在CABAC中，上下文(context)分配可以利用BL的信息。基于BL中的对应信息，EL可以使用不同上下文模型，或者不同上下文格式方法，或者不同上下文组合。举例说明，EL PU可以基于BL中对应PU是否编码为跳过模式而使用不同上下文模型。

[0045] CABAC中，Bl中上下文模型的一部分的概率以及最可能符号(Most Probable Symbol，MPS)可以被复用，以推导EL中部分上下文模型的初始概率以及MPS。

[0046] ALF信息复用BL中ALF的一些信息，例如滤波器子适应模式、滤波器系数、滤波器足印(footprint)、区域分割(region partition)、开关决定(on/off decision)，或者融合结果可以被共享，或者用于推导EL中的ALF信息。举例说明，EL可以使用Bl的ALF参数用于EL的ALF参数，或者从对应BL ALF参数中提取El ALF参数，这样，EL ALF参数的传输可以被跳过。在另一个实施例中，BL ALF参数可以用作推导对应EL ALF参数的预测子。因此，只有预测差异需要被编码以及传送。

[0047] SAO信息复用BL的SAO中一些信息，例如偏移类型、偏移，区域分割、开关决定或者融合结果可以被共享或者用于推导EL的SAO信息。举例说明，EL可以使用BL中SAO参数的一部分作为EL中SAO参数。这些参数的传输可以被跳过或者减少。

[0048] DF信息复用Bl中解区块滤波器(Deblocking Filter，DF)中一些信息，例如阈值(alpha,beta,等等)，可以被共享或者用于推导EL的DF信息。

[0049] 运动数据压缩具有空间伸缩的SVC系统中，增强层的编码或者解码可以依赖BL的运动数据。因此，对于BL的运动数据必须在BL被重建之后存储，这样，EL可以使用来自BL的运动数据。为了减少运动数据缓冲器的大小，运动压缩处理可以被用于存储与重建降低解析度相关的运动数据(即，被存储运动数据用于更大区块大小)。在当前层被重建之后，以及在下一层被处理(即，编码或者解码)之前，传统SVC系统将与当前层相关运动数据应用压缩，本发明的实施例在相同接入单元(access unit)中所有层被处理之后，对于当前相关的运动数据应用压缩。因此，本发明的实施例有更多运动数据可以用于更好的编码效率。运动数据的压缩可以选择性地存储更大粒度而不是最小单元(smallest unit，SU)的CU预测模式(帧内或者帧间)，帧间预测旗标(用于推导Pred_L0,Pred_LC或者Pred_BI)，参考图片索引以及运动矢量。

[0050] 在一个实施例中，只有一个代表(representative)运动被存储用于包含运动数据NxN SU的每一运动压缩区域。压缩比N的控制参数可以预先定义或者在片(slice)级别、图片级别(例如，PPS，APS)或者序列级别(例如SOS)明确指示(例如，片标头)。代表运动数据可以从多个NxN SU其中之一的运动数据中选择。另一个例子中，代表运动数据可以根据NxN SU的主要(majority)运动数据而获得。

[0051] 图4为根据结合本发明的实施例的运动数据压缩的例子。在该例子中，MV压缩被在包含4x4个SU(即,16SU)的每一压缩区域410上实施，其中，最小单元的大小由方块420所表示。在该压缩区域中的所有SU共享相同Cu预测模式、帧间预测旗标、参考图片索引以及代表区块的运动矢量，如果SU的大小为4x4，压缩区域的大小为16x16。在该例子中，左上(top left，TL)SU用于整个压缩区域的代表区块。任何其他SU，例如中间子区块C1(中心子区块的左上)、C2(中心子区块的右上)、C3(中心子区块的左下)以及C4(中心子区块的右下)或者角(corner)子区块TR(右上)、BL(左下)以及BR(右下)也可以选择用于代表SU。代表SU的位置可以预先定义或者在片级别(例如，片标头(slice header))、图片级别(例如PPS，APS)或者序列级别(例如SPS)而明确指示。

[0052] 指示代表运动矢量的使用的语法元素，可以隐含推断，或者在每一层重建之后，或者相同接入单元中所有层被重建之后明确指示。语法元素可以在片级别(例如片标头)、图片级别(例如，PPS，APS)或者序列级别(例如SPS)指示。

[0053] 平行融合/跳过模式的优化在本发明中，揭示了方法，以提供功能，例如减少存储失灵以及平行融合/跳过(merge/skip)模式的优化。平行融合/跳过用于HEVC以提供高吞吐量的灵活性。本发明的一个实施例增加了高级别语法元素以指示平行融合/跳过模式。每一图片(picture)/片(slice)被分为平行的运动估计区域(Motion Estimation Region，MER)以及当前PU中只有属于不同MER的相邻PU可以被允许包含在融合/跳过MVP候选列表构建处理中。

[0054] 本发明的一个实施例，在编码EL图片时，补偿了平行融合/跳过的品质损失。如果相邻PU以及当前PU属于相同MER，那么BL中对应PU可以用作替代。

[0055] MV语法预测HEVC中每一PU或者CU，与候选列表中MV预测候选相关的索引被编码以告知解码器，选择哪个候选。举例说明，融合索引用于指示哪个融合候选被用于该PU，以及增强运动矢量预测子(Advanced Motion Vector Predictor，AMVP)索引用于指示哪个运动矢量应该用作运动矢量预测。一般说来，基础层对应区块的信息与增强层中当前PU的对应区块信息高度相关。举例说明，基础层运动矢量更可能选作增强层当前区块的运动矢量预测子。为了减少与索引选择相关的side信息，本发明的实施例使用一个旗标，inferred_idx_flag用于每一个LCU。当inferred_idx_flag等于1时，不选择包含融合索引、运动矢量预测子索引、帧内模式索引等的索引编码用于该LCU。在此情况下，该LCU中相关索引可以设定为预先定义索引，例如，0。当inferred_index_flag等于0，选择索引可以被编码。

[0056] 受限运动矢量差异HEVC中，运动矢量差异(Motion Vector Difference，MVD)的范围受到档次(profile)和级别的限制。MVC的语法由前缀比特(即，语法元素Pre-fix-bits)、一元正Exp-Golomb码(即，语法元素UEG1)以及正负号比特(即，语法元素1-SignBit)组成。举例说明，如果MVD为0，那么码字“0”为编码；以及如果MVD为“1”，那么码字“101”被编码。
SVC中，上采样基础层运动矢量的可以被用于融合或者AMVP候选其中之一。但是，基础层的运动矢量应该相当接近增强层中的运动矢量，如果基础层运动矢量以及增强层运动矢量对应真运动。如果原始MVD语法用于代表基础层以及增强层之间的MVD，那么对应已编码比特不是有效率的。基础层运动矢量的MVD应该被限制在一定范围内。因此，本发明的一个实施例限制运动矢量差异以减少在此情况下的side信息。举例说明，一个旗标可以用于指示是否MVD等于0或者不等于0，以及MVD的范围也可以限制在[-1,1]。因此，需要更少比特代表MVD。当MVD为“-1”，只需要两个比特代表MVD。首先，一个旗标被编码以指示MVD不为0。一个正负号比特所遵守的旗标以指示MVD的值为“-1”。该限制可以用于基础层以及增强层运动矢量预测子索引作为额外限制。该限制也可以用于一些预先定义运动矢量预测子索引以作为额外限制。换言之，当预先定义运动矢量预测子索引(例如，AMVP中的索引0)被选择，MVD的范围被限制。MVD限制也可以用于融合模式编码。举例说明，如果上采样基础层融合候选，或者索引为0的融合候选被选择，那么可以发送优化(refinement)MVD。

[0057] 优化MVD的语法/码字可以由优化一个方向(方法1：只优化一个方向)而获得。举例说明，一个旗标被指示以决定是否MVD为全0或者不全0。如果MVD不是全0，只有一个方向MVD可以被优化。码字设计可以为(Zero MVD flag+fixed-length code)或者(Zero MVD flag+x/y_refine_flag+refinement_value+sign bit)，其中，Zero MVD flag表示零MVD旗标，fixed-length code表示固定长度码，x/y_refine_flag表示x/y优化旗标，以及sign bit表示正负号比特。下面的表格给出(Zero MVD flag+fixed-length code)的码字表格例子。

[0058]MVD 码字
(0,0) 0
(1,0) 100
(-1,0) 101
(0,1) 110
(0,-1) 111

[0059] 可替换地，优化MVD的语法/码字可以透过优化两个方向(方法2：截断MVD编码)而获得。举例说明，每一方向的优化值以及正负号可以被编码。码字可以设计为(refinement_value for MVD_x,sign for MVD_x,refinement_value for MVD_y,sign for MVD_y)，其中refinement_value for MVD_x表示用于MVD_x的优化值，sign for MVD_x为用于MVD_x的正负号，refinement_value for MVD_y为用于MVD_y的优化值，以及sign for MVD_y表示用于MVD_y的正负号。

[0060]MVD_x/y 码字
0 0
1 10
-1 11

[0061] MVD优化可以明示指示或者暗示推导。MVD优化值可以基于相邻区块信息以及BL信息而推导。举例说明，四分(quarter)像素单元中的相邻区块的MV或者MVD为(-1,1)，MVD优化值可以推导为(-1,1)。

[0062] 基础层的运动矢量获得：SVC中，基础层的运动矢量可以用于增强层以用于层之间运动预测。传统方法中，用于增强层的运动矢量可以透过将增强层PU中已选择点(例如，中心位置)映射到基础层而从基础层推导。基础层PU的运动矢量包含将要用于增强层的运动矢量的位置。但是，当增强层以及基础层的PU边界没有对齐，或者增强以及基础层之间的解析度比不是2的次方时，增强层的PU将会覆盖基础层中的几个PU。在此情况下，基础层中已覆盖PU的只有一个运动矢量可以用于增强层中的PU。本发明的一个实施例透过参考(referring)多个基础层运动矢量，推导与层之间运动预测相关的运动矢量。举例说明如图5所示，增强层PU 510被分为4个区块。每一区块的中心点为参考点。对于每一个区块，基础层参考点的对应位置点被得出。基础层对应位置参考点的运动矢量被用于推导层之间运动预测的运动矢量。例如，多数选择(majority vote)可以被使用。具有最多机会的运动矢量可以看作层之间运动预测的运动矢量。

[0063] 具有冗余校验的运动矢量推导SVC中，基础层的运动矢量可以用于增强层中，以用于层之间运动预测。(上采样)基础层运动矢量可以包含在融合或者AMVP列表中。为了提高编码效率，可以与(上采样)基础层运动矢量实施冗余校验。当空间或者时间融合/AMVP候选被增加到融合/AMVP候选列表中，如果(上采样)基础层运动矢量已经包含其中，在空间或者时间融合/AMVP候选中实施冗余校验。如果空间或者时间融合/AMVP候选与(上采样)基础层矢量相同，那么应该从融合/AMVP候选列表中去除。相似地，如果空间或者时间融合/AMVP候选已经被增加到融合/AMVP候选列表中，冗余校验在(上采样)基础层运动矢量上实施。如果有多于一个层之间候选，则对多于一个层之间候选实施冗余校验。

[0064] 层之间冗余预测旗标编码H.264/SVC中，层之间冗余预测用于减少增强层冗余的信息。基础层对应位置冗余可以用于增强层当前宏块的冗余的逐块预测子。HEVC中，编码单元(Coding Unit，CU)，预测单元(Prediction Unit，PU)以及转换单元(Transform Unit，TU)被使用。CU可以包含几个PU以及TU。如果层之间冗余预测只用于CU级别，那么可能不是有效率的。层之间冗余预测可以用于更小区块。本发明的一个实施例应用PU级别、TU级别或者子CU级别的层之间冗余预测。PU级别中，层之间冗余预测旗标被指示用于每一PU。在TU级别，层之间冗余预测旗标被指示用于每一leaf TU。对于子CU级别，定义冗余预测单元(Residual Prediction Unit，RPU)。对于TU或者当与等于RPU，层之间冗余预测旗标被指示。相同RPU中TU，层之间冗余预测旗标被指示。相同RPU中所有TU共享相同层之间冗余预测旗标。

[0065] 图6为结合本发明的实施例，可伸缩编码系统以编码增强层的的流程示意图。该流程用于视频数据配置为BL以及EL以及EL具有比BL更高解析度或者更好视频品质的系统。该流程以从媒介(media)或者处理器，接收与EL中已选择区块对应的输入数据所相关的信息而开始，如步骤610所示。对于编码器，对应已选择区块输入数据所相关的信息可以存储在媒介中。媒介可以用于输入缓冲器以及输入数据可以从该情况下的媒介中获得。该媒介可以为计算机存储器、缓冲器(RAM或者DRAM)或者其他存储装置/媒介。在基于硬件的实现中，输入数据可以从处理器，例如控制器、中央处理单元、数据信号处理器，或者电子电路获得。在解码器中，对应EL中已选择区块的输入数据以压缩格式以及需要被解码。识别BL中与一个或者多个BL区块相关的运动信息中的至少一个信息片，如步骤620所示。EL中用于已选择区块的MVP候选列表或者融合候选列表被决定，如步骤630所示，其中BL中所述一个或者多个BL区块所相关的至少一信息片被包含在MVP候选列表或者融合候选里列表中。在MVP候选列表或者融合候选列表在MVP候选列表或者融合候选列表被得出之后，对应已选择区块的输入数据然后使用MVP候选列表或者融合候选列表而编码或者解码，如步骤640所示。

[0066] 图7为结合本发明实施例，伸缩编码系统编码增强层的流程示意图。该流程用于视频数据被配置为BL以及EL，以及EL具有比BL更高空间解析度或者更好视频品质的系统。该流程以从媒介或者处理器接收与EL相关的输入数据所对应的信息开始，如步骤710所示。再一次，对于编码器，与EL相关的输入数据所对应信息可以被存储在媒介中。该媒介可以为数据缓冲器，以及输入数据从该情况的媒介中获得。该媒介可以为计算机存储器、缓冲器(RAM或者DRAM)或者其他存储装置/媒介。在基于硬件实现中，输入数据可以从处理器，例如控制器、中央控制单元、数字信号处理器或者电子电路中获得。在解码器中，对应EL中所选择区块对应的输入数据为压缩格式，以及需要被解码。在步骤720中与BL的子区块所相关的运动数据被识别。与EL相关的输入数据然后，使用包含BL的子区块所相关的运动数据的预测信息被编码或者解码，如步骤730所示。预测信息可以包含帧内编码的相邻区块所相关的信息。预测信息可以包含帧间编码的其他帧所相关的信息。在对EL的相关输入数据实施编码之后，与BL的子区块所相关的运动数据可以透过使用压缩区域中多个子区块的代表运动数据而压缩，如步骤740所示，其中，运动数据压缩被存储用于其他视频帧。

[0067] 介绍上述描述为了使能所属领域一般技术人员可以结合特定应用的内容以及需求而实现本发明。所描述实施例的各种变形对于所属领域技术人员是显而易见的，而且所定义的一般原则可以用于其他实施例。因此，本发明不限于上述特定实施例，但是根据所揭示的原则和新颖性特征而符合最宽范围。在上述详细描述中，各种特定细节被描述以提供对于本发明的透彻理解。虽然如此，实现本发明可以被所属领域技术人员所理解。

[0068] 上述本发明的实施例可以以各种硬件、软件代码或者上述两者的组合而实现。举例说明，本发明的实施例可以为整合如视频压缩芯片或者可编程代码而整合到视频压缩软件中，以实施上述处理。本发明的一个实施例也可以程序代码，以被DSP以实施上述处理。本发明也可以包含多个功能以被计算机处理、DSP、微处理器或者FPGA所实施。这些处理器可以配置为根据本发明而实施特定任务，透过执行机器可读软件代码或者固件代码，其中机器可读软件代码或者固件代码定义了本发明所体现的特定方法。软件代码或者固件代码可以以不同程序语言、不同格式或者风格而实现。软件代码也可以被汇编为不同目标平台。但是，不同代码格式、风格以及软件代码语言，以及配置代码根据本发明而实施任务的其他方式不会推理本发明的精神以及保护范围之内。

[0069] 本发明可以体现为其他特定格式，而不脱离本发明的精神或者实质特征。上述例子被认为是只用于说明而不是限制。本发明的保护范围，由所附权利要求所指示，而不会被上述描述所限制。在权利要求的意思以及等同范围内的所有变形均在权利要求的保护范围之内。

标题	发布/更新时间	阅读量
帧内预测编码方法及其装置	2020-05-11	765
向后兼容的HDR视频多层压缩技术	2020-05-12	152
一种基于压缩感知的质量可分级快速编码方法	2020-05-12	779
用于混合的交错和递进内容的可伸缩视频编码的方法	2020-05-11	643
用于视频编码的自适应环内滤波	2020-05-12	197
压缩/解压缩的装置和系统、芯片、电子装置、方法	2020-05-08	169
仿射模型的多个假设	2020-05-08	85
针对多层视频编码的层间参考图片增强的设备	2020-05-11	799
时序动作提名的生成方法、装置、设备及存储介质	2020-05-11	284
解码器、解码方法、编码器和编码方法	2020-05-08	403

编码视频数据的方法以及装置

编码视频数据的方法以及装置

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：