首页 / 专利库 / 视听技术与设备 / 视频编码层 / 视频编码方法及装置

视频编码方法及装置

阅读:547发布:2020-06-01

专利汇可以提供视频编码方法及装置专利检索,专利查询,专利分析的服务。并且本 发明 提供一种 视频编码 方法,用于三维或多视图视频编码或解码系统,该方法包括:在依赖视图中接收相应于当前区 块 的输入数据;确定是否由 视差 矢量指示的视图间参考图像在相应于包括该当前区块的当前条带的参考列表中以用于使用该视差矢量的一或多个三维编码工具;如果由该视差矢量指示的该视图间参考图像不在相应于该当前条带的该当前参考列表中,禁止用于该当前区块的该一或多个三维编码工具;如果由该视差矢量指示的该视图间参考图像在相应于该当前条带的参考列表中,使能用于该当前区块的该一或多个三维编码工具。本发明提供的视频编码方法可克服当相应的视图间参考图像不可用时的问题,正确地执行编码。,下面是视频编码方法及装置专利的具体信息内容。

1.一种视频编码方法,用于三维或多视图视频编码或解码系统,该方法包括:
在依赖视图中接收相应于当前区的输入数据;
确定是否由视差矢量指示的视图间参考图像在相应于包括该当前区块的当前条带的参考列表中以用于使用该视差矢量的一或多个三维编码工具;
如果由该视差矢量指示的该视图间参考图像不在相应于该当前条带的该参考列表中,禁止用于该当前区块的该一或多个三维编码工具;
如果由该视差矢量指示的该视图间参考图像在相应于该当前条带的参考列表中,使能用于该当前区块的该一或多个三维编码工具。
2.如权利要求1所述的方法,其特征在于,从群组中选择该一或多个三维编码工具,其中,该群组包括视图间运动预测、视图合成预测或改进残差预测。
3.如权利要求2所述的方法,其特征在于,该一或多个三维编码工具对应于视图间运动预测,且如果禁止该视图间运动预测,从合并模式候选项列表中排除时间视图间运动矢量候选项。
4.如权利要求2所述的方法,其特征在于,该一或多个三维编码工具对应于视图合成预测且如果禁止该视图合成预测,从合并模式候选项列表中排除视图合成预测候选项。
5.如权利要求1所述的方法,其特征在于,使用高层级语法元素以使能或禁止该一或多个三维编码工具以用于编码每个依赖纹理层或每个依赖深度层。
6.如权利要求1所述的方法,其特征在于,在相应于一个图像或一个层的图像层级比特流或条带层级比特流中传输高层级控制标志以指示是否该一或多个三维编码工具被使能或被禁止以分别用于该一个图像或该一个条带。
7.如权利要求6所述的方法,其特征在于,当在该条带层级比特流中传输该高层级控制标志时,用于该一个图像中的所有条带的该高层级控制标志是相同的。
8.如权利要求1所述的方法,其特征在于,该确定是否由该视差矢量指示的该视图间参考图像在相应于该当前条带的该参考列表中对应于确定是否用于该当前区块的该视图间参考图像的参考视图索引为无效的。
9.如权利要求8所述的方法,其特征在于,如果该参考图像索引具有-1的值,则该参考图像索引为无效的。
10.如权利要求1所述的方法,其特征在于,该视图间参考图像与该当前区块具有相同的图片顺序计数且与该当前区块不同的视图索引。
11.如权利要求1所述的方法,其特征在于,根据该当前区块的一或多个相邻区块推导该视差矢量。
12.如权利要求1所述的方法,其特征在于,如果该视差矢量为不可用或无效的,或该视差矢量的该参考视图为不可用或无效的,将由该视差矢量指示的该视图间参考图像被视为不在该当前参考列表中。
13.一种视频编码装置,用于三维或多视图视频编码或解码系统,该装置包括:
用于在依赖视图中接收相应于当前区块的输入数据的电路
用于确定是否由视差矢量指示的视图间参考图像在相应于包括该当前区块的当前条带的当前参考列表中的电路,以用于使用该视差矢量的一或多个三维编码工具;
用于如果由该视差矢量指示的该视图间参考图像不在相应于该当前条带的该当前参考列表中则禁止用于该当前区块的该一或多个三维编码工具的电路;
用于如果由该视差矢量指示的该视图间参考图像在相应于该当前条带的该当前参考列表中则使能用于该当前区块的该一或多个三维编码工具的电路。

说明书全文

视频编码方法及装置

技术领域

[0001] 本发明有关于三维视频编码。更具体地,本发明有关于根据是否为视图间参考图像而运用3D视频编码工具。

背景技术

[0002] 近年来三维(three-dimensional,3D)电视已成为一种技术趋势,其可为观看者带来震撼的观看体验。各种技术被用于使能3D。其中,相较于其他技术,多视图(multi-view)视频是3D电视应用的关键技术。传统视频是二维(two-dimensional,2D)媒体,仅能向观看者提供来自摄相机度的场景的单一视图(single view)。然而,多视图视频可提供动态场景的任意视点(viewpoint)并为观看者带来真实的感官。
[0003] 多视图视频是通过同时使用多个摄相机捕捉一个场景而建立的,其中,多个摄相机位于适当的位置以使每个摄相机各从一个视点捕捉场景。相应地,多个摄相机将捕捉多个视频序列(video sequence)。为了提供更多的视图,已使用更多的摄相机以产生多视图视频,其中该多视图视频具有相应于视图的大量视频序列。相应地,多视图视频需要大量的存储空间进行存储及/或高的带宽进行传输。因此,技术领域中已发展了多视图视频编码技术以减少传输带宽所需的存储空间。
[0004] 一种直接的方法是对每个单一视图的视频序列独立地应用传统视频编码技术而忽略不同视图之间的关联(correlation)。这种编码系统是非常无效率的。为了改进多视图视频编码效率,多视图视频编码利用视图间残差(inter-view redundancy)。通过扩展现有的视频编码标准,3D编码工具已经得到发展或正在发展中。例如,存在多种标准发展活动以将H.264/AVC(演进的视频编码)和HEVC(高效视频编码)扩展至多视图视频编码(multi-view video coding,MVC)和3D编码。将这种发展中的对应新标准分别称为3D-HEVC或3D-AVC编码。用于3D-HEVC或3D-AVC的已发展的或正在发展中的各种3D编码工具回顾如下。
[0005] 图1为包括视差补偿预测(Disparity-Compensated Prediction,DCP)和运动补偿预测(motion-compensated prediction,MCP)的3D视频编码系统。将用于DCP的矢量(110)称为视差矢量(disparity vector,DV),其模拟MCP中使用的运动矢量(motion vector,MV)。图1显示相应于MCP的三个MV(120,130和140)。此外,可以视差矢量预测器(disparity vector predictor,DVP)候选项来预测DCP的DV110,其中,DVP候选项可从使用视图间参考图像的相邻区或时间共位区块(temporal collocated block)推导。视图间参考图像(160)可与当前图像(150)具有相同图像顺序计数(picture order count,POC)。然而,由于视图间参考图像(160)和当前图像(150)为不同图像,因此他们具有不同的视图索引(view index)。
[0006] 在当前3D-HEVC中,视图间运动预测用于共享参考视图的先前编码运动信息。为了推导相关视图中的当前区块的候选运动参数,首先推导当前区块的DV,然后通过将DV加至当前区块的位置来定位相关视图中的已编码图像中的预测区块。如果使用MCP编码预测区块,可将相应的运动参数用作当前视图中当前区块的候选运动参数。也可直接将DV用作DCP的候选DV。
[0007] 对于当前区块,可在视图间图像中从视图间区块中推导运动矢量预测器(Motion Vector Predictor,MVP)/视差矢量预测器(Disparity Vector Predictor,DVP)。在后续中,可将视图间图像中的视图间区块简称为视图间区块。将推导的候选项称为“视图间候选项”,其可为视图间MVP或DVP。根据其他视图中的先前编码的运动信息对当前区块(例如,当前预测单元(prediction unit,PU))的运动信息进行编码的编码工具称为“视图间运动参数预测”。此外,将相邻视图中的对应区块称为“视图间区块”且使用从当前图像中的当前区块的深度信息推导的视差矢量来定位视图间区块。
[0008] 图2为时间视图间运动预测的示例示意图,其中,以视图间参考图像中的对应区块(220)预测依赖视图(dependent view)中的当前区块(210)的运动信息。以视差矢量(230)规范对应区块(220)的位置。对应区块(220)的运动信息(222)用于预测当前视图中的当前区块(210)的运动信息(212)。
[0009] 视图合成预测(View Synthesis Prediction,VSP)是移除来自不同视点(viewpoint)的视频信号之间的视图间残差的技术,其中,合成信号用作预测当前图像的参考。示例的VSP流程如图3所示。图3为依赖视差矢量的视图合成预测的示例示意图。VSP定位参考视图的重建深度数据并将其用作当前PU的虚拟深度(virtual depth)。使用名为相邻区块视差矢量(Neighboring Block Disparity Vector,NBDV)定位重构深度数据。在图3中,对依赖纹理图像(dependent texture picture)(310)中的当前预测单元(PU)(312)进行编码。对当前区块(312)的相邻区块(314)的视差矢量(330)进行标记,其中,视差矢量(330)指向参考深度图像(320)中的一个区块(324)。然后当前PU(312)使用视差矢量(330’)以定位参考深度图像(320)中的对应参考深度区块(322)。将参考深度区块(322)用作当前PU(312)的虚拟深度区块。然后根据从PU的每个8X8分区的虚拟深度中推导的视差矢量产生预测信号。使用从虚拟深度区块推导的视差值定位参考纹理图像(reference texture picture)中的对应参考样本。例如,根据三个箭头(350a-c)指示的各视差值,将当前纹理区块(312)中的三个样本映射至参考纹理图像(312)中的三个样本。映射过程称为后向弯曲(backward warping)。此外,可在子PU层级精度(例如2x2或4x4区块)执行弯曲操作。
[0010] 改进残差预测(Advanced residual prediction,ARP)为当前3D-HEVC测试模型中使用的另一种3D编码工具。ARP的主程序可描述为如图4中所示,图4为依赖视差矢量的改进残差预测的示例示意图。其中,当前预测单元(PU412)为使用运动矢量mvLX的时间预测区块。图像410和440在当前视图中,而图像420和450在参考视图中。图像410和420对应于具有当前时间(frame time)的两个图像,而图像440和450对应于参考帧时间中的两个图像。使用运动矢量mvLx以帧440中的时间参考区块442对当前区块412进行时间预测。区块422为用于当前区块412的参考视图中的对应区块。根据视差矢量430从区块412的位置中定位区块422。使用相同运动矢量mvLx以定位对应于区块422的参考视图中的时间参考区块(452)。
使用区块452和区块422之间的参考视图中的参考残差以预测区块412和区块442之间的当前残差。
[0011] 在上述3D编码工具中,即,IVMP、VSP及ARP中,它们依赖视图间的参考图像。如果相应的视图间参考图像不可用,则这些3D编码工具将无法正确执行。相应地,需要开发一种工具以克服当相应的视图间参考图像不可用时的问题。

发明内容

[0012] 有鉴于此,本发明提供一种视频编码方法及装置。
[0013] 本发明提供一种视频编码方法,用于三维或多视图视频编码或解码系统,该方法包括:在依赖视图中接收相应于当前区块的输入数据;确定是否由视差矢量指示的视图间参考图像在相应于包括该当前区块的当前条带的当前参考列表中以用于使用该视差矢量的一或多个三维编码工具;如果由该视差矢量指示的该视图间参考图像不在相应于该当前条带的该当前参考列表中,禁止用于该当前区块的该一或多个三维编码工具;如果由该视差矢量指示的该视图间参考图像在相应于该当前条带的该当前参考列表中,使能用于该当前区块的该一或多个三维编码工具。
[0014] 本发明另提供一种视频编码装置,用于三维或多视图视频编码或解码系统,该装置包括:用于在依赖视图中接收相应于当前区块的输入数据的电路;用于确定是否由视差矢量指示的视图间参考图像在相应于包括该当前区块的当前条带的当前参考列表中的电路,以用于使用该视差矢量的一或多个三维编码工具;用于如果由该视差矢量指示的该视图间参考图像不在相应于该当前条带的该当前参考列表中则禁止用于该当前区块的该一或多个三维编码工具的电路;用于如果由该视差矢量指示的该视图间参考图像在相应于该当前条带的该当前参考列表中则使能用于该当前区块的该一或多个三维编码工具的电路。
[0015] 本发明提供的视频编码方法可克服当相应的视图间参考图像不可用时的问题,正确地执行编码。附图说明
[0016] 图1为包括视差补偿预测和运动补偿预测的3D视频编码系统。
[0017] 图2为时间视图间运动预测的示例示意图。
[0018] 图3为依赖视差矢量的视图合成预测的示例示意图。
[0019] 图4为依赖视差矢量的改进残差预测的示例示意图。
[0020] 图5为根据本发明一个实施例的三维或多视图视频编码或解码的流程图

具体实施方式

[0021] 如上所述,DV广泛用于三维视频编码系统的各种编码工具中。然而,由推导的DV指示的视图间参考图像可能并不包括在当前条带(slice)的参考图像列表中。如果选择依赖此DV的3D工具,例如IVMP、VSP或ARP,由于由推导的DV指示的视图间参考图像可能并不包括在当前条带的参考图像列表中,3D工具将是无用的。换言之,当推导的DV的参考视图索引具有无效值(invalid value)时,子PU时间视图间运动矢量候选项,转换的(shifted)时间视图间运动矢量候选项以及VSP候选项并不插入合并候选项列表(Merge candidate list)。
[0022] 当当前参考图像的列表0和列表1中没有视图间图像时,由DV指示的相应于视图间参考图像的数据为无效的。传统的方法简单地忽略了此事实。因此,当在这种情形中使用IVMP、VSP或ARP 3D工具时,由于来自视图间参考图像的数据为无效的,将不能正确地执行编码和解码程序。相应地,根据本发明的实施例检查是否由DV指示的视图间参考图像为存在的。如果由DV指示的视图间参考图像在当前条带的参考图像列表中,由DV指示的相应于视图间参考图像的数据将为有效的,且由IVMP、VSP或ARP 3D工具使用。如果由DV指示的视图间参考图像不存在,例如不在当前条带的视图间参考图像列表中,根据本发明的多个实施例将采取用于IVMP、VSP或ARP 3D工具的另一种路径从而不使用相应于以推导的DV指示的视图间参考图像的数据。
[0023] 根据“3D-HEVC草案文本2”(ITU-T SG 16WP 3和ISO/IEC JTC 1/SC29/WG 11的关于3D视频编码扩展发展联合协作组织,第6次会议:日内瓦,瑞士,2013年10月25日-11月1日,文档:JCT3V-F1001,在本申请中称为“JCT3V-F1001”)。当对应标志iv_mv_pred_flag[nuh_layer_id]等于1,使用IMVP3D工具。根据本发明的实施例检查用于IVMP的视图间参考图像可用性以确定是否时间视图间运动矢量候选项可用,其中,用于IVMP的视图间参考图像可用性由IVMP可用性标志availableFlagLXInterView表示。如果时间视图间运动矢量候选项为可用的,availableFlagLXInterView具有1的值。否则,availableFlagLXInterView具有0值且将变量refIdxLX(即用于列表LX的参考图像索引,X=0或1)设置为-1,且将mvLXInterView的两个变量设置为0,其中,mvLXInterView指示对应视图间区块的运动矢量。当refIdxLX等于-1时,根据本发明的一个实施例终止时间视图间运动矢量候选项。换言之,当refIdxLX等于-1,不使用IVMP 3D工具。
[0024] 可将根据视图间参考图像的可用性的选择的3D编码工具应用可选择性地运用至选择的依赖纹理层(dependent texture layer)或选择的依赖深度层(dependent depth layer)。例如,可使用高层级语法元素以指示选择的3D编码工具被使能或禁止以用于选择的依赖纹理层或选择的依赖深度层。如果此高层级语法元素指示选择的3D编码工具被使能以用于选择的依赖纹理层或选择的依赖深度层,若视图间参考图像在当前条带的参考列表中,可将选择的3D工具运用于选择的依赖深度层中的当前区块。如果视图间参考图像不可用,则选择的3D编码工具将不会运用于当前区块。如果此高层级语法元素指示选择的3D编码工具被禁止以用于选择的依赖纹理层或选择的依赖深度层,则选择的3D工具将不会运用于选择的依赖纹理层或选择的依赖深度层。
[0025] 可在图像层级或条带层级传输高层级控制标志以指示是否一或多个选择的3D编码工具被使能以用于图像或片。如果高层级控制标志指示选择的3D编码工具被使能以用于图像或条带,若视图间参考图像在当前条带的参考列表中,可将选择的3D工具运用于图像或片中的当前区块中。如果高层级控制标志指示选择的3D编码工具被禁止以用于图像或条带,则不将选择的3D工具运用于图像或条带中的任何区块中。
[0026] “JCT3V-F1001”中描述了根据传统3D-HEVC的用于视图合成预测合并候选项的推导流程的示例。根据本发明的多个实施例根据VSP可用性标志availableFlagVSP而确定是否VSP合并候选项为可用。如果RefViewIdx[xCb][yCb]等于-1(即,用于位于(xCb,yCb)的区块的视图间参考图像为不可用),将availableFlagVSP设定为0值,且根据本发明的一个实施例终止用于视图合并预测合并候选项的推导的全部解码过程。换言之,当RefViewIdx[xCb][yCb]等于-1,不使用VSP 3D工具。
[0027] 将包括本发明的实施例的系统性能与传统系统相比。包括本发明的实施例的系统检查视图间参考图像的可用性以禁止或使能一些3D工具(例如IVMP、VSP)。当视图间参考图像为不可用时,包括本发明的实施例的系统将禁止IVMP或VSP工具。传统系统基于HTM-9.0(基于HEVC的3D视频编码的测试模型,版本9.0),它忽视是否视图间参考图像为可用或不可用。表格1显示了为HTM定义的在公共测试条件(common test condition,CTC)下进行的性能比较,其中,视图间参考图像为在CTC下一直可用。然而,显然传统系统在视图间参考图像不可用时将遇到问题。在这种情形中,传统系统将会导致性能退化(由于用于IVMP或VSP的无效数据)或产生不希望的系统行为(由于例如内存错误的原因)。性能比较是基于第一列中排列的不同组测试数据。显示BD-率差异以用于视图1(视频1)和视图2(视频2)中的纹理图像。BD-率中的负值意指本发明具有更高的性能。BD-率为视频编码领域中的已知性能衡量。如表格1所示,如预期的,用于所有类别的BD-率测量与传统的HTM-9.0相同。
[0028] 表格1
[0029]
[0030] 图5为根据本发明一个实施例的三维或多视图视频编码或解码的流程图,其中,该三维或多视图视频编码或解码检查视图间相关图像的可用性。在步骤510中,系统在依赖视图中接收相应于当前区块的输入数据。该输入数据对应于未编码或已编码的纹理数据。可从存储器中撷取输入数据,其中存储器可例如内存、缓存(RAM或DRAM)或其他媒介。可从处理器中撷取输入数据,其中处理器可例如产生输入数据的控制器、中央处理单元、数字信号处理器或电子电路。在步骤520中,检查由DV指示的视图间参考图像以确定是否该视图间参考图像在相应于当前条带段的当前参考列表中,其中,一或多个三位编码工具使用DV。如果结果为“是”,流程进行至步骤540以使能用于当前区块的一或多个三维编码工具,例如通过插入IVMP或VSP候选项构建合并模式候选项列表。如果结果为“否”,流程进行至步骤530以禁止用于当前区块的三维编码工具。例如,合并模式候选项列表将不包括IVMP和VSP候选项。
[0031] 上述流程图意在显示自适应运用依赖视差矢量的三维编码工具的示例,其中该视差矢量依赖于是否由视差矢量指示的视图间参考图像位于相应于当前条带的参考列表中。所属领域的技术人员可以修改、重组、拆分或合并步骤以在不脱离本发明精神的前提下实现本发明。
[0032] 上述描述用于使本领域技术人员在特定应用的环境和需求下实现本发明。对应本领域技术人员而言,对于所述实施例的一些修改是显而易见的,且可将再此定义的基本原则运用于其他实施例。因此,本发明并不旨在限于所示和所述的特定实施例,而在包括与在此揭露的原则和新颖特征一致的最广范围。在上述细节描述中,为了提供对本发明的整体描述,显示了各种特定细节。然而,所属领域人员应理解本发明为可实现的。
[0033] 上述的本发明的实施例可在不同硬件软件、或二者的组合中实现。例如,本发明的一个实施例可为集成在视频压缩芯片中的电路或集成在视频压缩软件中的程序代码以执行实施例中所述的处理。本发明的一个实施例也可为数字信号处理器(DSP)上执行的程序代码以执行实施例中所述的处理。本发明也关于由计算机处理器、DSP、微处理机或FPGA执行的多个功能。根据本发明,通过执行定义本发明所包括的特定方法的机器可读软件代码固件代码,可配置这些处理器以执行特定任务。可在不同程序语言和不同格式或格中开发软件代码或固体代码。也可对不同目标平台编译软件代码。然而,根据本发明不同编码格式、风格和软件代码语言以及为执行任务的配置代码其他方式都不得脱离本发明的精神与范围。
[0034] 在不脱离本发明精神或基本特征的前提下可将本发明以其他特定形式实现。将所述的实例看作仅为说明目的的各个方面,并非用于限制用途。因此,本发明的范围由所附的权利要求决定而并非前面的描述所决定。在权利要求的含义或其等效范围之内的任何改变都在本发明保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈