推导运动和视差矢量的方法及装置专利检索-视频编码层视听技术与设备专利检索查询-专利查询网

推导运动和视差矢量的方法及装置

阅读：630发布：2020-06-08

专利汇可以提供推导运动和视差矢量的方法及装置专利检索，专利查询，专利分析的服务。并且本发明提供一种推导运动矢量（MV）或运动矢量预测项（MVP）或视差矢量（DV）或视差矢量预测项（DVP）的方法及装置，其中，该MV/MVP或DV/DVP相应于跳跃模式、合并模式或外部模式，且用于三维视频编码中的当前图像的一个区块，其中该三维视频编码使用的预测维度包括时间预测和视图间预测，该方法包括：确定空间候选项、时间候选项或同时确定空间候选项和时间候选项；确定相应于视图间共位区块的视图间候选项；从空间候选项、时间候选项或视图间候选项中选择该MV/MVP或DV/DVP；以及将选择的该MV/MVP或DV/DVP提供给该区块。本发明提供的MV或DV预测方法可将现有MV/MVP预测方法扩展至3D视频编码，改善编码效率。，下面是推导运动和视差矢量的方法及装置专利的具体信息内容。

权利要求

1.一种推导运动矢量或运动矢量预测项或视差矢量或视差矢量预测项的方法，该运动矢量或运动矢量预测项或视差矢量或视差矢量预测项相应于跳跃模式、合并模式或外部模式，且用于三维视频编码中的当前图像的一个区块，其中该三维视频编码使用的预测维度由时间预测和视图间预测组成，该方法包括：
确定一或多个空间候选项、一或多个时间候选项或同时确定该一或多个空间候选项和该一或多个时间候选项，其中该一或多个空间候选项相应于该区块的一或多个相邻区块中的每一个；以及其中，该一或多个时间候选项相应于该区块的一或多个时间共位图像的一或多个时间共位区块的每一个；
确定相应于一或多个视图间共位区块的一或多个视图间候选项，其中，该一或多个视图间共位区块相应于对应该区块的一或多个视图间共位图像；
从该一或多个空间候选项、该一或多个时间候选项或该一或多个视图间候选项中选择该运动矢量或运动矢量预测项或视差矢量或视差矢量预测项；以及
将选择的该运动矢量或运动矢量预测项或该视差矢量或视差矢量预测项提供给该区块，其中，
当该区块被编码为该合并模式或该跳跃模式时，合并索引被包括至比特流中以指示待合并的该选择的该运动矢量或运动矢量预测项或该视差矢量或视差矢量预测项，且运动信息是与其他已编码区块共享，其中，该运动信息包括：该选择的运动矢量或运动矢量预测项或该视差矢量或视差矢量预测项中的至少一个、该预测维度、预测方向、以及参考图像索引，以及
其中，该一或多个空间候选项是由空间候选项推导过程来推导，该空间候选项推导过程包括：
确定空间候选项是否被用作该运动矢量或运动矢量预测项或该视差矢量或视差矢量预测项；
如果该空间候选项被用作该运动矢量或运动矢量预测项，则导出相应于对应相邻区块的运动矢量来作为空间候选项；以及
如果该空间候选项被用作该视差矢量或视差矢量预测项，则导出相应于该对应相邻区块的视差矢量来作为空间候选项。
2.如权利要求1所述的方法，其特征在于，选择的该运动矢量预测项或该视差矢量预测项用于该三维视频编码中的该外部模式。
3.如权利要求1所述的方法，其特征在于，选择的该运动矢量或该视差矢量用于该三维视频编码中的该合并或该跳跃模式。
4.如权利要求1所述的方法，其特征在于，该空间候选项推导过程还包括：如果使用该空间候选项推导该运动矢量或运动矢量预测项，从相应于该相邻区块的该运动矢量与该视差矢量的组合中推导该空间候选项；以及其中，如果使用该空间候选项推导该视差矢量或视差矢量预测项，从相应于该相邻区块的该运动矢量与该视差矢量的组合中推导该空间候选项。
5.如权利要求1所述的方法，其特征在于，对于给定预测维度和目标参考图像，从该一或多个相邻区块中推导该空间候选项，其中，该目标参考图像由给定参考列表的给定参考图像索引指示，且其中，该一或多个相邻区块相应于来自该给定参考列表或其他参考列表的该目标参考图像，或相应于来自该给定参考列或该其他参考列表的其他参考图像。
6.如权利要求5所述的方法，其特征在于，根据查找顺序基于来自该一或多个相邻区块中的该给定预测维度中的第一可用运动矢量或视差矢量推导该空间候选项，其中，检查指向该给定参考列表中的该目标参考图像的该一或多个相邻区块的该运动矢量或视差矢量的可用性在检查指向该给定参考列表中的该其他参考图像的该一或多个相邻区块的该运动矢量或视差矢量的可用性之前。
7.如权利要求5所述的方法，其特征在于，根据查找顺序基于来自该一或多个相邻区块中的该给定预测维度中的第一可用运动矢量或视差矢量推导该空间候选项，其中，检查指向该给定参考列表中的该目标参考图像的该一或多个相邻区块的该运动矢量或视差矢量的可用性在检查指向该其他参考列表中的该目标参考图像的该一或多个相邻区块的该运动矢量或视差矢量之前。
8.如权利要求5所述的方法，其特征在于，直接传输或间接推导该给定预测维度、该给定参考图像索引或该给定参考列表。
9.如权利要求1所述的方法，其特征在于，如果使用该时间候选项推导该运动矢量或运动矢量预测项，则从相应于该一或多个时间共位图像的该一或多个时间共位区块的该运动矢量或该运动矢量与该视差矢量的组合中推导该时间候选项；以及其中，如果使用该时间候选项推导该视差矢量或视差矢量预测项，从相应于该一或多个时间共位图像的该一或多个时间共位区块的该视差矢量或该运动矢量与该视差矢量的组合中推导该时间候选项。
10.如权利要求9所述的方法，其特征在于，对于给定预测维度和目标参考图像，从该一或多个时间共位图像的该一或多个时间共位区块中推导该时间候选项，其中，该目标参考图像由给定参考列表的给定参考图像索引指示，且其中，该一或多个时间共位图像的该一或多个时间共位区块相应于来自该给定参考列表或其他参考列表的该目标参考图像，或相应于来自该给定参考列或该其他参考列表的其他参考图像。
11.如权利要求10所述的方法，其特征在于，根据查找顺序基于来自该一或多个时间共位区块中的该给定预测维度中的第一可用运动矢量或视差矢量推导该时间候选项，其中，首先检查穿过该当前图像的该一或多个时间共位区块的该运动矢量或视差矢量的可用性。
12.如权利要求10所述的方法，其特征在于，如果对应该给定参考列表的该一或多个时间共位区块的该运动矢量或视差矢量和对应该其他参考列表的该一或多个时间共位区块的该运动矢量或视差矢量都穿过或都不穿过该当前图像，检查对应该给定参考列表的该一或多个时间共位区块的该运动矢量或视差矢量的可用性。
13.如权利要求10所述的方法，其特征在于，根据查找顺序基于来自该一或多个时间共位区块的第一可用运动矢量或视差矢量推导该时间候选项，其中，该查找顺序有关于相应于该运动矢量或视差矢量的指向方向的参考列表或相应于该一或多个时间共位图像的该参考列表。
14.如权利要求10所述的方法，其特征在于，使用标志以指示该一或多个时间共位图像中的哪一个用于确定该一或多个时间共位区块。
15.如权利要求14所述的方法，其特征在于，该标志在视频比特流的序列层级、图像层级或片层级中。
16.如权利要求10所述的方法，其特征在于，直接传输或间接推导使用的该视图间预测或该时间预测、该给定参考图像索引或该给定参考列表。
17.如权利要求1所述的方法，其特征在于，如果使用该视图间候选项推导该运动矢量或运动矢量预测项，则从相应于该一或多个视图间共位图像的该一或多个视图间共位区块的该运动矢量或该运动矢量与该视差矢量的组合中推导该视图间候选项；以及其中，如果使用该视图间候选项推导该视差矢量或视差矢量预测项，从相应于该一或多个视图间共位图像的该一或多个视图间共位区块的该视差矢量或该运动矢量与该视差矢量的组合中推导该视图间候选项。
18.如权利要求17所述的方法，其特征在于，对于给定预测维度和目标参考图像，从该一或多个视图间共位图像的该一或多个视图间共位区块中推导该视图间候选项，其中，该目标参考图像由给定参考列表的给定参考图像索引指示，且其中，该一或多个视图间共位图像的该一或多个视图间共位区块相应于来自该给定参考列表或其他参考列表的该目标参考图像，或相应于来自该给定参考列或该其他参考列表的其他参考图像。
19.如权利要求18所述的方法，其特征在于，使用标志以指示该一或多个视图间共位图像中的哪一个用于确定该一或多个视图间共位区块。
20.如权利要求19所述的方法，其特征在于，该标志在视频比特流的序列层级、图像层级或片层级中。
21.如权利要求18所述的方法，其特征在于，根据对应该视图间共位区块的该视图间共位图像与该当前图像之间的全局视差矢量推导该视图间共位区块的位置。
22.如权利要求18所述的方法，其特征在于，根据深度信息投射该当前图像的该区块来确定该视图间共位区块的位置。
23.如权利要求18所述的方法，其特征在于，根据查找顺序基于来自该一或多个视差间共位区块中的第一可用运动矢量或视差矢量推导该视图间候选项，其中，首先检查穿过该给定预测维度中的该当前图像的该一或多个视图间共位区块的该运动矢量或视差矢量的可用性。
24.如权利要求23所述的方法，其特征在于，如果对应该给定参考列表的该一或多个视图间共位区块的该运动矢量或视差矢量和对应该其他参考列表的该一或多个视图间共位区块的该运动矢量或视差矢量都穿过或都不穿过该给定预测维度中的该当前图像，检查对应该给定参考列表的该一或多个视差间共位区块的该运动矢量或视差矢量的可用性。
25.如权利要求18所述的方法，其特征在于，根据查找顺序基于第一可用运动矢量或视差矢量，从该一或多个视差间共位区块中推导该视差间候选项，其中，该查找顺序相关于相应于该运动矢量或视差矢量的指向方向的参考列表和相应于该一或多个视差间共位图像的该参考列表。
26.如权利要求18所述的方法，其特征在于，直接传输或间接推导该给定预测维度、该给定参考图像索引或该给定参考列表。
27.如权利要求1所述的方法，其特征在于，如果使用视图间预测，根据深度信息将该当前图像的该当前区块投射至相应于该一或多个视图间共位图像的对应视图间共位区块之上来将该视图间候选项推导为该视差矢量。
28.如权利要求1所述的方法，其特征在于，该运动矢量指向由给定参考列表的给定参考图像索引指示的目标参考图像，且根据该一或多个相邻区块的多个参考图像指数的中值、平均值或大多数值间接推导该给定参考图像索引。
29.如权利要求28所述的方法，其特征在于，根据该一或多个相邻区块的该多个参考列表的中值、平均值或大多数值间接推导该给定参考列表。
30.如权利要求1所述的方法，其特征在于，该运动矢量或该视差矢量相应于该合并模式或该跳跃模式，其中从该一或多个相邻区块中推导该空间候选项，且如果已选择该空间候选项，该当前图像的该区块直接使用该预测信息，且其中预测信息包括该预测维度、由参考列表0、参考列表1和双向预测组成的该预测方向、该参考图像索引以及从该一或多个相邻区块中的一个选择的该运动矢量或该视差矢量。
31.如权利要求1所述的方法，其特征在于，该运动矢量或该视差矢量相应于该合并模式或该跳跃模式，其中从该一或多个时间共位区块中推导该时间候选项，其中，如果该时间共位区块的该预测维度为该视图间预测，该当前图像的该区块直接使用该预测信息，且其中，该预测信息包括该预测维度、由参考列表0、参考列表1和双向预测组成的该预测方向、该参考图像索引以及从该一或多个时间共位区块中的一个选择的该运动矢量或该视差矢量。
32.如权利要求1所述的方法，其特征在于，该运动矢量或该视差矢量相应于该合并模式或该跳跃模式，其中从该一或多个时间共位区块中推导该时间候选项，其中，如果该时间共位区块的该预测维度为该时间预测，直接传输或间接推导该参考图像索引；其中，在直接传输或间接推导该参考图像索引之后，如果选择该时间候选项，该当前图像的该区块直接使用预测信息，且其中，该预测信息包括该预测维度、由参考列表0、参考列表1和双向预测组成的该预测方向以及从该一或多个时间共位区块中的一个选择的该运动矢量或该视差矢量，且其中根据时间距离对选择的该运动矢量或该视差矢量进行缩放。
33.如权利要求1所述的方法，其特征在于，该运动矢量或该视差矢量相应于该合并模式或该跳跃模式，其中从该一或多个视图间共位区块中推导该视图间候选项，其中，如果该视图间共位区块的该预测维度为时间预测，该当前图像的该区块直接使用该预测信息，其中，该预测信息包括该预测维度、由参考列表0、参考列表1和双向预测组成的该预测方向、该参考图像索引以及从该一或多个视图间共位区块中的一个选择的该运动矢量或该视差矢量。
34.如权利要求1所述的方法，其特征在于，该运动矢量或该视差矢量相应于该合并模式或该跳跃模式，其中从该一或多个视图间共位区块中推导该视图间候选项，其中，如果该视图间共位区块的该预测维度为视图间预测，直接传输或间接推导该参考图像索引；其中，在直接传输或间接推导该参考图像索引之后，如果选择该视图间候选项，该当前图像的该区块直接使用预测信息，且其中，该预测信息包括该预测维度、由参考列表0、参考列表1和双向预测组成的该预测方向以及从该一或多个视图间共位区块中的一个选择的该运动矢量或该视差矢量，且其中根据视图间距离对选择的该运动矢量或该视差矢量进行缩放。
35.如权利要求1所述的方法，其特征在于，更包括根据对应该区块的深度信息基于对应将该当前区块投射在一或多个视图间共位图像的矢量确定一或多个推导的深度候选项，且从该一或多个空间候选项、该一或多个时间候选项、该一或多个视图间候选项以及该一或多个深度候选项中选择该运动矢量或运动矢量预测项或视差矢量或视差矢量预测项。
36.一种推导运动矢量或运动矢量预测项或视差矢量或视差矢量预测项的装置，该运动矢量或运动矢量预测项或视差矢量或视差矢量预测项相应于跳跃模式、合并模式或外部模式，且用于三维视频编码中的当前图像的一个区块，其中该三维视频编码使用的预测维度由时间预测和视图间预测组成，该装置包括：
确定一或多个空间候选项、一或多个时间候选项或同时确定该一或多个空间候选项和该一或多个时间候选项的单元，其中该一或多个空间候选项相应于该区块的一或多个相邻区块中的每一个；以及其中，该一或多个时间候选项相应于该区块的一或多个时间共位图像的一或多个时间共位区块的每一个；
确定相应于一或多个视图间共位区块的一或多个视图间候选项的单元，其中，该一或多个视图间共位区块相应于对应该区块的一或多个视图间共位图像；
从该一或多个空间候选项、该一或多个时间候选项或该一或多个视图间候选项中选择该运动矢量或运动矢量预测项或视差矢量或视差矢量预测项的单元；以及将选择的该运动矢量或运动矢量预测项或该视差矢量或视差矢量预测项提供给该区块的单元，其中，
当该区块被编码为该合并模式或该跳跃模式时，合并索引被包括至比特流中以指示待合并的该选择的该运动矢量或运动矢量预测项或该视差矢量或视差矢量预测项，且运动信息是与其他已编码区块共享，其中，该运动信息包括：该选择的运动矢量或运动矢量预测项或该视差矢量或视差矢量预测项中的至少一个、该预测维度、预测方向、以及参考图像索引，以及
其中，该一或多个空间候选项是由空间候选项推导过程来推导，该空间候选项推导过程包括：
确定空间候选项是否被用作该运动矢量或运动矢量预测项或该视差矢量或视差矢量预测项；
如果该空间候选项被用作该运动矢量或运动矢量预测项，则导出相应于对应相邻区块的运动矢量来作为空间候选项；以及
如果该空间候选项被用作该视差矢量或视差矢量预测项，则导出相应于该对应相邻区块的视差矢量来作为空间候选项。
37.如权利要求36所述的装置，其特征在于，该空间候选项推导过程还包括：如果使用该空间候选项推导该运动矢量或运动矢量预测项，从相应于该相邻区块的该运动矢量与该视差矢量的组合中推导该空间候选项；以及其中，如果使用该空间候选项推导该视差矢量或视差矢量预测项，从相应于该相邻区块的该运动矢量与该视差矢量的组合中推导该空间候选项。
38.如权利要求36所述的装置，其特征在于，如果使用该时间候选项推导该运动矢量或运动矢量预测项，则从相应于该一或多个时间共位图像的该一或多个时间共位区块的该运动矢量或该运动矢量与该视差矢量的组合中推导该时间候选项；以及其中，如果使用该时间候选项推导该视差矢量或视差矢量预测项，从相应于该一或多个时间共位图像的该一或多个时间共位区块的该视差矢量或该运动矢量与该视差矢量的组合中推导该时间候选项。
39.如权利要求36所述的装置，其特征在于，如果使用该视图间候选项推导该运动矢量或运动矢量预测项，则从相应于该一或多个视图间共位图像的该一或多个视图间共位区块的该运动矢量或该运动矢量与该视差矢量的组合中推导该视图间候选项；以及其中，如果使用该视图间候选项推导该视差矢量或视差矢量预测项，从相应于该一或多个视图间共位图像的该一或多个视图间共位区块的该视差矢量或该运动矢量与该视差矢量的组合中推导该视图间候选项。
40.如权利要求36所述的装置，其特征在于，该运动矢量或该视差矢量相应于该合并模式或该跳跃模式，其中从该一或多个相邻区块中推导该空间候选项，且如果已选择该空间候选项，该当前图像的该区块直接使用该预测信息，且其中预测信息包括预测维度、由参考列表0、参考列表1和双向预测组成的该预测方向、该参考图像索引以及从该一或多个相邻区块中的一个选择的该运动矢量或该视差矢量。
41.如权利要求36所述的装置，其特征在于，该运动矢量或该视差矢量相应于该合并模式或该跳跃模式，其中从该一或多个时间共位区块中推导该时间候选项，其中，如果该时间共位区块的该预测维度为该视图间预测，该当前图像的该区块直接使用该预测信息，且其中，该预测信息包括该预测维度、由参考列表0、参考列表1和双向预测组成的该预测方向、该参考图像索引以及从该一或多个时间共位区块中的一个选择的该运动矢量或该视差矢量。
42.如权利要求36所述的装置，其特征在于，该运动矢量或该视差矢量相应于该合并模式或该跳跃模式，其中从该一或多个视图间共位区块中推导该视图间候选项，其中，如果该视图间共位区块的该预测维度为时间预测，该当前图像的该区块可直接使用预测信息，其中，该预测信息包括预测维度、由参考列表0、参考列表1和双向预测组成的该预测方向、该参考图像索引以及从该一或多个视图间共位区块中的一个选择的该运动矢量或该视差矢量。

说明书全文

推导运动和视差矢量的方法及装置

[0001] 相关申请的交叉引用

[0002] 本申请的权利要求要求如下申请的优先权：2011年6月15日递交的申请号为61/497,438，标题为「Method for motion vector prediction and disparity vector prediction in 3D video coding」的美国临时申请案以及2011年9月19日递交的申请号为
13/236,422，标题为「Method and Apparatus for Deriving Temporal Motion Vector Prediction」的美国非临时申请案。在此合并参考上述临时申请和非临时申请案的全部内容。

技术领域

[0003] 本发明有关于视频编码。更具体地，本发明有关于3D视频编码中的运动(motion)/视差(disparity)矢量预测以及运动/视差补偿(motion/disparity compensation)的信息共享。

背景技术

[0004] 近年来三维(three-dimensional，3D)电视已成为一种技术趋势，其可为观看者带来震撼的观看体验。通过使用各种技术来致能3D。其中，相较于其他技术，多视图(multi-view)视频是3D电视应用的关键技术。传统视频是二维(two-dimensional，2D)媒体，仅能向观看者提供从摄相机角度的场景的单一视图(single view)。然而，多视图视频可提供动态场景的任意视点(viewpoint)并为观看者带来真实的感官。

[0005] 多视图视频是通过同时使用多个摄相机捕捉一个场景而建立的，其中，多个摄相机位于适当的位置以使每个摄相机各从一个视点捕捉场景。相应地，多个摄相机将捕捉多个视频序列(video sequence)。为了提供更多的视图，已使用更多的摄相机以产生多视图视频，其中该多视图视频具有相应于视图的大量视频序列。相应地，多视图视频需要大量的存储空间进行存储及/或高的带宽进行传输。因此，技术领域中已发展了多视图视频编码技术以减少传输带宽所需的存储空间。一种直接的方法是对每个单一视图的视频序列独立地应用传统视频编码技术而忽略不同视图之间的关联(correlation)。为了改进多视图视频编码效率，典型的多视图视频编码总是利用视图间残差(inter-view redundancy)。

[0006] 图1为3D视频编码的预测结构示例示意图。纵轴表示不同的视图，而横轴表示捕捉图像的不同时间点(time instance)。在每个时间点，除了捕捉每个视图的色彩图像(color image)，也捕捉其深度图像(depth image)。例如，对于视图V0，色彩图像110C、111C及112C分别是对应时间点T0、T1及T2而捕捉的。且深度图像110D、111D及112D分别是与色彩图像一起对应时间点T0、T1及T2而捕捉的。类似地，对于视图V1，色彩图像120C、121C及122C与相应的深度图像120D、121D及122D分别是对应时间点T0、T1及T2而捕捉的。对于视图V2，色彩图像130C、131C及132C与相应的深度图像130D、131D及132D分别是对应时间点T0、T1及T2而捕捉的。可对每个视频的图像应用基于外部/内部预测(inter/intra-prediction)的传统视频编码。例如，在视图V1中，图像120C和122C可用于图像121C的时间预测(temporal prediction)。此外，视图间预测用作时间预测之外的另一预测维度。相应地，本揭露书中使用“预测维度”以表示预测轴(prediction axis)。其中，沿预测轴的视频信息用于预测。因此，预测维度可表示视图间预测或时间预测。例如，在时间T1，可使用来自视图V0的图像111C和来自视图V2的图像131C预测视图V1的图像121C。此外，也可将相应于场景的深度信息包括在比特流中以提供支持用于交互应用(interactive application)。深度信息也可用于从中间视点(intermediate viewpoint)合成(synthesize)虚拟视图。

[0007] 为减少用于传输编码多视图视频的运动矢量(motion vector，MV)的比特率(bit-rate)，提出了运动跳跃模式(motion skip mode)以共享相邻视图的已编码运动信息。图2为3D视频跳跃模式的示例示意图，其中使用全局视差矢量确定共位区块。如图2所示，运动跳跃模式包括两个步骤。在第一步中，标记(identify)相邻视图中的共位图像222中的共位区块(co-located block)212以用于当前视图中图像220中的当前区块210。其中，通过确定当前视图中的当前图像220与相邻视图中的共位图像222之间的全局视差矢量(global disparity vector)230来标记共位区块212。在第二步中，将共位图像222中的共位区块212的运动信息与当前图像220中的当前区块210共享。例如，共位区块212的运动矢量242和252可被当前区块210所共享。当前区块210的运动矢量240和250可从运动矢量242和252中推导。

[0008] 高效视频编码(High Efficiency Video Coding，HEVC)是一种新型的国际视频编码标准，由视频编码联合协作组(Joint Collaborative Team on Video Coding，JCT-VC)指导发展。在HEVC工作草案第三版(WD-3.0)和HEVC测试模型第三版(HM-3.0)中，与诸如MPEG-4和AVC/H.264的先前编码标准类似，使用基于混合区块的运动补偿的类DCT变换编码结构(hybridblock-based motion-compensated DCT-like transform coding architecture)。然而，HEVC中也存在引入的新特征和编码工具。例如，压缩基本单元(称为编码单元(Coding Unit，CU))为2Nx2N的正方形区块，且每个CU可递归式地分割为四个更小的CU直至达到预定义最小尺寸(size)。每个CU包括一或多个预测单元(prediction units，PU)，其中PU用作用于预测程序的区块单元，PU的尺寸可为2Nx2N、2NxN、Nx2N以及NxN。

[0009] 为了增加HEVC中运动矢量编码的编码效率，运用基于运动矢量竞争(motion vector competition，MVC)的机制来从给定的运动矢量预测项(motion vector predictor，MVP)候选项(candidate)集合中选择一个MVP，其中，MVP候选项集合包括空间和时间MVP。存在三种外部预测模式，即HM-3.0中包括的外部、跳跃和合并模式。外部模式根据传输的运动矢量(motion vectors，MV)执行运动补偿预测，而跳跃和合并模式使用运动推理方法(motion inference method)以从位于共位图像中的空间相邻区块(空间候选项)或时间相邻区块(时间候选项)中确定运动信息，其中，共位图像为片头部(slice header)中指示的列表0或列表1中的第一参考图像。

[0010] 当以跳跃或合并模式编码PU时，除了所选候选项的索引之外并不传输运动信息。对于跳跃模式的PU，也不传输残差信号。对于HM-3.0的外部模式，使用先进运动矢量预测(advanced motion vector prediction，AMVP)机制从AMVP候选项集合中选择一个运动矢量预测项，其中AMVP候选项集合包括两个空间MVP和一个时间MVP。根据率失真优化(rate-distortion optimization，RDO)决定，编码器从用于外部、跳跃或合并模式的给定候选项集合中选择最终的MVP并向解码器传输所选MVP的索引。可根据时间距离(temporal distance)对所选MVP进行线性缩放。

[0011] 对于外部模式而言，参考图像索引被直接传输至解码器。然后从候选项集合中选择MVP用于给定参考图像索引。图3为HM-3.0中用于外部模式的MVP候选项集合的示意图，其中包括两个空间MVP和一个时间MVP：

[0012] 1.左预测项(来自A0或A1的第一可用运动矢量)

[0013] 2.上预测项(来自B0、B1或Bn+1的第一可用运动矢量)

[0014] 3.时间预测项(来自TBR或TCTR的第一可用运动矢量)

[0015] 时间预测项是从位于共位图像中的区块(TBR或TCTR)中推导的，其中，共位图像为列表0或列表1中的第一参考图像。从中选择时间MVP的区块可具有两个MV：一个来自列表0且另一个来自列表1。根据下列规则从来自列表0或列表1的MV推导时间MVP：

[0016] 1.首先选择穿过当前图像的MV。

[0017] 2.如果两个MV都穿过或都不穿过当前图像，选择与当前列表具有相同参考列表的MV。

[0018] 运用基于优先级的机制推导每个空间MVP。可从不同列表和不同参考图像中推导空间MVP。选择的顺序基于下列预定义顺序：

[0019] 1.来自相同参考列表和相同参考图像的MV；

[0020] 2.来自其他参考列表和相同参考图像的MV；

[0021] 3.来自相同参考列表和其他参考图像的缩放MV；以及

[0022] 4.来自其他参考列表和其他参考图像的缩放MV。

[0023] 在HM-3.0中，如果将特定区块编码为合并或跳跃模式，则将MVP索引包括至比特流中以指示MVP候选项集合中的哪个MVP被用于待合并的区块。为遵循运动信息共享的本质，每个合并的PU重用所选候选项的MV、预测方向以及参考图像索引。预测方向指的是相应于参考图像的时间方向，例如列表0(L0)/列表1(L1)或双向预测(Bi-prediction)。需注意，如果所选MVP为时间MVP，则参考图像索引永远设置为第一参考图像。图4为HM-3.0中用于合并模式和跳跃模式的MVP候选项集合的示意图，其中包括四个空间MVP和一个时间MVP：

[0024] 1.左预测项(Am)

[0025] 2.上预测项(Bn)

[0026] 3.时间预测项(来自TBR或TCTR的第一可用运动矢量)

[0027] 4.右上预测项(B0)

[0028] 5.左下预测项(A0)

[0029] 如上所示，HEVC使用先进MVP推导以减少相应于运动矢量的比特率。需要扩展先进MVP技术至3D视频编码以改进编码效率。

发明内容

[0030] 有鉴于此，本发明提供一种推导运动矢量或运动矢量预测项或视差矢量或视差矢量预测项的方法及装置。

[0031] 本发明提供一种推导运动矢量或运动矢量预测项或视差矢量或视差矢量预测项的方法，该运动矢量或运动矢量预测项或视差矢量或视差矢量预测项相应于跳跃模式、合并模式或外部模式，且用于三维视频编码中的当前图像的一个区块，其中该三维视频编码使用的预测维度包括时间预测和视图间预测，该方法包括：确定一或多个空间候选项、一或多个时间候选项或同时确定该一或多个空间候选项和该一或多个时间候选项，其中该一或多个空间候选项相应于该区块的一或多个相邻区块中的每一个；以及其中，该一或多个时间候选项相应于该区块的一或多个时间共位图像的一或多个时间共位区块的每一个；确定相应于视图间共位区块的一或多个视图间候选项，其中，该视图间共位区块相应于对应该区块的一或多个视图间共位图像；从该一或多个空间候选项、该一或多个时间候选项或该一或多个视图间候选项中选择该运动矢量/运动矢量预测项或视差矢量/视差矢量预测项；以及将选择的该运动矢量/运动矢量预测项或该视差矢量/视差矢量预测项提供给该区块。

[0032] 本发明另提供一种推导运动矢量或运动矢量预测项或视差矢量或视差矢量预测项的装置，该运动矢量或运动矢量预测项或视差矢量或视差矢量预测项相应于跳跃模式、合并模式或外部模式，且用于三维视频编码中的当前图像的一个区块，其中该三维视频编码使用的预测维度包括时间预测和视图间预测，该装置包括：确定一或多个空间候选项、一或多个时间候选项或同时确定该一或多个空间候选项和该一或多个时间候选项的单元，其中该一或多个空间候选项相应于该区块的一或多个相邻区块中的每一个；以及其中，该一或多个时间候选项相应于该区块的一或多个时间共位图像的一或多个时间共位区块的每一个；确定相应于视图间共位区块的一或多个视图间候选项的单元，其中，该视图间共位区块相应于对应该区块的一或多个视图间共位图像；从该一或多个空间候选项、该一或多个时间候选项或该一或多个视图间候选项中选择该运动矢量/运动矢量预测项或视差矢量/视差矢量预测项的单元；以及将选择的该运动矢量/运动矢量预测项或该视差矢量/视差矢量预测项提供给该区块的单元。

[0033] 本发明提供的MV或DV预测方法可将现有MV/MVP预测方法扩展至3D视频编码，改善编码效率。附图说明

[0034] 图1为3D视频编码的预测结构示例示意图，其中该预测包括时间和视图间预测。

[0035] 图2为3D视频跳跃模式的示例示意图，其中使用全局视差矢量确定共位区块。

[0036] 图3为HM-3.0中用于外部模式的MVP候选项集合的示例示意图。

[0037] 图4为HM-3.0中用于合并模式和跳跃模式的MVP候选项集合的示意图。

[0038] 图5为根据本发明用于3D视频编码的MV(P)/DV(P)候选项推导的示意图。

具体实施方式

[0039] 在本发明中，运用各种机制以推导用于3D视频编码中跳跃、合并以及外部模式的MV/DV以及MVP/视差矢量预测项(Disparity Vector Predictor，DVP)。

[0040] 图5为用于当前区块的MV(P)/DV(P)候选项的方案示意图，其中，MV(P)/DV(P)是从列表0(L0)或列表1(L1)中的共位图像中的空间相邻区块、时间共位区块以及视图间共位图像中的视图间共位区块中推导的。图像510、511以及512分别对应在时间示例T0、T1、T2来自视图V0的图像。类似地，图像520、521以及522分别对应在时间示例T0、T1、T2来自视图V1的图像，且图像530、531以及532分别对应在时间示例T0、T1、T2来自视图V2的图像。图5中所示的图像可为色彩图像或深度图像。所推导的候选项称为空间候选项(空间MVP)、时间候选项(时间MVP)以及视图间候选项(视图间MVP)。特别地，对于时间和视图间候选项推导，可在不同语法(syntax)层级间接推导或直接传输指示共位图像是在列表0还是列表1中的信息。其中，语法层级可例如队列参数集合(sequence parameter set，SPS)、图像参数集合(picture parameter set，PPS)、适应性参数集合(adaptive parameter set，APS)、片头部(Slice header)、CU层级、最大CU层级或叶(leaf)层级或PU层级。而视图间共位区块的位置可通过使用当前区块的相同位置或使用全局视差矢量(Global Disparity Vector，GDV)或者根据深度信息将当前区块投射(warp)在共位图像之上来确定。

[0041] 也可基于对应根据深度信息将当前区块投射在共位图像之上的矢量推导候选项。相应地，将使用深度信息推导的候选项称为深度候选项(depth candidate)。

[0042] 然后运用基于MVC的机制以从包括空间、时间、视图间以及深度候选项的MVP/DVP候选项集合之中选择一个MVP/DVP。再然后将所选候选项的索引传输至解码器。

[0043] 当将区块编码为合并或跳跃模式时，将合并索引包括至比特流中以指示MVP/DVP候选项集合中的哪个MVP/DVP被用于待合并的区块。MVP/DVP候选项包括空间候选项(空间MVP/DVP)、时间候选项(时间MVP/DVP)、视图间候选项(视图间MVP/DVP)以及深度候选项。通过与其他已编码区块共享运动信息来减少相应于运动信息的比特流，其中，每个合并的PU重用所选候选项的MV/DV、预测维度、预测方向以及参考图像索引。将合并索引传输至解码器以指示哪个候选项被选用于合并模式。

[0044] 在此提出推导空间候选项的本发明的多个实施例。在空间候选项推导的一个实施例中，如果使用空间候选项预测运动矢量，从相邻区块的MV中推导空间候选项。类似地，如果使用空间候选项预测视差矢量，从相邻区块的DV中推导空间候选项。

[0045] 在空间候选项推导的本发明另一个实施例中，如果使用空间候选项预测运动矢量，则从相邻区块的MV和DV中推导空间候选项。类似地，如果使用空间候选项预测视差矢量，则从相邻区块的MV和DV中推导空间候选项。

[0046] 在空间候选项推导的本发明另一个实施例中，可使用根据上述实施例的基于相邻区块的MV或MV/DV推导的空间候选项以推导空间候选项。当目标参考图像标记为由给定参考列表的给定参考图像索引指示，可从来自给定参考列表或其他参考列表中的指向目标参考图像的MV/DV推导空间候选项。例如，如果所有相邻区块在给定参考列表中不具有指向目标参考图像的MV/DV，可将候选项推导为指向来自相邻区块在其他参考列表中的目标参考图像的第一可用MV/DV。

[0047] 在类似于上述实施例的又一个实施例中，可将根据上述实施例的基于相邻区块的MV或MV/DV推导的空间候选项更用于推导空间候选项。当目标参考图像标记为由给定参考列表的给定参考图像索引指示时，可从指向目标参考图像的MV/DV或从相同给定参考列表中指向除目标参考图像以外的参考图像的MV/DV推导空间候选项。例如，如果所有相邻区块都不具有指向目标参考图像的MV/DV，可将候选项推导为基于相邻区块中指向其他参考图像的第一可用MV的缩放MV/DV。

[0048] 在类似于上述实施例的另一个实施例中，可将根据上述实施例的基于相邻区块的MV或MV/DV推导的空间候选项更用于推导空间候选项。当目标参考图像标记为由给定参考列表的给定参考图像索引指示时，可根据下列顺序从其他参考列表或其他参考图像索引中推导空间候选项：

[0049] -在给定参考列表中查找指向目标参考图像的MV/DV

[0050] -在其他参考列表中查找指向目标参考图像的MV/DV

[0051] -在给定参考列表中查找指向其他参考图像的MV/DV，然后根据时间距离/视图间距离对推导的MV/DV进行缩放；以及

[0052] -在其他参考列表中查找指向其他参考图像的MV/DV，然后根据时间距离/视图间距离对推导的MV/DV进行缩放。

[0053] 对于合并和跳跃模式的空间候选项推导，空间候选项的预测信息包括预测维度(时间或视图间)、预测方向(L0/L1或双向)、参考图像索引以及MV/DV。空间候选项的信息直接重用用于推导候选项信息的所选相邻区块的预测信息。如果选择空间候选项，预测信息可直接被当前PU使用。

[0054] 在此也提出推导时间候选项的本发明的多个实施例。在时间候选项推导的一个实施例中，如果时间候选项用于预测运动矢量，则从时间共位区块的MV中推导时间候选项。类似地，如果时间候选项用于预测视差矢量，则从时间共位区块的DV中推导时间候选项。

[0055] 在时间候选项推导的另一个实施例中，如果使用时间候选项预测运动矢量，则从时间共位区块的MV和DV中推导时间候选项。类似地，如果使用时间候选项预测视差矢量，则从时间共位区块的MV和DV中推导时间候选项。

[0056] 在时间候选项推导的本发明再一个实施例中，可更使用根据上述实施例的基于时间共位区块的MV或MV/DV推导的时间候选项以推导时间候选项。例如，当提供参考列表和共位图像时，可通过查找具有与给定参考列表相同的相应参考列表的MV/DV来推导MV/DV候选项。然后根据时间距离/视图间距离对推导的MV/DV进行缩放。又例如，当提供参考列表与共位图像时，通过查找在时间/视图间维度穿过当前图像的MV/DV来推导MV/DV候选项。然后根据时间距离/视图间距离对推导的MV/DV进行缩放。又例如，当提供参考列表与共位图像时，根据下列顺序推导MV/DV候选项：

[0057] 1.查找在时间/视图间维度穿过当前图像的MV/DV；以及

[0058] 2.如果两个MV/DV都穿过或都不穿过当前图像，选择与当前列表具有相同参考列表的MV/DV。

[0059] 然后根据时间距离/视图间距离对推导的MV/DV进行缩放。

[0060] 在时间候选项推导的再一个实施例中，可将根据上述实施例的基于时间共位区块的MV或MV/DV推导的时间候选项更用于推导时间候选项。当提供参考列表时，可根据给定的优先级顺序基于来自列表0或列表1中的共位图像中的共位区块的列表0或列表1的MV/DV推导MV/DV候选项。该优先级顺序为预定义、间接推导或直接传输至解码器。然后根据时间距离/视图间距离对推导的MV/DV进行缩放。优先级顺序的一个实例如下所示，其中，假设当前列表为列表0：

[0061] 1.来自列表1中的共位图像的共位区块的列表0的缩放MV/DV；

[0062] 2.来自列表0中的共位图像的共位区块的列表1的缩放MV/DV；

[0063] 3.来自列表0中的共位图像的共位区块的列表0的缩放MV/DV；以及[0064] 4.来自列表1中的共位图像的共位区块的列表1的缩放MV/DV。

[0065] 对于合并和跳跃模式的时间候选项推导，如果时间共位区块的预测维度为视图间维度，如果已选择时间候选项，当前PU可直接使用预测信息，其中预测信息可例如预测维度(时间或视图间)、预测方向(L0/L1或双向)、参考图像索引以及时间共位区块的DV。

[0066] 对于合并和跳跃模式的时间候选项推导，如果时间共位区块的预测维度为时间维度，可直接传输或间接推导参考图像索引。如果已选择时间候选项，当前PU可直接使用预测信息，其中预测信息可例如预测维度、预测方向(L0/L1或双向)、参考图像索引以及时间共位区块的MV。然后根据时间距离对推导的MV进行缩放。对于参考图像索引的推导，可基于来自相邻区块的参考图像指数(indice)的中值(median)/平均值(mean)或大多数值(majority)间接推导得到。

[0067] 本发明还揭露了推导视图间候选项的多个实施例。在视图间候选项推导的一个实施例中，如果视图间候候选项用于预测运动矢量，则从视图间共位区块的MV中推导视图间候选项。类似地，如果视图间候候选项用于预测视差矢量，则从视图间共位区块的DV中推导视图间候选项。可使用视图间共位图像中的当前区块的相同位置或使用GDV或者根据深度信息将当前区块投射在视图间共位图像之上来确定视图间维度中共位区块的位置。

[0068] 在视图间候选项推导的另一个实施例中，如果使用视图间候选项预测运动矢量，则从视图间共位区块的MV和DV中推导视图间候选项。类似地，如果使用视图间候选项预测视差矢量，则从视图间共位区块的MV和DV中推导视图间候选项。可使用视图间共位图像中的当前区块的相同位置或使用GDV或者根据深度信息将当前区块投射在视图间共位图像之上来确定视图间维度中共位区块的位置。

[0069] 在视图间候选项推导的本发明再一个实施例中，可更使用根据上述实施例的基于视图间共位区块的MV或MV/DV推导的视图间候选项以推导视图间候选项。例如，当提供参考列表和共位图像时，可通过查找具有与给定参考列表相同的相应参考列表的MV/DV来推导MV/DV候选项。然后根据时间距离/视图间距离对推导的MV/DV进行缩放。又例如，当提供参考列表与共位图像时，可通过查找在时间/视图间维度穿过当前图像的MV/DV来推导MV/DV候选项。又例如，当提供参考列表与共位图像时，根据下列顺序可推导MV/DV候选项：

[0070] 1.查找在时间/视图间维度穿过当前图像的MV/DV；以及

[0071] 2.如果两个MV/DV都穿过或都不穿过当前图像，选择与当前列表具有相同参考列表的MV/DV。

[0072] 然后根据时间距离/视图间距离对推导的MV/DV进行缩放。

[0073] 又例如，当提供参考列表时，可根据给定的优先级顺序基于来自列表0或列表1中的共位图像中的共位区块的列表0或列表1的MV/DV推导MV/DV候选项。该优先级顺序为预定义、间接推导或直接传输至解码器。然后根据时间距离/视图间距离对推导的MV/DV进行缩放。优先级顺序的一个实例如下所示，其中，假设当前列表为列表0：

[0074] 1.列表1中的共位图像的共位区块的列表0的缩放MV/DV；

[0075] 2.列表0中的共位图像的共位区块的列表1的缩放MV/DV；

[0076] 3.列表0中的共位图像的共位区块的列表0的缩放MV/DV；

[0077] 4.列表1中的共位图像的共位区块的列表1的缩放MV/DV。

[0078] 对于合并和跳跃模式的视图间候选项推导，如果视图间共位区块的预测维度为时间维度，如果已选择视图间候选项，当前PU可直接使用预测信息，其中预测信息例如预测维度、预测方向(L0/L1或双向)、参考图像索引以及视图间共位区块的MV。

[0079] 可使用视图间共位图像中的当前区块的相同位置或使用GDV或者根据深度信息将当前区块投射在视图间共位图像之上来确定视图间维度中共位区块的位置。

[0080] 对于合并和跳跃模式的视图间候选项推导，如果视图间共位区块的预测维度为视图间维度，可直接传输或间接推导参考图像索引。如果已选择视图间候选项，当前PU可直接使用预测信息，其中预测信息例如预测维度、预测方向(L0/L1或双向)、参考图像索引以及视图间共位区块的DV。然后根据视图间距离对推导的DV进行缩放。对于参考图像索引的推导，可基于来自相邻区块的参考图像指数的中值/平均值或大多数值间接推导得到。

[0081] 可使用视图间共位图像中的当前区块的相同位置或使用GDV或者根据深度信息将当前区块投射在视图间共位图像之上来确定视图间维度中共位区块的位置。

[0082] 上述的根据本发明的3D视频编码的空间候选项推导、时间候选项推导或视图间候选项推导的实施例可在不同硬件、软件、或二者的组合中实现。例如，本发明的一个实施例可为集成在视频压缩芯片中的电路或集成在视频压缩软件中的程序代码以执行实施例中所述的处理。本发明的一个实施例也可为数字信号处理器(DSP)上执行的程序代码以执行实施例中所述的处理。本发明也关于由计算机处理器、DSP、微处理机或FPGA执行的多个功能。根据本发明，通过执行定义本发明所包括的特定方法的机器可读软件代码或固件代码，可配置这些处理器以执行特定任务。可在不同程序语言和不同格式或风格中开发软件代码或固体代码。也可对不同目标平台编译软件代码。然而，根据本发明不同编码格式、风格和软件代码语言以及为执行任务的配置代码其他方式都不得脱离本发明的精神与范围。

[0083] 在不脱离本发明精神或基本特征的前提下可将本发明以其他特定形式实现。将所述的实例看作仅为说明目的各个方面，并非用于限制用途。因此，本发明的范围由所附的权利要求决定而并非前面的描述所决定。在权利要求的含义或其等效范围之内的任何改变都在本发明保护范围之内。

标题	发布/更新时间	阅读量
可伸缩视频编码/解码方法和设备	2020-05-08	632
一种实现分层视频编码的方法、装置及系统	2020-05-11	564
用于混合的交错和递进内容的可伸缩视频编码的方法	2020-05-11	643
一种信息中心网络多层次视频媒体系统及其使用方法	2020-05-08	529
视频数据解码方法、编码方法以及相关设备	2020-05-08	517
使用序列结束网络抽象层单元的改进视频编码	2020-05-11	927
编码方法、系统和编码器、解码方法、系统和解码器	2020-05-12	159
一种360度视频帧间快速编码方法	2020-05-08	379
时序动作提名的生成方法、装置、设备及存储介质	2020-05-11	284
基于rtmp的音视频数据加解密方法、装置及可读存储介质	2020-05-11	127

推导运动和视差矢量的方法及装置

推导运动和视差矢量的方法及装置

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：