首页 / 专利库 / 广播 / 自由视点电视 / 在处理来自于多个媒体源的媒体内容中指定、发信和使用独立编解码的码点的方法及装置

在处理来自于多个媒体源的媒体内容中指定、发信和使用独立编解码的码点的方法及装置

阅读:607发布:2020-05-08

专利汇可以提供在处理来自于多个媒体源的媒体内容中指定、发信和使用独立编解码的码点的方法及装置专利检索,专利查询,专利分析的服务。并且本 发明 提供一种方法,其在处理来自于多个媒体源的媒体内容中 指定 、发信和使用独立编解码的码点。一种实施这个方法的装置接收由一个或多个集群中的多个媒体源所捕获的多个媒体内容。这个装置处理该多个媒体内容以提供用于该多个媒体源的多个独立编解码的码点。这个装置也编码该多个媒体内容以提供至少一个 基础 流。,下面是在处理来自于多个媒体源的媒体内容中指定、发信和使用独立编解码的码点的方法及装置专利的具体信息内容。

1.一种方法,包括:
接收由一个或多个集群中的多个媒体源所捕获的多个媒体内容;
处理该多个媒体内容以提供用于该多个媒体源的多个独立编解码的码点;以及编码该多个媒体内容以提供至少一个基础流。
2.根据权利要求1所述的方法,其特征在于,
处理该多个媒体内容以提供用于该多个媒体源的多个独立编解码的码点,包括:
产生该多个独立编解码的码点作为来自于该多个媒体源的多个媒体内容的多个信号的特征。
3.根据权利要求1所述的方法,其特征在于,
该多个媒体内容包括多个视频内容,其中该多个独立编解码的码点表征投影类型,该投影类型表示视口清单到区域清单的投影的类型,并且该投影的类型包括球面展开、立方体展开或者环展开。
4.根据权利要求3所述的方法,其特征在于,
该多个独立编解码的码点还表征逆投影类型,该逆投影类型表示该区域清单到该视口清单的逆投影的类型,其中该逆投影的类型包括球面形成、立方体形成或环形成。
5.根据权利要求1所述的方法,其特征在于,
该多个媒体内容包括多个视频内容,其中该多个独立编解码的码点表征映射类型,该映射类型表示第一区域清单到第二区域清单的映射的类型,且该映射的类型包括阵列覆盖、T覆盖或者线覆盖。
6.根据权利要求5所述的方法,其特征在于,
该多个独立编解码的码点还表征逆映射类型,该逆映射类型表示该第二区域清单到该第一区域清单的逆映射的类型,且该逆映射的类型包括阵列去覆盖、T去覆盖或者线去覆盖。
7.根据权利要求1所述的方法,其特征在于,该多个独立编解码的码点表征该多个独立编解码的码点的一个或多个应用类型的一个或多个配置。
8.根据权利要求7所述的方法,其特征在于,该一个或多个配置中的每个配置包括表示多个方面中一个或多个方面,其中该多个方面包括:
该多个媒体源的几何类型;
几何表面识别;
一个或多个视口中的每个的各自数量的平移;
该一个或多个视口中的每个的各自数量的旋转;
一个或多个区域中的每个的各自的位置
该一个或多个视口和该一个或多个区域中的每个的各自视图;
投影的类型;
映射的类型;
在不被该映射的类型暗示时的逆映射的类型;以及
在不被该投影的类型暗示时的逆投影的类型。
9.根据权利要求7所述的方法,其特征在于,该一个或多个应用类型包括虚拟现实,且该一个或多个配置包括球面虚拟现实配置或者立方体虚拟现实配置。
10.根据权利要求7所述的方法,其特征在于,该一个或多个应用类型包括自由视点电视,且该一个或多个配置包括自由视点电视配置。
11.根据权利要求1所述的方法,其特征在于,该多个独立编解码的码点包括用于与该一个或多个集群相关的多个方面中的一个或多个方面的多个码点,其中该多个方面包括:
该一个或多个集群中的每个的集群识别值;
该一个或多个集群中的每个的集群尺寸;
表示该一个或多个集群中每个集群内的该多个媒体源的各自的位置的集群位置索引;
表示该一个或多个集群中每个集群内的该多个媒体源的各自子集的几何排列的类型的集群几何类型;
一个或多个视口中的每个的各自数量的平移;
该一个或多个视口中的每个的各自数量的旋转;
一个或多个区域中的每个的各自的位置;
该一个或多个视口和该一个或多个区域中的每个的各自视图;
投影的类型;
映射的类型;
在不被该映射的类型暗示时的逆映射的类型;以及
在不被该投影的类型暗示时的逆投影的类型。
12.一种装置,包括:
处理电路,用于接收由一个或多个集群中的多个媒体源所捕获的多个媒体内容;该处理电路还用于处理该多个媒体内容以提供用于该多个媒体源的多个独立编解码的码点;以及
编码电路,用于编码该多个媒体内容以提供至少一个基础流。
13.根据权利要求12所述的装置,其特征在于,该多个媒体内容包括多个视频内容,其中该多个独立编解码的码点表征投影类型,该投影类型表示视口清单到区域清单的投影的类型,并且该投影的类型包括球面展开、立方体展开或者环展开;
该多个独立编解码的码点还表征逆投影类型,该逆投影类型表示该区域清单到该视口清单的逆投影的类型,且该逆投影的类型包括球面形成、立方体形成或环形成。
14.根据权利要求12所述的装置,其特征在于,
该多个媒体内容包括多个视频内容,其中该多个独立编解码的码点表征映射类型,该映射类型表示第一区域清单到第二区域清单的映射的类型,且该映射的类型包括阵列覆盖、T覆盖或者线覆盖;
该多个独立编解码的码点还表征逆映射类型,该逆映射类型表示该第二区域清单到该第一区域清单的逆映射的类型,且该逆映射的类型包括阵列去覆盖、T去覆盖或者线去覆盖。
15.根据权利要求12所述的装置,其特征在于,该多个独立编解码的码点表征该多个独立编解码的码点的一个或多个应用类型的一个或多个配置;
该一个或多个配置中的每个配置包括表示多个方面中一个或多个方面,其中该多个方面包括:
该多个媒体源的几何类型;
几何表面识别;
一个或多个视口中的每个的各自数量的平移;
该一个或多个视口中的每个的各自数量的旋转;
一个或多个区域中的每个的各自的位置;
该一个或多个视口和该一个或多个区域中的每个的各自视图;
投影的类型;
映射的类型;
在不被该映射的类型暗示时的逆映射的类型;以及
在不被该投影的类型暗示时的逆投影的类型。
16.根据权利要求12所述的装置,其特征在于,该多个独立编解码的码点表征该多个独立编解码的码点的一个或多个应用类型的一个或多个配置;
该一个或多个应用类型包括虚拟现实,且该一个或多个配置包括球面虚拟现实配置或者立方体虚拟现实配置。
17.根据权利要求12所述的装置,其特征在于,
该多个独立编解码的码点表征该多个独立编解码的码点的一个或多个应用类型的一个或多个配置;
该一个或多个应用类型包括自由视点电视,且该一个或多个配置包括自由视点电视配置。
18.根据权利要求12所述的装置,其特征在于,该多个独立编解码的码点包括用于与该一个或多个集群相关的多个方面中的一个或多个方面的多个码点,其中该多个方面包括:
该一个或多个集群中的每个的集群识别值;
该一个或多个集群中的每个的集群尺寸;
表示该一个或多个集群中每个集群内的该多个媒体源的各自的位置的集群位置索引;
表示该一个或多个集群中每个集群内的该多个媒体源的各自子集的几何排列的类型的集群几何类型;
一个或多个视口中的每个的各自数量的平移;
该一个或多个视口中的每个的各自数量的旋转;
一个或多个区域中的每个的各自的位置;
该一个或多个视口和该一个或多个区域中的每个的各自视图;
投影的类型;
映射的类型;
在不被该映射的类型暗示时的逆映射的类型;以及
在不被该投影的类型不暗示时的逆投影的类型。
19.一种装置,包括:
解码电路,用于解码包含由一个或多个集群中多个媒体源所捕获的编码视频内容的至少一个基础流和用于该多个媒体源的多个独立编解码的码点,以提供一个或多个解码媒体内容流;以及
渲染电路,用于基于该多个解码媒体内容流中的多个视频内容,渲染一个或多个视口、一个或多个区域及其组合。
20.根据权利要求19所述的装置,其特征在于,该多个独立编解码的码点还表征逆投影类型,该逆投影类型表示该区域清单到该视口清单的逆投影的类型;
该多个独立编解码的码点还表征逆映射类型,该逆映射类型表示第二区域清单到第一区域清单的逆映射的类型;
该渲染电路用于使用该多个独立编解码的码点,渲染该一个或多个视口和该一个或多个区域。

说明书全文

在处理来自于多个媒体源的媒体内容中指定、发信和使用独

立编解码的码点的方法及装置

[0001] 【交叉引用】
[0002] 本申请要求如下申请的优先权:2016年09月23日提出的申请号为62/398,549的美国专利申请案和在2016年09月29日提出的申请号为62/401,276的美国专利申请案的非临时申请案的一部分。且上述列出的应用的内容以引用方式整体并入本文中。【技术领域】
[0003] 本发明涉及多个媒体源的媒体处理。具体而言,本发明涉及在处理来自于多个媒体源的媒体内容中指定、发信和使用独立于编解码的码点(coding-independent code points,CICP)的系统及方法。【背景技术】
[0004] 除非此处另有说明外,本部分所描述的方法相对于下面列出的权利要求而言不是现有技术,并且本部分包含的内容不被承认是现有技术。
[0005] 当前,在大范围的几何结构中,存在多样性的摄像机和图像或光学感测器,其允许捕获具有多种空间维度的更丰富形式的视觉媒体数据。这种多样性包括多视图阵列(multi-view array)(例如,线状、弧状、平面、圆顶状)、360°虚拟现实(virtual reality,VR)摄像机设置、光场摄像机(例如摄像机阵列)、6自由度(6-degree-of-freedom,6DoF)摄像机或者深度摄像机。不同摄像机设置捕获三维(three-dimensional,3D)空间的光辐射的不同表示,并且不同表示可以形成从宽基线和稀疏多视图阵列到窄基线和密集的光场数据的光谱
[0006] ISO/IEC 23001-8的说明意图定义各种码点和码场(code field),其建立独立于压缩编码和比特位速率的视频流或者音频流的特性。但是,在其最新版本中,缺乏用于多个媒体源,特别是这些由摄像机和图像感测器或者光感测器所捕获的媒体源的码点,以在信号由相应的编码器以一种适合压缩这类输入信号的方式促进压缩之前,提供来自于多个媒体源的信号的特征。也缺乏用于多个媒体源,特别是这些由摄像机和图像感测器或者光感测器所捕获的媒体源的码点,以提供可以描述解码视频数据或者解码音频数据的合适说明的特性。没有这些所指定和发信(signaled)的独立编解码的码点,很难定义依赖于这些码点的其他面向应用的规范和系统。【发明内容】
[0007] 以下发明内容仅是说明性的,不打算以任何方式加以限制。也就是说,以下发明内容被提供以介绍此处所描述的新且非显而易见的技术的概念、重点、好处和优势。选择而不是所有的实施方式在下面的详细说明中进行进一步描述。因此,以下发明内容不用于确定所要求主题的本质特征,也不用于确定所要求主题的范围。
[0008] 在一方面中,一种方法可以涉及接收由一个或多个集群中的多个媒体源所捕获的多个媒体内容。这个方法也可以涉及处理该多个媒体内容以提供用于该多个媒体源的多个独立编解码的码点。这个方法还可以涉及编码该多个媒体内容以提供至少一个基础流。
[0009] 在一方面中,一种装置可以包括处理电路和编码电路。处理电路可以用于接收由一个或多个集群中的多个媒体源所捕获的多个媒体内容。该处理电路也可以用于处理该多个媒体内容以提供用于该多个媒体源的多个独立编解码的码点。编码电路可以用于编码该多个媒体内容以提供至少一个基础流。
[0010] 在一方面中,一种装置可以包括解码电路和渲染电路。解码电路可以用于解码包含由一个或多个集群中多个媒体源所捕获的编码视频内容的至少一个基础流和用于该多个媒体源多个独立编解码的码点,以提供一个或多个解码媒体内容流。渲染电路可以用于基于解码媒体内容流中的多个视频内容,渲染一个或多个视口、一个或多个区域及其组合。【附图说明】
[0011] 提供下列图式以进一步理解本发明公开的内容,并且这些图式被纳入且构成本发明公开的一部分。这些图式说明了本发明的实施方式,并与说明书一起用以解释本发明的原理。为了清楚地说明本发明的概念,由于与实际实施方式中的尺寸相比,一些元件可以不按照比例被示出,这些图式无需按照比例绘制。
[0012] 图1是根据本发明的各种示例可实现的示例情景的示意图。
[0013] 图2是根据本发明的各种示例可实现的n维空间中的自由度的示意图。
[0014] 图3包括示出根据本发明的一些示例形状的视口(viewport)的表格。
[0015] 图4是根据本发明的n维空间中示例视口的示意图。
[0016] 图5是根据本发明的由沿着环移动的摄像机生成的动态视口的示意图。
[0017] 图6包括示出根据本发明的可形成视口的几何形状的示例类型的表格。
[0018] 图7是根据本发明的示例流程的示意图。
[0019] 图8是根据本发明的用于球形视口的示例等投影和映射的示意图。
[0020] 图9是根据本发明的用于立方形视口的示例立方体投影和映射的示意图。
[0021] 图10是根据本发明的用于矩形区域的示例环形投影和映射的示意图。
[0022] 图11包括显示根据本发明的示例集群几何类型的表格。
[0023] 图12包括显示根据本发明的示例视图特征的表格。
[0024] 图13包括显示根据本发明的示例投影类型的表格。
[0025] 图14包括显示根据本发明的示例映射类型的表格。
[0026] 图15包括显示根据本发明的示例逆映射类型的表格。
[0027] 图16包括显示根据本发明的示例逆投影类型的表格。
[0028] 图17是根据本发明的具有规范化流程的新内容流流程的示意图。
[0029] 图18是根据本发明的示例装置的示意图。
[0030] 图19是根据本发明的流程的流程图。【具体实施方式】
[0031] 在下面详细的说明书中,为了透彻理解相关教示内容,透过举例的方式进行说明大量具体的细节。基于本文所描述的教示内容的任何改变、推导和/或拓展均在本发明的保护范围内。在一些例子中,为了避免不必要地混淆本发明的教示内容的方面,在相对较高的级别而无细节上描述已知的方法、程序、元件和/或关于此处所公开的一个或者多个示例性实施方式的电路。
[0032] 概述
[0033] 本发明提出了一种系统及方法,其用于在编码之前的不同的媒体处理阶段,以及在解码之后的传输和处理期间,指定、发信和使用用于多个集群(或者集合)中多个媒体源的独立编解码的码点。本发明也提出了一种系统及方法,其先透过规范化(canonicalization),变换自在球面上排列成不同几何类型的媒体源(例如摄像机)而获得的源内容,然后使用用于球面内容的传统内容流流程和新内容流流程,处理规范化的内容。
[0034] 图1示出了根据本发明的各种示例可实现的示例情景100的示意图。在情景100中,提供视频(序列或者图像序列)、静止图像和/或其他类型媒体(例如音频、文本)的多个媒体0 M-1 0 M-1
源S (0)~S (NM-1-1)可以概念上或者物理上组成多个集群C ~C ,其中M和N中的每个为大于1的正整数。一个或多个类型的媒体源的集群C0~CM-1提供在编码之前的处理阶段110中待处理的一种或多种类型的媒体。为了简化,由处理阶段110后处理(post process)的一个或多个具有给定类型(例如,视频)的处理过的媒体(processed media)被示出作为多个
0 m-1 0 m-1
媒体源s(0)~s (nm-1-1)。它们被组成多个集群c~c 以提供给定类型的媒体,以用于在提供多个基础流ES0~ESm-1的编码阶段120进行编码。如图1所示,在处理阶段110和编码阶段120中的每个之前,可以使用根据本发明的有关于CICP的方案、概念、方法及技术。
[0035] 可以在广泛范围的目标应用中使用本发明所提出的方案、概念、方法、系统及技术,从而允许编码之前的对媒体源内容集合的媒体处理。这些目标应用包括,例如但不限于,360°(全向)视频、自由视点电视(free viewpoint television,FVT)、用于重构物体或者情景作为编码之前和解码之后的多个媒体源的组成部分(具有深度信息)的点类型应用和包括媒体感测器的光场。
[0036] 在根据本发明的各种实施方式中,所提出的CICP可以支持捕获位于源(resource)处的多个视口和投影映射之后的区域作为码点。所提出的CICP可以使能多个基于视口和区域的适应流(adaptive streaming)。此外,所提出的CICP可以支持构造位于宿(sink)处的任意选择的视口。另外,所提出的CICP可以使得上流和下流视口缝合、投影和映射变得方便。此外,所提出的CICP可以提供用于以文件格式发信码点的承载和参考的信息、用于内容存储的流清单和媒体组合(media orchestration)、适应流和媒体组成。
[0037] 基本概念
[0038] 在本发明中,概念“视口”是指在三维/二维/一维空间内观察者(或者摄像机、图像感测器或者光感测器)可观察到的视图(或者图像、情景)区域(area)。在VR应用中,视口可以是3D球面视频的视图区域。
[0039] 在本发明中,概念“区域”是指观察者(或摄像机、图像感测器或者光感测器)可观察到的二维(two-dimensional,2D)平面的视图(或者图像、情景)区域。
[0040] 在本发明中,概念“投影”是指将视口投影到区域的流程。
[0041] 在本发明中,概念“映射”是指将视口映射到被映射到一个或多个其他视口和区域(可能由投影所形成),使它们可以被进一步映射到2D平面上一个或多个其他区域的的流程。
[0042] n维空间内的自由度
[0043] 鉴于n维空间内的自由度(degrees of freedom,简写为DoF),由观察者或者摄像机在任何给定时刻可观察到的任何程度的世界是在n维空间内特定位置和方向处可视的部分世界,其中n=3,2,1。n维空间内的DoF(任何刚体(rigid object)的)被定义成平移自由度n与旋转自由度n*(n-1)的和。在3D空间中,如图2的部分(A)所示,存在6(=3+3*(3-1)/2)个自由度(six degrees of freedom,6DoF),其中6DoF中的三个为平移的,6DoF中的其他三个为旋转的。3D空间内的三个平移的自由度包括如下:沿着X轴向左和向右移动(摇摆)、沿着Y轴向上和向下移动(起伏)和沿着Z轴向前和向后移动(冲浪)。3D空间内的三个旋转的自由度包括如下:围绕着X轴向前和向后倾斜(俯仰)、围绕着Y轴向左和向右转动(turning)(偏航)和围绕着Z轴侧对侧倾斜(滚动(rolling))。因此,3D空间内的任何观察者(或者摄像机、图像感测器或者光感测器)在观察者主体的空间平移中具有三个自由度,以及在观察者头部(或者透镜)的角度旋转中具有三个自由度。
[0044] 在2D空间内,如图2的部分(B)所示,存在3(=2+2*(2-1)/2)个自由度(three degrees of freedom,3DoF),其中3DoF中的两个与沿着X轴和Y轴的平移,即(x,y)相关,3DoF中的一个与旋转,即θ相关。2D空间内的两个平移的自由度包括如下:沿着X轴向左和向右移动(摇摆)和沿着Y轴向上和向下移动(起伏)。2D空间内的旋转的自由度包括围绕着中心顺时针和逆时针转动(转动)。同样地,2D空间内的任何观察者(或者摄像机、图像感测器或者光感测器)在观察者主体的空间平移中具有两个自由度,以及在观察者头部(或者透镜)的角度旋转中具有一个自由度。
[0045] 在1D空间中,如图2的部分(C)所示,存在1(=1+1*(1-1)/2)个自由度(one degrees of freedom,1DoF)。这个自由度与沿着X轴的平移,即x相关。1D空间内的平移的自由度包括沿着X轴向左和向右移动(摇摆)。这意味着1D空间内的任何观察者(或者摄像机、图像感测器或者光感测器)仅在观察者主体的空间平移中具有一个自由度,即向左和向右移动,并且,在观察者头部(或者透镜)的角度旋转中没有自由度/具有0个自由度。
[0046] 视口
[0047] 即便在全向视频应用中,视口通常主要被考虑成3D球面视频的区域,但是在本发明中,视口V被考虑成一般意义上n维(n-dimensional,nD)空间内的视图(或者情景、图像)区域。因此,视口V由其在(n+n*(n-1)/2)自由度的空间内的点和具有某个几何形状和尺寸的视图(或者情景、图像)来确定。一般化的目标在于拓展3D空间、2D空间和1D空间内的视口的覆盖范围,以用于更广泛范围的应用。
[0048] 形式上,视口V表示成如下:
[0049] V=(τ,ρ,ι)
[0050] 此处,τ表示平移(或者位置),ρ表示旋转,ι表示图像(或者视图、情景)形状。视口的直观解释是,视口为具有旋转ρ和平移τ的形状ι的图像。
[0051] 根据空间的维度,如下面的表1所示,视口可以具有不同的表示形式的平移τ和旋转ρ。
[0052] 表1–视口的平移和旋转
[0053]
[0054] 注意的是,在很多应用中,平移和旋转可以用的实际范围值是离散的,且可能甚至是有限的。在这些情况中,这些值可以被表示为描述的值,例如用于平移的“中心”、“左”、“右”、“上”、“下”、“前”和“后”(用于(x,y,z)的一些预设单位),以及用于旋转(例如以90°为单位的旋转)的“向前”(θx=θy=θz=0)、“向上”(θx=90)“,向下”(θx=-90),“向左”(θy=90)、“向右”(θy=-90°)、“向后”(θy,=180°)、“顺时针”(θz=90°)和“逆时针”(θz=-90°)。
[0055] 根据其形状,视口可以具有其图像(或者视图、情景)的不同表示形式。图3示出了一些视口的示例形状。值得注意的是,在一些情况中,可以存在其他方式来表示视图及其形状。例如,可以以范围形式来表示矩形,如下:
[0056] ι(R)=(x1,x2,y1,y2)
[0057] 此处,(x1,x2)和(y1,y2)为在一些参考坐标系统中的座标范围(即起点和终点),w=|x1-x2|和h=|y1-y2|。
[0058] 图4的部分(A)示出了3D空间内的一些示例视口。这些示例视口可以被表示成如下面的表2所示。
[0059] 表2–3D空间内的示例视口
[0060]
[0061]
[0062] 图4的部分(B)示出了2D空间内的两个示例视口。这些示例视口可以被表示成如下面的表3所示。
[0063] 表3–2D空间内的示例视口
[0064]
[0065] 图4的部分(C)示出了1D空间内的两个示例视口。这些示例视口可以被表示成如下面的表4所示。
[0066] 表4–1D空间内的示例视口
[0067]
[0068] 视口可随着时间的推移而改变运动。动态(或者运动)视口为与时间相关的视口序列V(t)。在离散时间中,动态视口可以以绝对形式表示成如下:
[0069] V(t),v(t+1),…,
[0070] 可选地,动态视口可以以增量形式表示成如下:
[0071] V(t),V(t+1)=V(t)+δV(t),….
[0072] 当在3D/2D/1D空间内漫游时,动态视口可以提供由观察者(或者摄像机、图像感测器或者光感测器)可观察到的视频(图像序列、视图序列或者情景序列),从而反射在视口改变其平移、旋转和可能的形状时所捕获的媒体内容。具有其平移和旋转被限制于n维度的nD动态视口,其中n=3,2,1。例如,如图5所示,由位于环上的多个摄像机中的一个围绕着环移动而产生的视口为2D动态视口。
[0073] 当动态视口V(t)不改变其维度中的一些(例如,位置、旋转和/或形状)时,可以简化其表示。例如,在全向视频应用中,视口改变通常仅涉及俯仰旋转和偏航旋转,即δθx(t)和δθy(t)上的改变,但不涉及平移、滚动旋转和/或视口形状和视口尺寸上的改变。在这些情况中,可以以非常简化的形式表示动态视口V(t),其中原始视口V(0)=V0=(τ0,ρ0,ι0),一系列的改变δθx(t)和δθy(t),t=1,2,…等。在一些应用中,动态视口的平移和旋转可以相关,其也可以用于简化视口表示。对于诸如图5所示的环上的动态视口而言,动态视口可以由原始视口V(0)=V0=(τ(2)0,ρ(2)0,ι0)和在其旋转θ上的一系列的增量改变δθ(t)来表示。
[0074] 区域
[0075] 在本发明中,区域被考虑成2D平面的图像(或者视图、情景)区域。在这层意义上,区域R由其在平面上的位置及其几何形状(包括尺寸)来确定。区域与2D视口之间的差异在于,区域在旋转上没有自由,而视口有。
[0076] 形式上,区域R被表示成如下:
[0077] R=(λ,ι)
[0078] 此处,λ=(x,y)表示位置,ι表示图像形状。值得注意的是,位置可以被指定为,例如,与某个坐标系统相关的图像的左上角位置、左下位置或者中心位置。图像的区域的示例形状可以包括如下:矩形ι(R)=(w,h),圆形ι(C)=r以及三角形ι(T)=(w,h)。
[0079] 当区域随着时间的推移而改变运动时,区域可以变成动态(或者运动)区域。这样,动态(或者运动)区域为与时间相关的区域序列R(t)。在离散时间中,动态区域可以以绝对形式表示成如下:
[0080] R(t),R(t+1),…,
[0081] 可选地,动态区域可以以增量形式表示成如下:
[0082] R(t),R(t+1)=R(t)+δR(t),….
[0083] 动态区域可以提供视频(图像序列、视图序列或者情景序列),从而反射在区域改变其位置和可能的形状时所捕获或者观察到的媒体内容。
[0084] 当动态区域R(t)不改变其维度中的一些(例如,位置和形状)时,可以简化动态区域的表示。例如,在感兴趣(region of interest,ROI)视频应用中,区域改变通常涉及位置(x,y)上的改变,并且不涉及形状上的改变。在这些情况中,可以以简化的形式表示动态区域R(t),其中原始区域R(0)=R0=(λ0,ι0),一系列的改变δλ(t),t=1,2,…等。
[0085] 在本发明中,瓦片(tile)是一种具有矩形形状的特殊类型的区域,且动态瓦片是在2D平面周围移动的瓦片。
[0086] 视口的几何类型
[0087] 在由视口媒体源产生的视口集群的情况下,视口可以共同排列成一些几何形状。图6示出了根据本发明的可形成视口的几何形状的一些示例类型。图6中未示出的其他示例可以包括偏球体、多面体(具有4个、8个和20个表面)、截棱锥(truncated pyramid)、用于3D视口的分段球体和定向鱼眼(directed fisheye)、多边形(具有不同数量的边缘)以及用于
2D视口的矩形网格(w*h的尺寸)。
[0088] 值得注意的是,视口集群可以具有其本身内部的多层结构。例如,集群可以被分割成多个子集群。当每个子集群可具有其本身的几何形状时,子集群可以共同具有集群层几何形状,每个子集群作为“大”视口,并且集群形状和子集群形状可以不同。为了简化,本发明针对由集群内所有视口形成的单个几何形状。
[0089] 投影和映射方法
[0090] 对于VR、FVT和其他相关的应用,在解码之前,来自于媒体源的捕获的媒体内容(例如视频)的视口或者区域需要被投影并映射(例如,透过缝合)到2D平面上。为了渲染需要的视口或者区域,可以传输、解码、渲染以及呈现一些映射区域的编码版本。图7示出了根据本发明的示例流程700的示意图。
[0091] 对于3D空间中具有几何排列的K个媒体源S0,…,SK-1的集群,投影和映射可以定义成如下:
[0092] ·对于投影为函数P:(V0,…,VK-1)→(R0,…,RK-1)
[0093] ·对于映射为函数M:(R0,…,RK-1)→(R’0,…,R’L-1)
[0094] ·对于逆映射为函数M-1:(R’0,…,R’M-1)→(R0,…,RN-1)
[0095] ·对于逆投影为P-1函数:(R0,…,RN-1)→(V0,…,VN-1)
[0096] 在VR和FVT相关应用中上述函数的一些常见示例包括,例如但不限于,用于球形视口的等角投影和映射(equirectangular projection and mapping,ERP)、用于立方形视口的立方体投影和映射(cube projection and mapping,CMP)和用于矩形区域的环形投影和映射(ring projection and mapping,RMP)。下面描述这些示例中的每个。
[0097] ERP为360°视频中常见的投影和映射,构成其投影和映射的结果如图8的部分(A)所示。在ERP的情况中,源视口可以被描述成具有自球体的中心(x,y,z)=(0,0,0)观看到的纬度尺寸和经度尺寸而无任何滚动θz=0的球形源视口,如下:
[0098] V=(τ,ρ,ι)其中τ=(0,0,0),ρ=(θx,θy,0),ι(R)=(δθx,δθy),[0099] 投影区域和映射区域均为无任何旋转θ=0的矩形形状,如下:
[0100] R=(λ,ι)其中λ=(x,y),ι=ι(R)=(w,h)
[0101] R’=(λ’,ι’)其中λ’=(x’,y’),ι’=ι‘(R)=(w’,h’)。
[0102] 图8的部分(B)显示了ERP中投影区域和映射区域的示例。投影函数、映射函数、逆映射函数和逆投影函数,即P,M,Mr和Pr如下面的表5所示。
[0103] 表5–ERP中的投影函数和映射函数
[0104]
[0105]
[0106] 值得注意的是,映射和逆映射由两个因数,即cx和cy来参数化,以用于缩放整个2D区域的尺寸。此外,存在大量的可用的球体投影,其中一些球体投影在减小不同种类失真(例如面积、方向和距离)方面更好,但是在计算投影、映射及其逆函数方面具有更高的计算复杂度,例如Winkel tripe投影。
[0107] 在CMP中,将视口投影并映射到立方体的6个面上,取决于这些面在2D平面上如何排列。图9的部分(A)显示了CMP的一个示例。如图9的部分(A)所示,由于上面(2)和下面(3)不相邻,使得编解码不是最有效的。由于投影函数和映射函数被定义成独立的函数,这6个面可以被重新排列以为了实现更好的编解码效率。图9的部分(B)显示了排列这些面的另一种方式。使用这种排列,源视口可以被描述成自立方体的中心(x,y,z)=(0,0,0)观看到的而无任何滚动θz=0的立方矩形视口,如下:
[0108] V=(τ,ρ,ι)其中τ=(0,0,0),ρ=(θx,θy,0),ι=ι(S)=d此处,θx=0°,±90°和180°,θy=0°,±90°,d表示立方体的尺寸。投影区域和映射区域均为无任何旋转θ=0的矩形形状,如下:
[0109] Ri=(λi,ιi)其中λi=(xi,yi),ιi=d
[0110] Ri’=(λi’,ιi’)其中λi’=(xi’,yi’),ιi’=(w’,h’)
[0111] 投影函数、映射函数、逆映射函数和逆投影函数,即P,M,Mr和Pr如下面的表6所示。
[0112] 表6–CMP中的投影函数和映射函数
[0113]
[0114]
[0115] 值得注意的是,映射和逆映射由两个因数,即cx和cy来参数化,以用于缩放整个2D区域的尺寸。此外,在不同数量的表面的其他多面体和其他种类立体中存在媒体源排列,例如,二十面体、八面体和截顶方棱锥。对于这些其他立体,其视口Vi、投影区域Rj、映射区域R’k、投影P、映射M、逆映射M-1和逆投影P-1可以以与立方体的这些相似的方式来定义,其中表面形状的视口和区域的位置和尺寸需要具体定义。
[0116] 关于RMP,图10显示了具有涉及重迭消除(在投影期间)
[0117] 和缝合(在映射期间)的区域的示例。在图10所示的示例中,在半径为ρ的2D环中排列有n个2D视口,每个2D视口被放置在具有旋转θi=i*360/n的(xi,yi)处且面向环的中心,并且具有尺寸为(W,H)的矩形视图形状,如下:
[0118] Vi=(τi,ρi,ιi)其中τi=(xi,yi),ρ=θi,ι=ι(S)=(W,H)。
[0119] 投影区域和映射区域均矩形形状,如下:
[0120] Ri=(λi,ιi)其中λi=(xi,yi),ιi=(w,h)
[0121] Ri’=(λi’,ιi’)其中λi’=(xi’,yi’),ιi’=(w’,h’)。
[0122] 投影函数、映射函数、逆映射函数和逆投影函数,即P、M、M-1和P-1如下面的表7所示。
[0123] 表7–RMP中的投影函数和映射函数
[0124]
[0125] 值得注意的是,投影和逆投影由一个重迭比例因数t来参数化,以用于使用每侧处的相邻区域消除重迭区域。映射和逆映射由两个因数,即cx和cy来参数化,以用于缩放整个2D区域的尺寸。此外,这种投影和映射可以被应用到摄像机的排列,例如矩形形状的摄像机阵列和圆形形状和矩形形状的多层摄像机阵列(用多行映射到2D区域)。
[0126] 用于多个视频源的CICP
[0127] 根据本发明,独立编解码的码点可以被定义以用于媒体源集群。尽管在下文中强调的是视频源,但是方案和概念可以被应用到其他类型的媒体源。
[0128] 对于集群,可以定义多个CICP。下面提供示例定义。
[0129] ClusterID的CICP可以定义成如下:
[0130] ·名称:ClusterID
[0131] ·类型:串
[0132] ·范围:没有
[0133] 根据一些识别系统,ClusterID的CICP可以表示相关媒体源集群的识别值。
[0134] ClusterSize的CICP可以定义成如下:
[0135] ·名称:ClusterSize
[0136] ·类型:不带正负号的整数
[0137] ·范围:没有
[0138] ClusterSize的CICP可以表示相关媒体源集群的尺寸。
[0139] ClusterPositionIndex的CICP可以定义成如下:
[0140] ·名称:ClusterPositionIndex
[0141] ·类型:不带正负号的整数,计数(enumeration)
[0142] ·范围:0到ClusterSize-1
[0143] ClusterPositionIndex的CICP可以表示相关媒体源集群内的媒体源的位置索引。其值小于ClusterSize的值。
[0144] ClusterGeometryType的CICP可以定义成如下:
[0145] ·名称:ClusterGeometryType
[0146] ·类型:不带正负号的整数,计数
[0147] ·范围:0–255
[0148] ClusterGeometryType的CICP可以表示3D空间或者2D空间中集群内的相关媒体源的几何排列的类型。
[0149] 图11显示了根据本发明的示例集群几何类型的表格。值得注意的是,根据需要,这个表格可以被拓展、修改或者重新排序。例如,诸如偏球体、多面体(具有4个、8个和20个表面)、截棱锥、分段球体和定向鱼眼的3D几何类型以及诸如多边形(具有不同数量的边缘)和矩形网格(w*h的尺寸)的2D几何类型可以根据需要被添加到这个表格中。此外,任何几何类型的嵌套版本(nested version),例如嵌套的球体或者环(具有相同中心但不同半径的一系列的球或者环)、嵌套的立方体、嵌套的矩形(具有相同中心和比例尺寸的一系列的矩形),也可以作为候选,以用于添加到这个表格中。
[0150] CubeSurfaceID的CICP可以定义成如下:
[0151] ·名称:CubeSurfaceID
[0152] ·类型:不带正负号的整数,计数
[0153] ·范围:0–15
[0154] CubeSurfaceID的CICP可以表示相关媒体资源集群的立方体几何类型的表面的标称识别值(nominal identification value)。CubeSurfaceID的示例值如下面的表8所示。
[0155] 表8–CubeSurfaceID
[0156]值 立方体表面名称
0 保留
1 前(front)
2 上(top)
3 下(bottom)
4 左(left)
5 右(right)
6 后(back)
7-15 保留
[0157] CylinderSurfaceID的CICP可以定义成如下:
[0158] ·名称:CylinderSurfaceID
[0159] ·类型:不带正负号的整数,计数
[0160] ·范围:0–15
[0161] CylinderSurfaceID的CICP可以表示相关媒体资源集群的圆柱体几何类型的表面的标称识别值。CylinderSurfaceID的示例值如下面的表9所示。
[0162] 表9–CylinderSurfaceID
[0163]值 圆柱体表面名称
0 保留
1 上
2 下
3 侧(side)
4-15 保留
[0164] 值得注意的是,额外的属性可以被引进以用于其他集群几何类型,其表面需要被标称地识别。示例包括多面体、截棱锥和分段球体。
[0165] 对于视口的平移和旋转,可以定义一些CICP。下面提供示例定义。
[0166] ViewportPositionX、ViewportPositionY和ViewportPositionZ的CICP可以定义成如下:
[0167] ·名称:ViewportPositionX,ViewportPositionY,ViewportPositionZ
[0168] ·类型:固定点或者整数
[0169] ·范围:没有
[0170] ViewportPositionX、ViewportPositionY和ViewportPositionZ的CICP可以分别表示相对于参考坐标系统的视口在X轴、Y轴和Z轴上的座标。
[0171] ViewportRotationPitch,ViewportRotationYaw,ViewportRotationRoll和ViewportRotation的CICP可以定义成如下:
[0172] ·名称:ViewportRotationPitch,ViewportRotationYaw,ViewportRotationRoll,ViewportRotation
[0173] ·类型:固定点或者整数
[0174] ·范围:[-180,180]或[0,360]
[0175] ViewportOrientationPitch ,ViewportOrientationYaw,ViewportOrientationRoll和ViewportRotation的CICP可以分别表示相对于参考坐标系统的3D和2D中的视口的俯仰、偏航和转动旋转。
[0176] RegionLocationX和RegionLocationY的CICP可以定义成如下:
[0177] ·名称:RegionLocationX,RegionLocationY
[0178] ·类型:固定点或者整数
[0179] ·范围:没有
[0180] RegionLocationX和RegionLocationY的CICP可以分别表示相对于参考坐标系统的区域在X轴和Y轴上的座标。
[0181] RegionBasePoint的CICP可以定义成如下:
[0182] ·名称:RegionBasePoint
[0183] ·类型:不带正负号的整数,计数
[0184] ·范围:0到15
[0185] RegionBasePoint的CICP可以表示相对于参考坐标系统的座标为RegionLocationX和RegionLocationY的区域上的参考点的类型,RegionBasePoint的示例值如下面的表10所示。
[0186] 表10–RegionBasePoint
[0187]值 区域基准点
0 保留
1 中心
2 左上角
3 左下角
4 右上角
5 右下角
6-15 保留
[0188] RegionOverlappingRatio的CICP可以定义成如下:
[0189] ·名称:RegionOverlappingRatio
[0190] ·类型:不带正负号的整数,计数
[0191] ·范围:0到255
[0192] RegionOverlappingRatio的CICP可以表示在其被缝合在一起时区域与其相邻区域中的每个之间的重迭比例。RegionOverlappingRatio的示例值如下面的表11所示。
[0193] 表11–RegionOverlappingRatio
[0194]值 重迭比例
0 0%
1 0.1%
2 0.2%
3 0.3%
4 0.4%
5 0.5%
6 0.6%
... ...
255 25.5%
[0195] 对于视口和区域的视图,可以定义一个或多个CICP。下面提供示例定义。
[0196] ViewCharateristics的CICP可以定义成如下:
[0197] ·名称:ViewCharateristics
[0198] ·类型:不带正负号的整数,计数
[0199] ·范围:0–15
[0200] ViewCharateristics的CICP可以表示视图的形状和尺寸。
[0201] 图12显示了示例视图特征的表格。这个表格中所列出的示例视图特征包括矩形、正方形、圆形和三角形。值得注意的是,其他形状(例如,多边形、椭圆和椭圆形(ellipse and oval)及其尺寸可以根据需要被添加到这个表格中。
[0202] 对于投影和映射,可以定义一些CICP。下面提供示例定义。
[0203] ProjectionType的CICP可以定义成如下:
[0204] ·名称:ProjectionType
[0205] ·类型:不带正负号的整数,计数
[0206] ·范围:0–255
[0207] ProjectionType的CICP可以表示视口清单到另一区域清单的投影类型。图13显示了示例投影类型的表格。这个表格中所列出的示例投影类型包括球面展开、立方体展开和环形展开。
[0208] MappingType的CICP可以定义成如下:
[0209] ·名称:MappingType
[0210] ·类型:不带正负号的整数,计数
[0211] ·范围:0–255
[0212] MappingType的CICP可以表示一区域清单到另一区域清单的映射类型。图14显示了示例映射类型的表格。这个表格中所列出的示例映射类型包括阵列覆盖(tiling)、T覆盖和线覆盖。
[0213] ReverseMappingType的CICP可以定义成如下:
[0214] ·名称:ReverseMappingType
[0215] ·类型:不带正负号的整数,计数
[0216] ·范围:0–255
[0217] ReverseMappingType的CICP可以表示一区域清单到另一区域清单的逆映射类型。图15显示了示例逆映射类型的表格。这个表格中所列出的示例逆映射类型包括阵列去覆盖(de-tiling)、T去覆盖和线去覆盖。
[0218] ReverseProjectionType的CICP可以定义成如下:
[0219] ·名称:ReverseProjectionType
[0220] ·类型:不带正负号的整数,计数
[0221] ·范围:0–255
[0222] ReverseProjectionType的CICP可以表示区域清单到另一视口清单的逆投影类型。图16显示了示例逆投影类型的表格。这个表格中所列出的示例逆投影类型包括球面形成(forming)、立方体形成和环形成。
[0223] CICP配置(profile)
[0224] 涉及多个媒体源的很多应用在3D空间或者2D空间中的一些自由度上具有限制。由于这些应用的视口和区域可以具有特定的形状,因而,这些应用的投影和映射可以具有特殊的形式。因此,定义配置方便以用于独立编解码码点上的关于CICP的特定类型的应用,并为其量身打造。在一些实施例中,CICP配置条目(profiling item)包括,例如但不限于,每个媒体源的几何类型、几何表面识别(Geometry Surface Identification)、视口的平移和旋转、区域的位置、视口和区域的视图、投影、映射、逆映射和逆投影。下面列出这些示例CICP配置条目。
[0225] 1.多个媒体源的几何类型:ClusterGeometryType表格中已有的和拓展的。
[0226] 2.几何表面识别:如果需要,所配置的几何类型的表面的已有的或者拓展的标称识别。
[0227] 3.视口的平移和旋转:
[0228] a.视口位置(ViewportPositionX,ViewportPositionY和ViewportPositionZ)的数量及其范围的限制
[0229] b.定位(ViewportOrientationPitch,ViewportOrientationYaw,ViewportOrientationRoll,ViewportOrientation)的数量及其范围的限制
[0230] 4.区域的位置:
[0231] c.位置(RegionLocationX和RegionLocationY)的数量及其范围的限制
[0232] d.定位(RegionBasePoint)的限制
[0233] e.RegionOverlappingRatio的限制
[0234] 5.视口和区域的视图:关于视图形状和尺寸的ViewCharateristics表格中已有的和拓展的。
[0235] 6.投影:Proj ectionType表格中已有的和拓展的。
[0236] 7.映射:MappingType表格中已有的和拓展的。
[0237] 8.逆映射:ReverseMappingType表格中已有的和拓展的。
[0238] 9.逆投影:ReverseProjectionType表格中已有的和拓展的。
[0239] 为了示意目的,下面描述VR配置和FVT配置。
[0240] 作为一个示例,ERP中球面(360°或者180°)VR配置可以具有如下所列出的多个限制。
[0241] 1.ClusterGeometryType=1(球面)
[0242] 2.没有表面识别
[0243] 3.视口的平移和旋转:V=(τ,ρ,ι)其中(x0,y0,z0),ρ=(θx,θy,0)
[0244] a.ViewportPositionX=x0,ViewportPositionY=y0和ViewportPositionZ=z0。这意味着视口位置被固定到参考坐标系统中具体的点处,并且视口不会移动且改变其位置。
[0245] b.ViewportRotationRoll=0。这意味着视口没有滚动旋转。对应180°球面VR,ViewportRotationPitch和ViewportRotationYaw的范围被限制在[0,180)或者(-90,90][0246] 4.区域的位置:R=(λ,ι)其中λ=(x,y)
[0247] a.RegionBasePoint=1。这意味着区域的基准点位于该区域的中心
[0248] b.RegionOverlappingRatio=0。这意味着区域与其相邻区域没有重迭
[0249] 5.视口和区域的视图:ViewCharateristics=1(矩形)
[0250] 6.投影:ProjectionType=1(球面展开)
[0251] 7.映射:MappingType=1(阵列覆盖)
[0252] 8.逆映射:ReverseMappingType=1(阵列去覆盖)
[0253] 9.逆投影:ReverseProjectionType=1(球面形成)
[0254] 作为另一示例,CMP中的立方体VR配置可以具有多个如下所列出的限制。
[0255] 1.ClusterGeometryType=2(立方体)
[0256] 2.CubeSurfaceID被选择
[0257] 3.视口的平移和旋转:V=(τ,ρ,ι)其中τ=(x0,y0,z0),ρ=(θx,θy,0)[0258] a.ViewportPositionX=x0,ViewportPositionY=y0以及ViewportPositionZ=z0。这意味着视口位置被固定到参考坐标系统中具体的点,并且视口不会移动且改变其位置。
[0259] b.ViewportRotationRoll=0。这意味着视口没有滚动旋转。
[0260] 4.区域的位置:R=(λ,ι),其中λ=(x,y)
[0261] a.RegionBasePoint=1。这意味着区域的基准点位于该区域的左上角
[0262] b.RegionOverlappingRatio=0。这意味着区域与其相邻区域没有重迭
[0263] 5.视口和区域的视图:ViewCharateristics=2(正方形)
[0264] 6.投影:ProjectionType=2(立方体展开)
[0265] 7.映射:MappingType=2(t覆盖)
[0266] 8.逆映射:ReverseMappingType=2(t去覆盖)
[0267] 9.逆投影:ReverseProjectionType=2(立方体形成)
[0268] 作为又一示例,用于摄像机的环形排列的RAP中的FTV配置可以具有如下列出的一些限制。
[0269] 1.ClusterGeometryType=201(环)。
[0270] 2.没有表面识别。
[0271] 3.视口(二维的)的平移和旋转:Vi=(τi,ρi,ιi)其中τi=(xi,yi),ρ=θi[0272] a.没有。
[0273] 4.区域的位置:R=(λ,ι)withλ=(x,y)
[0274] b.RegionBasePoint=1。这意味着区域的基准点位于区域的左上角
[0275] 5.视口和区域的视图:ViewCharateristics=1(矩形的)
[0276] 6.投影:ProjectionType=201(环形展开)
[0277] 7.映射:MappingType=201(线覆盖)
[0278] 8.逆映射:ReverseMappingType=201(线去覆盖)
[0279] 9.逆投影:ReverseProjectionType=201(环形成)。
[0280] 规范化流程
[0281] 在使用全向(例如,360°VR)媒体内容的全向媒体应用中,全向图像或者视频通常使用多个摄像机来捕获,然后被校准,被缝合在一起,根据特定的投影被投影到一个或多个2D平面,并根据特定的映射被映射到上。随后,编码并传输图像帧或者视频帧,并且传输的帧在接收器侧被解码,特定视图被提取且显示(例如,在头戴式设备(head-mounted device,HMD)或者一些其他显示装置上)。根据源摄像机的几何排列,不同的投影和映射可以用于准备图像帧和视频帧以用于编码和传输。常见的几何类型包括,例如,球体、立方体、二十面体、偏球体、圆柱体、4个、8个和12个面的多面体、截棱锥、分段球体和直接的鱼眼(direct fisheye)。
[0282] 当由于用户交互而试图构造回应于用户选择的视口而需要的视口以用于呈现时,例如用户头部的移动,在处理很多不同类型的投影和映射图像帧或者视频帧中出现一个主要问题。要求复杂的信息应被提供给用于传输的封装机制内的这些帧,例如存储文件和流清单,并且要求不同视图构造演算法应在接收器侧实施,以用于识别相关帧区域,且构造所要求的视口。当投影图像或者视频和映射图像或者视频被分割成待编码的瓦片,被转换成不同品质以及被单独传输时,特别是用于有效的动态适应流并快速回应于用户选择的视口,这个问题变得更加严重。
[0283] 鉴于上述,为了实施更有效的全向媒体应用,提高用户体验,并具有较低实施复杂度,本发明提出了一种规范化全向内容的传输和重构的方法及系统。本发明所提出的方法及系统首先透过规范化将摄像机所获得且排列成其他几何类型的源内容变换到球面上,然后使用用于球面内容的传统内容流流程和新内容流流程处理规范化的内容。
[0284] 选择球面作为目标几何类型来变换其他类型的原因在于,存在很多很好研究的用于球面的投影方法和映射方法,并且在发信和渲染方面,其等角投影和映射通用且易于实现。此外,由于球形视口和映射区域的相邻关系方面的连续性保护–其与经常导致区域相邻非连续性的其他几何类型视口的投影和映射成对比,球面对用户选择的视图的多区域(或者多瓦片)传输和重构非常友好。另外,在球面上的图像帧或者视频帧的很多情况中,回应于使用者的头部运动,将要显示给使用者的是使用者选择的视口。当处理解码非球面投影和映射的图像帧或者视频帧时,接收器(或者用户端)需要基于非球形视口构造球形视口。这意味着,存在一些从非球形视口到球形视口的变换,使得用户选择的球形视口被构造。因此,如果从非球形视口到相应的球形视口的变换在编码之前实施,则可以规范化,使得更有效率,且易于实现,甚至于标准化从编码开始的整个内容流流程。
[0285] 根据本发明,在“图像缝合、投影和映射”的流程之前,引进所提出的规范化流程。所提出的规范化流程可以将自媒体源捕获的非球形视口变换到球形视口集群、球形视口集或者球形视口集合。图17示出了根据本发明的具有规范化流程的新内容流流程。如图17所示,内容流流程1700考虑了潜在的部分处理和及时处理(例如,为了支援动态适应传输和基于使用者交互的按需处理)。在内容流流程1700中,在规范化之后,源视口可以无需恢复整个球面(例如,由于在立方体上不存在上面视口)。如果用户选择的视口(例如,直接向上看的)不能基于已有的源视口来构造,则这使得可以使用及时处理(例如,将摄像机转向直接向上看,或者开启直接向上看的摄像机)变得可能。一般地,所有阶段处理可以无需处理所有可用的输入图像或者视频数据,并且可以由来自于用户选择的视口的按需请求(on-demand request)来部分驱动或者甚至全部驱动。这可能导致解码、传输、编码/转换、投影/映射、规范化、捕获必要的瓦片中可能的部分处理,以用于构造用户选择的视口。这也可能导致可能的及时处理,以用于产生需要但遗失的解码、传输以及编码/编码变换的瓦片,投影/映射区域以及规范化且捕获的视口。
[0286] 用内容流流程1700,关注的一方面可以是从“缝合、投影、映射”开始的处理球形视口,关注的另一方面可以是其他几何类型的视口到球形视口的规范化。存在大量的充分研究的球形投影。一些投影倾向于计算效率,但会引起可观察到的面积、方向和距离上的变换失真,例如等角投影。一些其他投影倾向于更好地减小面积、方向和距离上的不同种类失真,但可能在计算投影、映射及其逆函数方面需要更高计算复杂度,例如Winkel tripel投影。
[0287] 通常,所提出的规范化流程可以用于非球形视口,甚至与传统(即非规范化)内容流流程一起。所提出的规范化流程可以被考虑成“缝合、投影、映射”和“构造”处理的组成部分。对于每个非球形类型,根据不同的标准(例如,面积失真、方向失真和距离失真),除了计算复杂度和编解码压缩效率的影响,使用一些变换演算法,可以实现所提出的规范化流程。
[0288] 对于具有定义好的中心(或者原点)的非球形类型的视口,最简单且直接的规范化可以是对到具有相同中心(或者原点)的球形的视口上的所有点(或者“向量”)进行规范化或者缩放。就是说,对于一个视口上的任何点(x,y,z),规范化变换可以涉及计算相应的相对于中心的方位角和倾斜角(θx,θy),如下:
[0289]
[0290]
[0291] 随后,将这个点映射到具有角度(θx,θy)的球面上。在具有相同角度(θx,θy)的视口上存在多个点的情况中,相应的球面点可取点值(pointvalue),其为这些非球形视口的值的平均或者加权平均。值得注意的是,尽管简单且直接,但这类规范化或者缩放在避免失真方面可能不是完美的。例如,当将规范化应用到立方体(其中|x|=d/2,|y|=d/2or|z|=d/2)上的面视口(face viewport)时,结果可以是集中在球面上的点,其对应于位于立方体的角上的这些点。
[0292] 由于规范化变换的改善,下面用于规范化立方视口的示例变换可以更加均匀地展开位于立方体的角周围的点。具体地,对于立方体几何类型的面视口上的任何点(x,y,z),球面上相应的变换点(transformed point)为(x’,y’,z’),如下:
[0293]
[0294] 球面上相应的变换点具有方位角和倾斜角(θx′,θy′),如下:
[0295]
[0296] 当从球体内部观看时,上述变换可使得由变换映射的角和边缘周围更光滑。
[0297] 示意的实施方式
[0298] 图18示出了根据本发明一实施方式的示例装置1800。装置1800可以执行各种功能,以实现此处描述的有关于在处理来自于多个媒体源的媒体内容中指定、发信并使用CICP的方案、技术、处理和方法,包括上述根据图1-图16所描述的各种方案、概念和示例,以及下面所描述的流程1900。
[0299] 装置1800可以是电子装置的一部分,其可以是便携装置或者移动装置、可穿戴装置、无线通讯装置或者计算装置。例如,装置1800可以在智能手机、智能手表个人数字助理、数字摄像机或者诸如平板电脑、掌上型电脑或者笔记型电脑的计算设备。装置1800也可以是机器类型装置的一部分,其可以是物联网(Internet-of-Things,IoT)装置,例如非移动装置或者固定装置、家庭装置、有线通信装置或者计算装置。
[0300] 在一些实施方式中,装置1800可以以一个或多个集成电路(integrated-circuit,IC)芯片的形式来实现,例如,例如但不限于,一个或多个单核处理器、一个或多个多核处理器或者一个或多个复杂指令集计算(complex-instruction-set-computing,CISC)处理器。装置1800可以包括如图18所示的这些元件中的至少一些,例如第一处理器1810和第二处理器1860。装置1800还可包括与本发明所提出的方案无关的一个或多个其他元件(例如,内部电源、显示装置和/或用户周边设备),并且为了简洁,因此装置1800的这些元件没有在图18中显示,也没有在下面进行描述。
[0301] 一方面,处理器1810和处理器1860中的每个可以以一个或多个单核处理器、一个或多个多核处理器或者一个或多个CISC处理器的形式来实现。就是说,尽管此处使用单数的术语“处理器”以表示处理器1810和处理器1860中的每个,但是根据本发明,处理器1810和处理器1860中的每个可以在一些实施方式中包括多个处理器,并且在其他实施方式中包括单个处理器。另一方面,处理器1810和处理器1860中的每个可以以具有电子元件的硬件(并且优选地,固件)的形式来实现,其包括,例如但不限于,一个或多个电晶体、一个或多个二极体、一个或多个电容器、一个或多个电阻器、一个或多个电感器、一个或多个记忆电阻和/或一个或多个变容管,其用于实现根据本发明的特定目的。换言之,在至少一些实施方式中,处理器1810和处理器1860中的每个为专用机器,其被特殊设计、设置并被配置成执行包括这些有关于根据本发明各个实施方式的在处理来自于多个媒体源的媒体内容中指定、发信并使用CICP的特定任务。处理器1810可以包括媒体内容处理电路1812、编码电路1814。处理器1860可以包括解码电路1866和渲染电路1868。解码电路1866可以用于对编码媒体内容进行解码。渲染电路1868可以用于渲染解码媒体内容以用于显示(由装置1800或者远端装置或者远端设备)。
[0302] 例如,解码电路1866可以用于解码至少一个基本流(elementary stream),其包括由一个或多个集群中的多个媒体源所捕获的编码媒体内容,以及用于多个媒体源以提供一个或多个解码媒体内容流的多个CICP。此外,例如透过使用表征一个或多个视口中的每个的逆投影类型的CICP和表征一个或多个视口中的每个的逆映射类型的CICP,渲染电路1868可以用于基于解码媒体内容流中的视频内容渲染一个或多个视口、一个或多个区域或者其结合。
[0303] 在一些实施方式中,装置1800也可以包括与处理器1820耦接的通信设备1820,以及与处理器1860耦接的通信设备1870。通信设备1820和通信设备1870中的每个可以包括收发器,其用于无线地和/或透过有线介质发送和接收数据、信息和/或信号。在一些实施方式中,装置1800还可包括与处理器1810耦接的存储器1830和与处理器1860耦接的存储器1880,其每个分别用于由处理器1810或者处理器1860访问,并存储数据。存储器1830和存储器1880中的每个可包括随机存取存储器(random-access memory,RAM)的类型,例如动态RAM(dynamic RAM,DRAM)、静态RAM(static RAM,SRAM)、晶闸管RAM(thyristor RAM,T-RAM)和/或非零电容器RAM(zero-capacitor RAM,Z-RAM)。可选地或者额外地,存储器1830和存储器1880中的每个可包括只读存储器(read-onlymemory,ROM)的类型,例如掩蔽型ROM、可程序设计ROM(programmable ROM,PROM)、可擦除可程序设计ROM(erasable programmable ROM,EPROM)和/或电子可擦除可程序设计ROM(electrically erasable programmable ROM,EEPROM)。可选地或者额外地,存储器1830和存储器1880中的每个可包括非挥发性随机存取存取器(non-volatilerandom-access memory,NVRAM)的类型,例如快闪存储器、固态存储器、电RAM(ferroelectric RAM,FeRAM)、磁阻RAM(magnetoresistive RAM,MRAM)和/或相位变化存储器。
[0304] 在一些实施方式中,媒体内容处理电路1812可以用于接收(例如,透过通信设备1820)由一个或多个集群1850(1)~1850(M)中的多个媒体源1840(1)~1840(N)所捕获的媒体内容,其中N和M中的每个为正整数。多个媒体源1840(1)~1840(N)中的每个可以是摄像机、光感测器、图像感测器、音频感测器或者另一类型的感测器。媒体内容处理电路1812也可以用于处理媒体内容,以提供根据本发明的用于多个媒体源的多个CICP。编码电路1814可以用于编码媒体内容以提供至少一个基础流。
[0305] 为了简洁且避免重复,下面结合流程1900,提供装置1800的进一步功能、能和操作的具体说明。
[0306] 图19示出了根据本发明的示例流程1900。流程1900可以表示实施所提出的概念和方案的一方面,例如上述根据图1-图18所描述的各种方案、概念和示例中的一个或多个。更具体地,流程1900可以表示有关于在处理来自于多个媒体源中指定、发信和使用CICP的所提出的概念和方案的一方面。例如,无论是部分地还是全部地,流程1900可以是上述所提出方案、概念和示例的一个示例实施方式,以用于在处理来自于多个媒体源中指定、发信和使用CICP。流程1900可包括由步骤1910、步骤1920和步骤1930中的一个或多个所示出的一个或多个操作、动作或者功能。虽然按照离散的步骤示出,但是根据特定的实施方式,流程1900的各个步骤可以被分成额外的步骤、被组合成更少的步骤或者被省略。此外,流程1900的步骤可以以图19所示的顺序来执行,或者可选地,以不同的顺序来执行。流程1900的步骤可以被反覆运算地执行。流程1900及其各自变形可以由装置1800来实施或者在装置1800中或在其变形中实施。仅用于说明的目的而不限制本发明的范围,下面结合装置1800描述流程1900。流程1900可以始于步骤1910。
[0307] 在1910中,流程1900可涉及装置1800的媒体内容处理电路1812,其接收由一个或多个集群1850(1)~1850(M)中的多个媒体源1840(1)~1840(N)所捕获的媒体内容。流程1900可以从1910继续到1920。
[0308] 在1920中,流程1900可以涉及媒体内容处理电路1812,其处理媒体内容以提供用于多个媒体源1840(1)~1840(N)的多个CICP。流程1900可以从1920继续到1930。
[0309] 在1930中,流程1900可涉及装置1800的编码电路,其编码媒体内容以提供至少一个基础流。
[0310] 在一些实施方式中,在处理媒体内容以提供用于多个媒体源的多个CICP方面,流程1900可涉及媒体内容处理电路1812,其产生多个CICP作为来自于多个媒体源的媒体内容的信号的特征。
[0311] 在一些实施方式中,媒体内容可以包括视频内容。在这些情况中,多个CICP可以表征投影类型,其表示视口清单到区域清单的投影的类型。投影的类型可以包括球面展开、立方体展开或者环形展开。在一些实施方式中,多个CICP也可以表征逆投影类型,其表示区域清单到视口清单的逆投影的类型。逆投影的类型可以包括球面形成、立方体形式或者环形成。
[0312] 在一些实施方式中,媒体内容可以包括视频内容。在这些情况中,多个CICP可以表征映射类型,其表示第一区域清单到第二区域清单的映射的类型。映射的类型可以包括阵列覆盖、T覆盖或者线覆盖。在一些实施方式中,多个CICP也可以表征逆映射类型,其表示第二区域清单到第一区域清单的逆映射的类型。逆映射的类型可以包括阵列去覆盖、T去覆盖或者线去覆盖。
[0313] 在一些实施方式中,多个CICP可以表征CICP的一个或多个应用类型的一个或多个配置。
[0314] 在一些实施方式中,一个或多个配置中的每个配置可以包括表示多个方面中的一个或多个方面的信息。这多个方面可以包括如下:多个媒体源的几何类型,几何表面识别、一个或多个视口中每个的各自数量的平移、一个或多个视口中每个的各自数量的旋转、一个或多个区域中每个的各自位置、一个或多个视口和一个或多个区域中每个的各自视图、投影类型、映射类型、逆映射类型(如果不被映射类型暗示)和逆投影类型(如果不被投影类型暗示)。
[0315] 在一些实施方式中,一个或多个应用类型可以包括VR,并且一个或多个配置可以包括球形VR配置和/或立方体VR配置。可选地,一个或多个应用类型可以包括FVT,且一个或多个配置可以包括FVT配置。
[0316] 在一些实施方式中,多个CICP可以包括用于与一个或多个集群相关的多个方面中一个或多个方面的码点。这多个方面可以包括如下:一个或多个集群中每个的集群识别值、一个或多个集群中每个的集群尺寸、表示一个或多个集群中每个集群内的多个媒体源中各自的位置的集群位置索引、表示一个或多个集群中每个集群内的多个媒体源中各自子集的几何排列的类型的集群几何类型、一个或多个视口中每个的各自数量的平移、一个或多个视口中每个的各自数量的旋转、一个或多个区域中每个的各自位置、一个或多个视口和一个或多个区域中每个的各自视图、投影类型、映射类型、逆映射类型以及逆投影类型。
[0317] 额外说明
[0318] 本文所描述的主题有时表示不同的元件,其包含在或者连接到其他不同的元件。可以理解的是,所描述的结构仅是示例,实际上可以由许多其他结构来实施,以实作相同的功能。从概念上讲,任何实作相同功能的组件的排列实际上是“相关联的”,以便实作所需的功能。因此,不论结构或中间部件,为实作特定的功能而组合的任何两个元件被视为“相互关联”,以实作所需的功能。同样,任何两个相关联的元件被看作是相互“可操作连接”或“可操作耦接”,以实作特定功能。能相互关联的任何两个组件也被视为相互“可操作地耦合”以实作特定功能。可操作连接的具体例子包括但不限于物理可配对和/或物理上相互作用的元件,和/或无线可交互和/或无线上相互作用的元件,和/或逻辑上相互作用和/或逻辑上可交互的元件。
[0319] 此外,关于基本上任何复数和/或单数术语的使用,本领域技术人员可以根据上下文和/或应用从复数转换为单数和/或从单数到复数。为清楚起见,本文明确规定了不同的单数/复数排列。
[0320] 此外,本领域技术人员可以理解,通常,本发明所使用的术语特别是请求项中的,如请求项的主题,通常用作“开放”术语,例如,“包括”应解释为“包括但不限于,“有”应理解为“至少有”“包括”应解释为“包括但不限于”等。本领域技术人员可以进一步理解,若计画介绍特定数量的请求项的内容,将在请求项内明确表示,并且,在没有这类内容时将不显示。例如,为帮助理解,请求项可能包含短语“至少一个”和“一个或多个”,以介绍请求项的内容。然而,这些短语的使用不应理解为暗示使用不定冠词“a”或“an”介绍请求项的内容,而限制了任何特定的专利范围。甚至当相同的请求项包括介绍性短语“一个或多个”或“至少有一个”,不定冠词,例如“a”或“an”,则应被解释为表示至少一个或者更多,对于用于介绍权利要求的明确描述的使用而言,同样成立。此外,即使明确引用特定数量的介绍性内容,本领域技术人员可以认识到,这样的内容应被解释为表示所引用的数量,例如,没有其他修改的“两个引用”,意味着至少两个引用,或两个或两个以上的引用。此外,在使用类似于“A、B和C中的至少一个”的表述的情况下,通常如此表述是为了本领域技术人员可以理解表述,例如,“系统包括A、B和C中的至少一个”将包括但不限于单独具有A的系统,单独具有B的系统,单独具有C的系统,具有A和B的系统,具有A和C的系统,具有B和C的系统,和/或具有A、B和C的系统,等。本领域技术人员进一步可理解,无论在说明书中、权利要求中或者图式中,由两个或两个以上的替代术语所表现的任何分隔的单词和/或短语应理解为,包括这些术语中的一个,其中一个,或者这两个术语的可能性。例如,“A或B”应理解为,“A”,或者“B”,或者“A和B”的可能性。
[0321] 从前述可知,为了说明目的,此处已描述了各种实施方案,并且在不偏离本发明的范围和精神的情况下,可以进行各种变形。因此,此处所公开的各种实施方式不用于限制,权利要求表示真实的范围和精神。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈