首页 / 专利库 / 工业自动化和数控机床 / 横滚 / 用于视频处理和显示的系统和方法

用于视频处理和显示的系统和方法

阅读:24发布:2022-03-14

专利汇可以提供用于视频处理和显示的系统和方法专利检索,专利查询,专利分析的服务。并且本文提供了用于处理和显示由可移动物体获得的立体视频数据的系统、方法和设备。可以提供一种用于感测环境的方法,可移动物体被配置为在所述环境中操作。所述方法可以包括:借助于可移动物体上的一个或多个处理器单独地或共同地:处理环境的视频数据以获得预定视觉效果。可以使用一个或多个成像装置来采集视频数据。所述方法还可以包括对视频数据进行编码以产生立体视频数据并向远离可移动物体的终端发送立体视频数据。,下面是用于视频处理和显示的系统和方法专利的具体信息内容。

1.一种用于感测环境的方法,可移动物体被配置为在所述环境中操作,所述方法包括:
借助于可移动物体上的一个或多个处理器单独地或共同地:
处理所述环境的视频数据以获得预定视觉效果,其中使用一个或多个成像装置来采集所述视频数据;
对视频数据进行编码以产生立体视频数据;以及
将立体视频数据发送到远离可移动物体的终端。
2.根据权利要求1所述的方法,其中,可移动物体上的一个或多个处理器包括用于对视频数据进行编码的视频编解码处理器。
3.根据权利要求1所述的方法,其中,使用多目联合编码对视频数据进行编码。
4.根据权利要求3所述的方法,其中多目联合编码包括:基于一个或多个成像装置的位置信息来执行间预测。
5.根据权利要求3所述的方法,其中多目联合编码包括:在由一个或多个成像装置在同一时刻捕获的多个图像视图之间应用帧间预测。
6.根据权利要求3所述的方法,其中使用多目联合编码对视频数据进行编码包括:(1)使一个或多个成像装置之间的视频数据相关,以及(2)减少视频数据中的信息冗余。
7.根据权利要求6所述的方法,其中多目联合编码包括:将多视图视频编码(MVC)格式应用于视频数据。
8.根据权利要求3所述的方法,其中多目联合编码包括:将高效视频编码(HEVC)格式应用于视频数据。
9.根据权利要求1所述的方法,其中当正在采集并处理视频数据时,基本实时地或接近实时地由一个或多个处理器对视频数据进行编码。
10.根据权利要求1所述的方法,其中使用可移动物体上的一个或多个通信单元将立体视频数据发送给终端。
11.根据权利要求1所述的方法,其中立体视频数据包括高分辨率或超高分辨率立体视频数据。
12.根据权利要求1所述的方法,其中经由地面站将立体视频数据发送到终端,其中所述地面站被配置为:(1)对立体视频数据进行解码以获得视频数据;以及(2)将视频数据发送给终端。
13.根据权利要求1所述的方法,其中所述终端被配置为基于立体视频数据来显示所述环境的第一人称视(FPV)。
14.根据权利要求13所述的方法,其中所述终端包括头戴式显示器(HMD)。
15.根据权利要求13所述的方法,其中所述终端包括支持虚拟现实(VR)或增强现实(AR)的眼镜。
16.根据权利要求13所述的方法,其中所述终端包括安装在可折叠头盔上的移动装置,所述移动装置具有被配置为显示FPV的图形显示器
17.根据权利要求1所述的方法,其中所述一个或多个成像装置包括可操作地连接到可移动物体的多目摄像机。
18.根据权利要求17所述的方法,其中所述多目摄像机是以可移动物体的前视方向安装的双目摄像机。
19.根据权利要求1所述的方法,其中多个成像装置可操作地连接到可移动物体的不同侧。
20.根据权利要求19所述的方法,其中所述多个成像装置被配置为捕获可移动物体周围的环境的视频数据。
21.根据权利要求1所述的方法,其中所述一个或多个成像装置经由载体可操作地连接到可移动物体。
22.根据权利要求21所述的方法,其中,所述载体是多轴台。
23.根据权利要求13所述的方法,其中所述终端被配置为允许用户从第一人称视角(FPV)控制和导航可移动物体。
24.根据权利要求23所述的方法,其中所述由用户控制和导航可移动物体包括:改变终端的姿态以引起成像装置和/或可移动物体的相应移动。
25.根据权利要求1所述的方法,其中所述预定视觉效果包括以减小的抖动平滑地呈现视频数据。
26.根据权利要求25所述的方法,其中所述预定视觉效果改善视频回放的感知质量
27.根据前述权利要求1至26中任何一个所述的方法,其中所述可移动物体是无人机(UAV)。
28.一种用于感测环境的系统,可移动物体被配置为在所述环境中操作,所述系统包括:
一个或多个成像装置,被配置为采集环境的视频数据;以及
可移动物体上的一个或多个处理器,单独或共同地被配置为:(1)处理视频数据以获得预定视觉效果,(2)对视频数据进行编码以产生立体视频数据,以及(3)将立体视频数据发送到远离可移动物体的终端。
29.一种存储指令的非暂时性计算机可读介质,所述指令在被执行时使得计算机执行用于感测环境的方法,可移动物体被配置为在所述环境中操作,所述方法包括:
处理所述环境的视频数据以获得预定视觉效果,其中使用一个或多个成像装置来采集所述视频数据;
对视频数据进行编码以产生立体视频数据;以及
将立体视频数据发送到远离可移动物体的终端。
30.一种用于处理环境的视频数据的方法,所述方法包括:
借助于一个或多个处理器单独地或共同地:
基于可移动物体上的成像装置的一个或多个先前经过的位置,大致实时地或接近实时地获得所述成像装置的参考位置,其中使用可移动物体上的至少一个传感器来获得所述一个或多个先前经过的位置;以及
基于(1)成像装置的参考位置和(2)成像装置拍摄图像帧的实际位置,修改视频数据中的图像帧。
31.根据权利要求30所述的方法,其中基于所述成像装置的一个或多个先前经过的位置,预测所述成像装置的参考位置。
32.根据权利要求30所述的方法,其中所述成像装置的参考位置被配置为补偿成像装置的突然的或大的移动。
33.根据权利要求32所述的方法,其中突然的或大的移动是由可移动物体的运动、成像装置所连接到的载体的运动或来自环境的外部干扰引起的。
34.根据权利要求30所述的方法,其中所述至少一个传感器位于可操作地连接到成像装置的惯性测量单元(IMU)中。
35.根据权利要求30所述的方法,其中所述至少一个传感器包括加速度计、陀螺仪、罗盘和/或全球定位系统(GPS)接收器。
36.根据权利要求30所述的方法,其中所述至少一个传感器被配置为获得成像装置的位置信息、姿态信息和/或运动信息。
37.根据权利要求30所述的方法,其中对包括修改后的图像帧的视频数据进行编码以产生立体视频数据。
38.根据权利要求30所述的方法,其中使用变换矩阵修改所述视频数据中的图像帧。
39.根据权利要求38所述的方法,其中基于所述图像帧和先前图像帧之间的运动特性的改变来计算变换矩阵。
40.根据权利要求39所述的方法,其中所述运动特性的改变包括该图像帧相对于先前图像帧的旋转或平移。
41.根据权利要求39所述的方法,其中基于成像装置的实际位置和先前经过的位置来确定所述运动特性的改变。
42.根据权利要求39所述的方法,其中使用可移动物体上的至少一个传感器来获得所述运动特性的改变。
43.根据权利要求30所述的方法,还包括:获得成像装置的多个参考位置,并基于多个参考位置来生成成像装置的虚拟运动路径。
44.根据权利要求43所述的方法,其中当成像装置或可移动物体中的至少一个处于运动中时,在不同的时间点获得多个参考位置。
45.根据权利要求43所述的方法,其中生成虚拟运动路径包括:滤除不与参考位置交叠的一个或多个先前经过的位置。
46.根据权利要求43所述的方法,其中当成像装置或可移动物体中的至少一个处于运动中时,大致实时地或接近实时地生成虚拟运动路径。
47.根据权利要求43所述的方法,还包括:基于多个参考位置修改视频数据中的多个图像帧,并将修改后的多个图像帧映射到虚拟运动路径。
48.根据权利要求47所述的方法,其中所述映射包括:根据虚拟运动路径按照时间顺序将修改后的多个图像帧拼接在一起,以产生环境的立体视频数据。
49.根据权利要求47所述的方法,其中使用变换矩阵来映射立体视频数据,以产生平滑连续的图像帧。
50.根据权利要求49所述的方法,其中基于立体视频数据,将环境的第一人称视角(FPV)显示在远离可移动物体的终端上。
51.根据权利要求50所述的方法,其中所述终端包括头戴式显示器(HMD)。
52.根据权利要求50所述的方法,其中所述终端包括支持虚拟现实(VR)或增强现实(AR)的眼镜。
53.根据权利要求50所述的方法,其中所述终端包括安装在可折叠头盔上的移动装置,所述移动装置具有被配置为显示FPV的图形显示器。
54.根据权利要求30所述的方法,其中所述成像装置是可操作地连接到可移动物体的多目摄像机。
55.根据权利要求54所述的方法,其中所述多目摄像机是以可移动物体的前视方向安装的双目摄像机。
56.根据权利要求30所述的方法,其中多个成像装置可操作地连接到可移动物体的不同侧。
57.根据权利要求56所述的方法,其中所述多个成像装置被配置为捕获可移动物体周围的环境的视频数据。
58.根据权利要求30所述的方法,其中所述成像装置经由载体可操作地连接到可移动物体。
59.根据权利要求58所述的方法,其中,所述载体是多轴云台。
60.根据权利要求50所述的方法,其中所述终端被配置为允许用户从第一人称视角(FPV)控制和导航可移动物体。
61.根据权利要求60所述的方法,其中由用户控制和导航可移动物体包括:用户改变终端的姿态以引起成像装置和/或可移动物体的相应移动。
62.根据前述权利要求30至61中任何一个所述的方法,其中所述可移动物体是无人机(UAV)。
63.一种用于处理环境的视频数据的设备,所述设备包括一个或多个处理器,所述一个或多个处理器被单独或整体地配置为:
基于位于可移动物体上的成像装置的一个或多个先前经过的位置,大致实时地或接近实时地获得所述成像装置的参考位置,其中使用可移动物体上的至少一个传感器来获得所述一个或多个先前经过的位置;以及
基于(1)成像装置的参考位置和(2)成像装置拍摄图像帧的实际位置,修改视频数据中的图像帧。
64.根据权利要求63所述的设备,其中所述可移动物体是无人机,且所述设备位于所述无人机上。
65.根据权利要求63所述的设备,其中所述设备位于被配置为向用户显示包括修改后的图像帧的视频数据的终端上,且所述终端远离所述可移动物体。
66.根据权利要求63所述的设备,其中所述设备位于被配置为向终端发送包括修改后的图像帧的视频数据的地面站上,且所述地面站和所述终端远离可移动物体。
67.一种存储指令的非暂时性计算机可读介质,所述指令在被执行时使计算机执行处理环境的视频数据的方法,所述方法包括:
基于位于可移动物体上的成像装置的一个或多个先前经过的位置,大致实时地或接近实时地获得所述成像装置的参考位置,其中使用可移动物体上的至少一个传感器来获得所述一个或多个先前经过的位置;以及
基于(1)成像装置的参考位置和(2)成像装置拍摄图像帧的实际位置,修改视频数据中的图像帧。
68.一种用于处理环境的视频数据的方法,所述方法包括:
借助于一个或多个处理器单独地或共同地:
基于成像装置的位置信息生成所述成像装置的虚拟运动路径,其中所述成像装置位于可移动物体上,且所述位置信息是使用所述可移动物体上的一个或多个传感器获得的;以及
将视频数据映射到虚拟运动路径以获得预定视觉效果,其中所述视频数据包括基于成像装置的多个参考位置而修改的多个图像帧。
69.根据权利要求68所述的方法,其中所述成像装置的位置信息包括:包含成像装置相对于参考系的俯仰角、偏航角和/或横滚角的姿态信息。
70.根据权利要求68所述的方法,其中所述成像装置的位置信息包括:包括成像装置的纬度坐标、经度坐标、仰角、高度和/或位移的位置信息。
71.根据权利要求68所述的方法,其中所述成像装置的位置信息包括运动信息,所述运动信息包含成像装置的线速度、线加速度、角速度和/或角加速度
72.根据权利要求68所述的方法,其中所述一个或多个传感器包括加速度计、陀螺仪、罗盘和/或全球定位系统(GPS)接收器。
73.根据权利要求68所述的方法,其中所述一个或多个传感器位于可操作地连接到成像装置并被配置为测量成像装置的位置信息的惯性测量单元(IMU)中。
74.根据权利要求68所述的方法,其中生成虚拟运动路径包括将滤波器应用于成像装置的位置信息。
75.根据权利要求74所述的方法,其中所述滤波器包括低阶滤波器和/或高阶滤波器。
76.根据权利要求68所述的方法,其中所述虚拟运动路径被表示为多项式时基函数。
77.根据权利要求68所述的方法,其中基于成像装置的一个或多个先前经过的位置获得所述成像装置的多个参考位置。
78.根据权利要求68所述的方法,其中使用变换矩阵来修改多个图像帧,所述变换矩阵是基于多个图像帧之间的运动特性的改变来计算的。
79.根据权利要求68所述的方法,其中所述预定视觉效果包括以减小的抖动平滑地呈现视频数据。
80.根据权利要求79所述的方法,其中所述预定视觉效果改善视频回放的感知质量。
81.根据前述权利要求68至80中任何一个所述的方法,其中所述可移动物体是无人机(UAV)。
82.一种用于处理环境的视频数据的设备,所述设备包括一个或多个处理器,所述一个或多个处理器被单独地或整体地配置为:
基于成像装置的位置信息生成所述成像装置的虚拟运动路径,其中所述成像装置位于可移动物体上,且所述位置信息是使用所述可移动物体上的一个或多个传感器获得的;以及
将视频数据映射到虚拟运动路径以获得预定视觉效果,其中所述视频数据包括基于成像装置的多个参考位置而修改的多个图像帧。
83.一种存储指令的非暂时性计算机可读介质,所述指令在被执行时使计算机执行用于处理环境的视频数据的方法,所述方法包括:
基于成像装置的位置信息生成所述成像装置的虚拟运动路径,其中所述成像装置位于可移动物体上,且所述位置信息是使用所述可移动物体上的一个或多个传感器获得的;以及
将视频数据映射到虚拟运动路径以获得预定视觉效果,其中所述视频数据包括基于成像装置的多个参考位置而修改的多个图像帧。
84.一种处理环境的视频数据的方法,所述方法包括:
借助于一个或多个处理器单独地或共同地:
对立体视频数据进行解码以获得所述环境的视频数据,其中所述立体视频数据是从可移动物体发送的;
处理所述视频数据以获得预定视觉效果;以及
将视频数据发送到终端以进行显示。
85.根据权利要求84所述的方法,其中所述一个或多个处理器和所述终端远离所述可移动物体。
86.根据权利要求85所述的方法,其中所述一个或多个处理器位于所述终端处。
87.根据权利要求84所述的方法,其中所述一个或多个处理器位于与所述终端和所述可移动物体通信的地面站处。
88.根据权利要求84所述的方法,其中所述一个或多个处理器包括用于对立体视频数据进行解码的视频编解码处理器。
89.根据权利要求84所述的方法,其中处理视频数据以获得预定视觉效果包括:
基于成像装置的一个或多个先前经过的位置来基本实时地或接近实时地获得成像装置的参考位置,其中所述成像装置被配置为采集视频数据,且所述一个或多个先前经过的位置是使用可移动物体上的至少一个传感器获得的;以及
基于(1)成像装置的参考位置和(2)成像装置拍摄图像帧的实际位置,修改视频数据中的图像帧。
90.根据权利要求84所述的方法,其中处理视频数据以获得预定视觉效果包括:
基于成像装置的位置信息生成成像装置的虚拟运动路径,其中成像装置位于可移动物体上,且所述位置信息是使用所述可移动物体上的一个或多个传感器获得的;以及将视频数据映射到虚拟运动路径以获得预定视觉效果,其中所述视频数据包括基于成像装置的多个参考位置而修改的多个图像帧。
91.根据权利要求84所述的方法,其中立体视频数据包括高分辨率或超高分辨率立体视频数据。
92.根据权利要求84所述的方法,其中使用可移动物体上的一个或多个成像装置采集视频数据。
93.根据权利要求84所述的方法,其中所述终端被配置为基于立体视频数据来显示环境的第一人称视角(FPV)。
94.根据权利要求93所述的方法,其中所述终端包括头戴式显示器(HMD)。
95.根据权利要求93所述的方法,其中所述终端包括支持虚拟现实(VR)或增强现实(AR)的眼镜。
96.根据权利要求93所述的方法,其中所述终端包括安装在可折叠头盔上的移动装置,所述移动装置具有被配置为显示FPV的图形显示器。
97.根据权利要求92所述的方法,其中所述一个或多个成像装置包括可操作地连接到可移动物体的多目摄像机。
98.根据权利要求97所述的方法,其中所述多目摄像机是以可移动物体的前视方向安装的双目摄像机。
99.根据权利要求92所述的方法,其中多个成像装置可操作地连接到可移动物体的不同侧。
100.根据权利要求99所述的方法,其中所述多个成像装置被配置为捕获可移动物体周围的环境的视频数据。
101.根据权利要求92所述的方法,其中所述一个或多个成像装置经由载体可操作地连接到可移动物体。
102.根据权利要求101所述的方法,其中,所述载体是多轴云台。
103.根据权利要求92所述的方法,其中所述终端被配置为允许用户从第一人称视角(FPV)控制和导航可移动物体。
104.根据权利要求103所述的方法,其中所述由用户控制和导航可移动物体包括:改变终端的姿态以引起成像装置和/或可移动物体的相应移动。
105.根据权利要求84所述的方法,其中所述预定视觉效果包括以减小的抖动平滑地呈现视频数据。
106.根据权利要求105所述的方法,其中所述预定视觉效果改善视频回放的感知质量。
107.根据前述权利要求84至106中任何一个所述的方法,其中所述可移动物体是无人机(UAV)。
108.一种用于处理环境的视频数据的设备,所述设备包括一个或多个处理器,所述一个或多个处理器被单独地或整体地配置为:
对立体视频数据进行解码以获得所述环境的视频数据,其中所述立体视频数据是从可移动物体发送的;
处理所述视频数据以获得预定视觉效果;以及
将视频数据发送到终端以进行显示。
109.一种存储指令的非暂时性计算机可读介质,所述指令在被执行时使计算机执行用于处理环境的视频数据的方法,所述方法包括:
对立体视频数据进行解码以获得所述环境的视频数据,其中所述立体视频数据是从可移动物体发送的;
处理所述视频数据以获得预定视觉效果;以及
将视频数据发送到终端以进行显示。

说明书全文

用于视频处理和显示的系统和方法

背景技术

[0001] 包括第一人称视(FPV)图像或视频的用户界面可以提供交互式和沉浸式的用户体验。例如,经由FPV操作无人机的用户可以获得类似于在空中驾驶载运工具的体验。在一些情况下,可以在能够显示双目立体视频的显示装置上呈现FPV图像或视频。目前已知的FPV显示系统的性能可能受诸如带宽传输、视频编码/解码处理、视频平滑、立体显示等各种因素的影响。在一些情况下,FPV图像或视频中的抖动(例如,由相机的移动或振动而引起的)可能通过引起用户观看不适而不利地影响用户体验。缺乏平滑的FPV体验可能会降低飞行器在某些应用中的实用性。发明内容
[0002] 需要系统和方法,这些系统和方法产生平滑的FPV用户体验、直观且易于使用,并允许用户通过与人机界面的交互来管理和操作可移动物体。本发明解决了这个需要,还提供了相关优点。
[0003] 在本发明的一个方面中,提供了一种用于感测环境的方法,可移动物体被配置为在该环境中进行操作。所述方法可以包括:借助于可移动物体上的一个或多个处理器单独地或共同地:处理所述环境的视频数据以获得预定视觉效果,其中使用一个或多个成像装置来采集所述视频数据;对视频数据进行编码以产生立体视频数据;以及将立体视频数据发送到远离可移动物体的终端。预定视觉效果可以包括平滑地呈现具有减少的抖动的视频数据。预定视觉效果可以改善视频回放的感知质量
[0004] 在本发明的另一方面中,提供了一种用于感测环境的系统,可移动物体被配置为在该环境中进行操作。所述系统可以包括:一个或多个成像装置,被配置为采集环境的视频数据;以及可移动物体上的一个或多个处理器,单独或共同地被配置为:(1)处理视频数据以获得预定视觉效果,(2)对视频数据进行编码以产生立体视频数据,以及(3)将立体视频数据发送到远离可移动物体的终端。预定视觉效果可以包括平滑地呈现具有减少的抖动的视频数据。预定视觉效果可以改善视频回放的感知质量。
[0005] 根据本发明的另一方面,提供了一种非暂时性计算机可读介质。计算机可读介质可以存储指令,所述指令在被执行时使得计算机执行用于感测环境的方法,可移动物体被配置为在该环境中进行操作。所述方法可以包括:处理所述环境的视频数据以获得预定视觉效果,其中使用一个或多个成像装置来采集所述视频数据;对视频数据进行编码以产生立体视频数据;以及将立体视频数据发送到远离可移动物体的终端。预定视觉效果可以包括平滑地呈现具有减少的抖动的视频数据。预定视觉效果可以改善视频回放的感知质量。
[0006] 在本发明的另一方面中,提供了一种处理环境的视频数据的方法。所述方法可以包括:借助于一个或多个处理器单独地或共同地:对立体视频数据进行解码以获得所述环境的视频数据,其中所述立体视频数据是从可移动物体发送的;处理所述视频数据以获得预定视觉效果;以及将视频数据发送到终端以进行显示。预定视觉效果可以包括平滑地呈现具有减少的抖动的视频数据。预定视觉效果可以改善视频回放的感知质量。
[0007] 在本发明的另一方面提供了一种用于处理环境的视频数据的设备。所述设备可以包括一个或多个处理器,单独或共同地被配置为:对立体视频数据进行解码以获得所述环境的视频数据,其中所述立体视频数据是从可移动物体发送的;处理所述视频数据以获得预定视觉效果;以及将视频数据发送到终端以进行显示。预定视觉效果可以包括平滑地呈现具有减少的抖动的视频数据。预定视觉效果可以改善视频回放的感知质量。
[0008] 在本发明的另一方面中,提供了一种非暂时性计算机可读介质。计算机可读介质可以存储指令,所述指令在被执行时使得计算机执行用于处理环境的视频数据的方法。所述方法可以包括:对立体视频数据进行解码以获得所述环境的视频数据,其中所述立体视频数据是从可移动物体发送的;处理所述视频数据以获得预定视觉效果;以及将视频数据发送到终端以进行显示。预定视觉效果可以包括平滑地呈现具有减少的抖动的视频数据。预定视觉效果可以改善视频回放的感知质量。
[0009] 在本发明的一个方面中,提供了一种用于感测环境的方法,无人机(UAV)被配置为在该环境中进行操作。所述方法可以包括:从UAV上的一个或多个成像装置获得所述环境的原始视频数据。所述方法还可以包括:借助于UAV上的一个或多个处理器单独地或共同地对原始视频数据进行编码以产生立体视频数据。所述方法还可以包括将立体视频数据发送到远离该UAV的装置。该装置可以被配置为基于立体视频数据来显示环境的第一人称视角(FPV)。
[0010] 在本发明的另一方面中,提供了一种用于感测环境的系统,无人机(UAV)被配置为在该环境中进行操作。所述系统可以包括UAV上的一个或多个处理器,所述处理器单独地或共同地配置为对环境的原始视频数据进行编码以产生立体视频数据。可以从UAV上的一个或多个成像装置获得原始视频数据。所述系统还可以包括在UAV上的一个或多个通信单元,所述通信单元单独地或共同地被配置为将立体视频数据发送到远离UAV的装置。该装置可以被配置为基于立体视频数据来显示环境的第一人称视角(FPV)。
[0011] 在本发明的另一方面中,提供一种存储指令的非暂时性计算机可读介质,所述指令在被执行时使得计算机执行用于感测环境的方法,无人机(UAV)被配置为在该环境中进行操作。所述由计算机执行的方法可以包括:从UAV上的一个或多个成像装置获得所述环境的原始视频数据。所述方法还可以包括:单独地或共同地在UAV上的一个或多个处理器的帮助下,对原始视频数据进行编码以产生立体视频数据。所述方法还可以包括将立体视频数据发送到远离该UAV的装置。该装置可以被配置为基于立体视频数据来显示环境的第一人称视角(FPV)。
[0012] 在一些实施例中,UAV上的一个或多个处理器可以包括用于对原始视频数据进行编码的视频编解码处理器。可以使用多目联合编码对原始视频数据进行编码。多目联合编码可以包括基于一个或多个成像装置的位置信息的间预测。多目联合编码可以包括:在由一个或多个成像装置在同一时刻捕获的多个图像视图之间应用帧间预测。多目联合编码可以包括:将多视图视频编码(MVC)格式应用于原始视频数据。应用MVC格式可以包括(1)使由一个或多个成像装置获得的原始视频数据相关,以及(2)减少原始视频数据中的信息冗余。在一些情况下,多目联合编码可以包括:对原始视频数据应用高效视频编码(HEVC)格式。当由一个或多个成像装置捕获原始视频数据时,可以由一个或多个处理器大致实时地或接近实时地对所述原始视频数据进行编码。可以使用UAV上的一个或多个通信单元将立体视频数据传送到装置。立体视频数据可以包括高分辨率立体视频数据。在一些情况下,立体视频数据可以包括超高分辨率立体视频数据。立体视频数据可以通过地面站传送到装置。地面站可以被配置为对立体视频数据进行解码并将解码后的立体视频数据发送到装置。所述装置可以被配置为使用解码后的立体视频数据来显示环境的FPV。所述装置可以包括头戴式显示器(HMD)。备选地,所述装置可以包括支持虚拟现实(VR)或增强现实(AR)的眼镜。另外,所述装置可以包括安装在可折叠头盔上的移动装置。移动装置可以具有被配置为显示FPV的图形显示器。所述装置可以允许用户从第一人称视角(FPV)控制和导航UAV。装置的移动可以转化为成像装置和/或UAV的相应移动。
[0013] 在一些实施例中,成像装置可以是可操作地连接到UAV的多目摄像机。多目摄像机可以是以UAV的前视方向安装的双目摄像机。多个成像装置可以可操作地连接到UAV的不同侧。多个成像装置可以被配置为捕获UAV周围的环境的原始视频数据。一个或多个成像装置可以经由包括多轴台的载体可操作地连接到UAV。一个或多个成像装置可以经由多轴云台可旋转地连接到UAV。
[0014] 根据本发明的另一方面,提供了一种用于处理环境的视频数据的方法。所述方法可以包括:借助于一个或多个处理器单独地或共同地:基于位于可移动物体上的成像装置的一个或多个先前经过的位置,大致实时地或接近实时地获得成像装置的参考位置。可以使用可移动物体上的至少一个传感器来获得一个或多个先前经过的位置。所述方法还可以包括:基于(1)成像装置的参考位置和(2)成像装置拍摄图像帧的实际位置,修改视频数据中的图像帧。
[0015] 根据本发明的另一方面,可以提供一种用于处理环境的视频数据的设备。所述设备可以包括一个或多个处理器,单独或共同地被配置为:基于位于可移动物体上的成像装置的一个或多个先前经过的位置,大致实时地或接近实时地获得成像装置的参考位置,其中使用可移动物体上的至少一个传感器来获得一个或多个先前经过的位置;以及基于(1)成像装置的参考位置和(2)成像装置拍摄图像帧的实际位置,修改视频数据中的图像帧。
[0016] 本发明的其他方面可以针对一种存储指令的非暂时性计算机可读介质,所述指令在被执行时使计算机执行处理环境的视频数据的方法。由计算机执行的方法可以包括:基于位于可移动物体上的成像装置的一个或多个先前经过的位置,大致实时地或接近实时地获得成像装置的参考位置,其中使用可移动物体上的至少一个传感器来获得一个或多个先前经过的位置;以及基于(1)成像装置的参考位置和(2)成像装置拍摄图像帧的实际位置,修改视频数据中的图像帧。
[0017] 在一些实施例中,可以基于成像装置的一个或多个先前经过的位置,来外推或预测成像装置的参考位置。成像装置的参考位置可以被配置为补偿成像装置中的突然的或大的移动。突然的或大的移动可以是由可移动物体的运动、成像装置所连接到的载体的运动或来自环境的外部干扰引起的。至少一个传感器可以位于可操作地连接到成像装置的惯性测量单元(IMU)中。所述至少一个传感器可以包括加速度计、陀螺仪、罗盘和/或全球定位系统(GPS)接收器。所述至少一个传感器可以被配置为获得成像装置的位置信息、姿态信息和/或运动信息。可以通过借助可移动物体上的一个或多个处理器单独地或共同地对由成像装置捕获的原始视频数据进行编码来获得视频数据。可以使用变换矩阵来修改视频数据中的图像帧。可以基于该图像帧和先前图像帧之间的运动特性的改变,来计算变换矩阵。运动特性的改变可以包括该图像帧相对于先前图像帧的旋转或平移。可以基于成像装置的实际位置和先前经过的位置来确定运动特性的改变。可以使用可移动物体上的至少一个传感器来获得运动特性的改变。
[0018] 在一些实施例中,所述方法还可以包括获得成像装置的多个参考位置,并基于多个参考位置来生成成像装置的虚拟运动路径。当成像装置或可移动物体中的至少一个处于运动中时,可以在不同的时间点获得多个参考位置。在一些情况下,生成虚拟运动路径可以包括:滤除不与参考位置交叠的一个或多个先前经过的位置。当成像装置或可移动物体中的至少一个处于运动中时,可以大致实时地或接近实时地生成虚拟运动路径。
[0019] 所述方法还可以包括将视频数据映射到虚拟运动路径,以获得预定视觉效果。视频数据可以包括已经基于成像装置的多个参考位置而被修改的多个图像帧。所述映射可以包括将多个修改后的图像帧在时间上拼接在一起,以产生立体视频数据。可以使用变换矩阵来映射立体视频数据,以产生连续的图像帧。
[0020] 可以基于立体视频数据,将环境的第一人称视角(FPV)显示在远离可移动物体的装置上。可移动物体可以是无人机。所述装置可以包括头戴式显示器(HMD)。备选地,所述装置可以包括支持虚拟现实(VR)或增强现实(AR)的眼镜。附加地,所述装置可以包括安装在可折叠头盔上的移动装置,所述移动装置具有被配置为显示FPV的图形显示器。所述装置可以允许用户从第一人称视角(FPV)控制和导航可移动物体。装置的移动可以转化为成像装置和/或可移动物体的相应移动。
[0021] 成像装置可以是可操作地连接到可移动物体的多目摄像机。多目摄像机可以是以可移动物体的前视方向安装的双目摄像机。在一些实施例中,多个成像装置可以可操作地连接到可移动物体的不同侧。多个成像装置可以被配置为捕获可移动物体周围的环境的原始视频数据。成像装置可以经由包括多轴云台的载体可操作地连接到可移动物体。成像装置可以经由多轴云台可旋转地连接到可移动物体。
[0022] 根据本发明的另一方面,提供了一种用于平滑环境的视频数据的方法。所述方法可以包括:借助于一个或多个处理器单独地或共同地:基于成像装置的位置信息生成成像装置的虚拟运动路径,其中所述成像装置位于可移动物体上,且所述位置信息是使用所述可移动物体上的一个或多个传感器获得的;以及将视频数据映射到虚拟运动路径以获得预定视觉效果,其中所述视频数据包括基于成像装置的多个参考位置而修改的多个图像帧。根据本发明的另一方面,可以提供一种用于平滑环境的视频数据的设备。所述设备可以包括一个或多个处理器,单独或共同地被配置为:基于成像装置的位置信息生成成像装置的虚拟运动路径,其中所述成像装置位于可移动物体上,且所述位置信息是使用所述可移动物体上的一个或多个传感器获得的;以及将视频数据映射到虚拟运动路径以获得预定视觉效果,其中所述视频数据包括基于成像装置的多个参考位置而修改的多个图像帧。
[0023] 本发明的另一方面可以针对一种存储指令的非暂时性计算机可读介质,所述指令在被执行时使计算机执行用于平滑环境的视频数据的方法。所述方法可以包括:基于成像装置的位置信息生成成像装置的虚拟运动路径,其中所述成像装置位于可移动物体上,且所述位置信息是使用所述可移动物体上的一个或多个传感器获得的;以及将视频数据映射到虚拟运动路径以获得预定视觉效果,其中所述视频数据包括基于成像装置的多个参考位置而修改的多个图像帧。
[0024] 所述成像装置的位置信息可以包括姿态信息,其包含成像装置相对于参考系的俯仰角、偏航角和/或横滚角。所述成像装置的位置信息还可以包括位置信息,其包含成像装置的纬度坐标、经度坐标、仰角、高度和/或位移。所述成像装置的位置信息还可以包括运动信息,其包含成像装置的线速度、线加速度、角速度和/或角加速度。所述一个或多个传感器可以包括加速度计、陀螺仪、罗盘和/或全球定位系统(GPS)接收器。所述一个或多个传感器可以位于可操作地连接到成像装置并被配置为测量成像装置的位置信息的惯性测量单元(IMU)中。生成虚拟运动路径可以包括将滤波器应用于成像装置的位置信息。滤波器可以包括低阶滤波器和/或高阶滤波器。虚拟运动路径可以被表示为多项式时基函数。当成像装置和/或可移动物体处于运动中时,可以大致实时地或接近实时地生成虚拟运动路径。
[0025] 应当理解,可以单独地,共同地或彼此组合地理解本发明的不同方面。本文描述的本发明的各个方面可以应用于下面列出的任何特定应用或任何其它类型的可移动物体。本文对飞行器的任何描述可以适用于任何可移动物体并用于任何可移动物体,诸如,任何载运工具。附加地,本文在空中运动(例如,飞行)的背景下公开的系统、装置和方法也可以应用于其他类型的运动的背景下,诸如,在地面或上的运动、水下运动或太空中的运动。
[0026] 通过阅读说明书权利要求书和附图,本发明的其它目的和特征将变得显而易见。
[0027] 参考引用
[0028] 在与每单个出版物、专利或专利申请被具体和单独地指明通过引用并入本文相同的程度上,将本说明书中提及的所有出版物、专利和专利申请通过引用并入本文。

附图说明

[0029] 本发明的新颖特征在所附权利要求中具体阐述。通过参考下面的详细描述及其附图,将更好地理解本发明的特征和优点,所述详细描述中阐述了利用本发明的原理的说明性实施例,所述附图中:
[0030] 图1示出了根据一些实施例的用于显示环境的第一人称视角(FPV)的系统。
[0031] 图2示出了根据一些其他实施例的用于显示环境的FPV的系统。
[0032] 图3示出了根据实施例的用于处理图像和/或视频数据以产生立体视频数据的组件的示例的框图
[0033] 图4示出了根据一些实施例的图3中的系统的输入和输出。
[0034] 图5示出了根据一些实施例的对图像的多视图视频编码(MVC)。
[0035] 图6示出了根据一些实施例的对成像装置的虚拟运动路径的映射以获得预定视觉效果。
[0036] 图7示出了根据一些实施例的包括用于在视频编码之前处理视频数据的视频平滑单元(在可移动物体上)的框图。
[0037] 图8示出了根据实施例的包括用于在视频解码之后处理视频数据的视频平滑单元(远离可移动物体)的框图。
[0038] 图9是根据一些实施例的用于控制可移动物体的系统的示意框图。

具体实施方式

[0039] 本文公开的系统、方法和设备可以改善在诸如无人机(UAV)的可移动物体的操作期间的用户体验。如本文所述的显示装置可以被配置为基于从可移动物体(例如,UAV)发送到显示装置的立体视频数据来显示环境的FPV。可以通过使用在可移动物体上或在可移动物体外的一个或多个处理器对环境的原始视频数据进行编码,来生成立体视频数据。可以从可移动物体上的一个或多个成像装置获得环境的原始视频数据。原始视频数据可以包括由一个或多个成像装置从多个不同视角捕获的图像和/或视频。
[0040] 显示装置可以包括可穿戴装置。例如,显示装置可以被配置为由用户佩戴。在一些情况下,显示装置可以是一副眼镜、护目镜或头戴式显示器。显示装置可以包括结合增强现实(AR)或虚拟现实(VR)技术的任何类型的可穿戴计算机或装置。AR和VR涉及计算机生成的图形界面,为用户提供体验内容的新途径。在增强现实(AR)中,计算机生成的图形界面可以叠加在显示装置上的真实世界视频或图像上。在虚拟现实(VR)中,用户可以沉浸在显示装置上呈现的计算机生成的环境中。本文提供的显示装置可以被配置为在AR设置或VR设置下显示来自可移动物体的真实世界环境的FPV。
[0041] 应当理解,可以单独地、共同地或彼此组合地理解本发明的不同方面。本文描述的本发明的各个方面可以应用于下面列出的任何特定应用或任何其它类型的遥控载具或可移动对象。
[0042] 图1示出了根据一些实施例的用于显示环境的第一人称视角(FPV)的系统。FPV可视导航系统100可以包括可移动物体102和能够与可移动物体进行通信的用户终端114。用户终端可以包括显示装置。在一些实施例中,显示装置可以包括头戴式显示器(HMD)或支持虚拟现实(VR)或增强现实(AR)的眼镜。在一些情况下,显示装置可以包括安装在可折叠头盔上的移动装置。移动装置可以包括被配置为显示环境的FPV的图形显示器。
[0043] 显示装置可以被配置为接收从可移动物体发送的立体视频数据,并基于所述立体视频数据显示环境的FPV 116。用户终端可以用于控制可移动物体和/或由可移动物体支撑的负载的一个或多个运动特性。例如,用户可以使用用户终端来基于环境的FPV在视觉上导航和控制可移动物体和/或移动物体上的一个或多个成像装置的操作(例如,移动)。在一些情况下,显示装置可以是戴在用户头上的一副眼镜或头戴式显示器。在那些情况下,显示装置的用户的头部移动和/或眼睛移动可以实现成像装置和/或可移动物体的相应移动。
[0044] 可移动物体可以是能够穿过环境的任何物体。可移动物体可以能够穿过空气、水、陆地和/或空间。环境可以包括不能运动的物体(静止物体)和能够运动的物体。静止物体的示例可以包括地理特征、植物、地标、建筑物单体结构或任何固定结构。能够运动的物体的示例包括人、载运工具、动物、抛射物等。
[0045] 在某些情况下,环境可以是惯性参考系。惯性参考系可以用来均匀地、各向同性地且以时间独立的方式描述时间和空间。惯性参考系可以是相对于可移动物体建立的,并根据可移动物体移动。可以通过变换(例如,顿物理学中的伽利略变换)将惯性参考系中的测量结果转换成另一参考系(例如,球面参考系)中的测量结果。
[0046] 可移动物体可以是载运工具。载运工具可以是自推进载运工具。载运工具可以借助一个或多个推进单元经过环境。载运工具可以是飞行器、基于陆地的载运工具、基于水的载运工具或基于空间的载运工具。载运工具可以是无人驾驶的载运工具。载运工具可以能够在没有乘客的情况下经过环境。备选地,载运工具可以携带乘客。在一些实施例中,可移动物体可以是无人机(UAV)。本文对UAV或任何其他类型的可移动物体的任何描述通常可以应用于任何其他类型的可移动物体或各种可移动物体,或反之亦然。例如,这里对UAV的任何描述都可以应用于任何无人陆地的、基于水的或基于空间的载运工具。本文其他地方更详细地提供可移动物体的其它示例。
[0047] 如上所述,可移动物体可以能够经过环境。可移动物体可以能够在三维空间内飞行。可移动物体可以能够沿着一个、两个或三个轴线进行空间平移。所述一个、两个或三个轴线可以彼此正交。所述轴线可以沿着俯仰轴、偏航轴和/或横滚轴。可移动物体可以能够围绕一个、两个或三个轴线旋转。所述一个、两个或三个轴线可以彼此正交。所述轴线可以是俯仰轴、偏航轴和/或横滚轴。可移动物体可以能够沿着多达6个自由度移动。可移动物体可以包括可以帮助可移动物体运动的一个或多个推进单元。例如,可移动物体可以是具有一个、两个或更多个推进单元的UAV。推进单元可以被配置为针对UAV产生升。推进单元可以包括旋翼。可移动物体可以是多转子UAV。
[0048] 可移动物体可以具有任何物理配置。例如,可移动物体可以具有中心体,所述中心体具有从中心体延伸的一个或多个臂或分支。臂可以从中心体横向地或径向地延伸。臂可以相对于中心体是可移动的,或可以相对于中心体是固定的。这些臂可以支撑一个或多个推进单元。例如,每个臂可以支撑一个、两个或更多个推进单元。
[0049] 可移动物体可以具有壳体。壳体可以由单个一体件、两个一体件或多个组件形成。壳体可以包括在其中放置一个或多个组件的腔体。这些组件可以是电子组件,诸如,飞行控制器、一个或多个处理器、一个或多个存储器存储单元、一个或多个传感器(例如,一个或多个惯性传感器或本文其他地方描述的任何其他类型的传感器)、一个或多个导航单元(例如,全球定位系统(GPS)单元)、一个或多个通信单元或任何其他类型组件。壳体可以具有单个腔或多个腔。在一些情况下,飞行控制器可以与一个或多个推进单元进行通信和/或可以控制一个或多个推进单元的操作。飞行控制器可以借助一个或多个电子速度控制(ESC)模来通信和/或控制一个或多个推进单元的操作。飞行控制器可以与ESC模块进行通信以控制推进单元的操作。
[0050] 可移动物体可以被配置为支撑机载的负载106。负载可以相对于可移动物体具有固定位置,或可以相对于可移动物体是可移动的。负载可以相对于可移动物体空间平移。例如,负载可以相对于可移动物体沿着一个、两个或三个轴线移动。负载可以相对于可移动物体旋转。例如,负载可以相对于可移动物体围绕一个、两个或三个轴线旋转。所述轴线可以是彼此正交的。所述轴线可以是俯仰轴、偏航轴和/或横滚轴。备选地,负载可以被固定或集成到可移动物体中。
[0051] 负载可以借助于载体104相对于可移动物体移动。载体可以包括一个或多个云台级,其可以允许载体相对于可移动物体移动。例如,载体可以包括:第一云台级,其可以允许载体相对于可移动物体围绕第一轴线旋转;第二云台级,其可以允许载体相对于可移动物体围绕第二轴线旋转;以及/或第三云台级,其可以允许载体相对于可移动物体围绕第三轴线旋转。如本文其他地方所述的载体的任何描述和/或特征可以适用。
[0052] 负载可以包括能够感测关于可移动物体的环境的装置、能够向环境发射信号的装置和/或能够与环境交互的装置。一个或多个传感器可以被设置为负载,并且可以能够感测环境。所述一个或多个传感器可以包括成像装置。成像装置可以是物理成像装置。成像装置可以被配置为检测电磁辐射(例如,可见光、红外线和/或紫外光)并基于检测到的电磁辐射生成图像数据。成像装置可以包括响应于光的波长而产生电信号的电荷耦合器件(CCD)传感器或互补金属化物半导体(CMOS)传感器。可以对所得到的电信号进行处理以产生图像数据。由成像装置产生的图像数据可以包括一个或多个图像,其中所述图像可以是静态图像(例如,照片)、动态图像(例如,视频)或其适当组合。图像数据可以是多色的(例如,RGB、CMYK、HSV)或单色的(例如,灰度、黑白、棕褐色)。成像装置可以包括被配置成将光引导到图像传感器上的镜头。
[0053] 成像装置可以是相机。相机可以是捕获动态图像数据(例如,视频)的电影或视频相机。相机可以是捕获静态图像(例如照片)的静态相机。相机可以捕获动态图像数据和静态图像二者。相机可以在捕获动态图像数据和静态图像之间切换。尽管在相机的背景下描述了本文提供的一些示例性实施例,但是应当理解,本公开可以应用于任何适合的成像装置,并且本文中关于相机的任何描述也可以应用于任何合适的成像装置,且这里涉及相机的任何描述也可以应用于其它类型的成像装置。可以使用相机来生成3D场景(例如,环境、一个或多个物体等)的2D图像。相机生成的图像可以呈现3D场景在2D图像平面上的投影。因此,2D图像中的每个点与场景中的3D空间坐标相对应。相机可以包括光学元件(例如,镜头、反射镜、滤光片等)。相机可以捕获彩色图像、灰度图像、红外图像等。当相机被配置为捕获红外图像时,相机可以是热成像装置。
[0054] 在一些实施例中,负载可以包括多个成像装置,或具有多个镜头和/或图像传感器的成像装置。负载可以能够大致同时地、顺序地或在不同时间点拍摄多个图像。多个图像可以帮助创建3D场景、3D虚拟环境、3D地图或3D模型。例如,可以拍摄右眼图像和左眼图像并将其用于立体映射。可以根据校准后的双目图像计算深度图。可以同时拍摄任意数量个图像(例如,2个或更多个、3个或更多个、4个或更多个、5个或更多个、6个或更多个、7个或更多个、8个或更多个、9个或更多个),以帮助创建3D场景/虚拟环境/模型,和/或用于深度映射。图像可以指向基本相同的方向或可以指向略有不同的方向。在一些情况下,来自其他传感器的数据(例如,声波数据、LIDAR数据、来自如本文其他地方所述的任何其它传感器的数据或来自外部装置的数据)可以帮助创建2D或3D图像或地图。
[0055] 在图1中,负载可以包括成像装置。在一些实施例中,成像装置可以包括第一成像装置108-1和第二成像装置108-2。可以设想任何数量的成像装置,例如,1至n个成像装置,其中n是整数。在一些实施例中,第一和第二成像装置可以是多目摄像机的一部分。多目摄像机可以安装在可移动物体的前视方向上。备选地,可以将多目摄像机安装在可移动物体的任何方向上(例如,后视、侧视、顶视或底视)。多目摄像机可以通过载体104可操作地连接到可移动物体。载体可以包括多轴云台。多目摄像机可以经由多轴云台可旋转地连接到可移动物体。在一些情况下,多目摄像机可以是双目摄像机。
[0056] 第一成像装置和第二成像装置可以相对于彼此设置在不同的位置处,使得第一成像装置和第二成像装置具有不同的光轴。例如,第一成像装置可以具有第一光轴107-1,且第二成像装置可以具有第二光轴107-2。第一成像装置和第二成像装置可以属于相同的惯性参考系。可选地,第一成像装置和第二成像装置可以属于彼此独立移动的不同的惯性参考系(未示出)。
[0057] 第一成像装置可以被配置为捕获第一图像110-1,且第二成像装置可以被配置为捕获第二图像110-2。在一些情况下,第一图像和第二图像可以分别对应于左眼图像和右眼图像。左眼图像和右眼图像可以共同形成双目图像。左眼图像和右眼图像可以包括环境中的物体112的图像。由于第一成像装置和第二成像装置位于不同位置(具有不同的光轴),所以由于双目视觉的原因,捕获图像中的物体的位置可能略有不同。
[0058] 惯性测量单元(IMU)105可以设置在负载上,例如,在第一和/或第二成像装置上。备选地,IMU可以布置在将负载连接到可移动物体的载体上。IMU可以被配置为获得第一成像装置和第二成像装置的实时位置信息。由于IMU安装在负载上,所以来自IMU的实时位置信息可以指示第一和第二成像装置的实际位置。
[0059] 在一些实施例中,多目摄像机可以位于可移动物体的主体中,而不是由可操作地连接到可移动物体的载体支撑。除了多目摄像机之外,还可以包括另一相机。例如,如图2所示,第一成像装置206可以是由可移动物体202承载的负载,且第二成像装置208可以是位于可移动物体的本体上或其内部。在图2中,第一成像装置可以是相机,且第二成像装置可以是双目视觉传感器。双目视觉传感器可以包括第一视觉传感器208-1和第二视觉传感器208-2。第一IMU可以设置在负载上,例如,在第一成像装置本身上,或在将负载连接到可移动物体的载体上。第二IMU可以位于可移动物体的主体内。在图2的示例中,可以在用户终端
214上以FPV 216呈现由第一成像装置捕获的图像,且可以将由第二成像装置捕获的双目图像用于生成环境的深度图信息。可以部分地使用由第一视觉传感器和第二视觉传感器分别捕获的左眼图像210-1和右眼图像210-2,来获得深度图信息。左眼图像和右眼图像可以共同形成双目图像。左眼图像和右眼图像可以包括环境中的物体212的图像。
[0060] 在图2中,第一成像装置206和第二成像装置208可以相对于彼此设置在不同的位置处,使得第一成像装置和第二成像装置具有不同的光轴。例如,第一成像装置206可以具有第一光轴207-1,且第二成像装置208可以具有多个光轴207-2和207-3。光轴207-1、207-2和207-3可以沿着相同的方向或不同的方向延伸。
[0061] 第一成像装置206和第二成像装置208可以属于彼此独立移动的不同的惯性参考系。例如,第一成像装置206可以属于相对于将第一成像装置连接到可移动物体202的主体的载体204定义的第一惯性参考系。第二成像装置208可以属于相对于可移动物体202的主体定义的第二惯性参考系。载体204可以围绕一个或多个轴线旋转,使得第一惯性参考系和第二惯性参考系可以彼此独立地移动。
[0062] 成像装置可以以特定图像分辨率来捕获图像或图像序列。在一些实施例中,图像分辨率可以由图像中的像素的数量来定义。在一些实施例中,图像分辨率可以大于或等于约352×420像素、480×320像素、720×480像素、1280×720像素、1440×1080像素、1920×1080像素、2048×1080像素、3840×2160像素、4096×2160像素、7680×4320像素或15360×
8640像素。在一些实施例中,成像装置可以是4K相机或具有更高分辨率的相机。
[0063] 成像装置可以以特定捕获速率来捕获图像序列。在一些实施例中,可以以诸如约24p、25p、30p、48p、50p、60p、72p、90p、100p、120p、300p、50i或60i的标准视频帧速率来捕获图像序列。在一些实施例中,可以以小于或等于约每0.0001秒、0.0002秒、0.0005秒、0.001秒、0.002秒、0.005秒、0.01秒、0.02秒、0.05秒、0.1秒、0.2秒、0.5秒、1秒、2秒、5秒或10秒一个图像的速率来捕获图像序列。在一些实施例中,捕获速率可以根据用户输入和/或外部条件(例如,雨、、环境的不明显表面纹理)而改变。
[0064] 成像装置可以具有可调参数。在不同的参数下,成像装置可以在受到相同外部条件(例如,位置、照明)时捕获不同的图像。可调参数可以包括曝光(例如,曝光时间、速度、光圈、胶片速度)、增益、伽玛、感兴趣区域、合并/子采样像素时钟、偏移、触发、ISO等。与曝光相关的参数可以控制到达成像装置中的图像传感器的光量。例如,快门速度可以控制光到达图像传感器的时间量,且光圈可以控制在给定时间内到达图像传感器的光量。与增益相关的参数可以控制对来自光学传感器的信号的放大。ISO可以控制相机对可用光线的敏感度。控制曝光和增益的参数可以被统一考虑并在本文中被称为EXPO。
[0065] 在一些备选实施例中,成像装置可以延伸超出物理成像装置。例如,成像装置可以包括能够捕获和/或产生图像或视频帧的任何技术。在一些实施例中,成像装置可以指的是能够处理从另一物理装置获得的图像的算法
[0066] 负载可以包括一种或多种类型的传感器。传感器类型的一些示例可以包括:位置传感器(例如,全球定位系统(GPS)传感器、支持位置三角测量的移动装置发射器)、视觉传感器(例如,能够检测可见光、红外或紫外光的成像装置,诸如相机)、接近或距离传感器(例如,超声波传感器、激光雷达、飞行时间或深度相机)、惯性传感器(例如,加速计、陀螺仪和/或重力检测传感器,其可以形成惯性测量单元(IMU))、高度传感器、姿态传感器(例如,罗盘)、压力传感器(例如,气压计)、温度传感器、湿度传感器、振动传感器、音频传感器(例如,麦克风)和/或场传感器(例如,磁力计、电磁传感器、无线电传感器)。
[0067] 负载可以包括能够将信号发射到环境中的一个或多个装置。例如,负载可以包括沿着电磁频谱的发射器(例如,可见光发射器、紫外发射器、红外发射器)。负载可以包括激光器或任何其他类型的电磁发射器。负载可以发射一个或多个振动,诸如,超声波信号。负载可以发出可听见的声音(例如,来自扬声器)。负载可以发射无线信号,例如,无线电信号或其他类型的信号。
[0068] 负载可以与环境交互。例如,负载可以包括机器人手臂。负载可以包括用于输送的物品,诸如液体、气体和/或固体成分。例如,负载可以包括农药、水、肥料、防火材料、食品、包装或任何其它物品。
[0069] 本文中负载的任何示例可以应用于可以由可移动物体携带或可以是可移动物体的一部分的装置。例如,一个或多个传感器可以是可移动物体的一部分。除了负载之外,还可以提供或可以提供一个或多个传感器。这可以适用于任何类型的负载,例如,在此描述的负载。
[0070] 可移动物体可以与用户终端进行通信。用户终端可以与可移动物体本身、可移动物体的负载和/或可移动物体的载体进行通信,由此使用载体来支撑负载。本文中关于与可移动物体的通信的任何描述也可以应用于与可移动物体的负载、可移动物体的载体和/或可移动物体的一个或多个单独组件(例如,通信单元、导航单元、推进单元、电源、处理器、存储器存储单元和/或致动器)进行通信。
[0071] 可移动物体和用户终端之间的通信可以是无线通信。可以在可移动物体和用户终端之间提供直接通信。可以发生直接通信,而无需任何中间装置或网络。可以在可移动物体和用户终端之间提供间接通信。间接通信可以借助于一个或多个中间装置或网络来进行。例如,间接通信可以利用电信网络。可以借助于一个或多个路由器、通信塔、卫星或任何其他中间装置或网络来执行间接通信。通信类型的示例可以包括但不限于:经由互联网的通信、局域网(LAN)、广域网(WAN)、蓝牙、近场通信(NFC)技术、基于移动数据协议(诸如通用分组无线业务(GPRS)、GSM、增强型数据GSM环境(EDGE)、3G、4G或长期演进(LTE)协议)的网络、红外(IR)通信技术和/或Wi-Fi,且可以是无线的、有线的或其组合。
[0072] 用户终端可以是任何类型的外部装置。用户终端的示例可以包括但不限于智能手机/手机、平板电脑个人数字助理(PDA)、膝上型计算机、台式计算机、媒体内容播放器、视频游戏站/系统、虚拟现实系统、增强现实系统、可穿戴装置(例如,手表、眼镜、手套、头饰(诸如,帽子、头盔、虚拟现实机、增强现实耳机、头戴式设备(HMD)、头带)、吊坠、臂章、腿带、子、背心)、手势识别装置、麦克风、能够提供或呈现图像数据的任何电子设备或任何其他类型装置。用户终端可以是手持式物体。用户终端可以是便携式的。用户终端可以由人类用户携带。用户终端可以由人类用户佩戴。在一些情况下,用户终端可以位于远离人类用户的位置,并且用户可以使用无线和/或有线通信来控制用户终端。本文别处更详细地提供用户终端的各种示例和/或特性。
[0073] 用户终端可以包括能够执行非暂时性计算机可读介质的一个或多个处理器,其中所述非暂时性计算机可读介质可以提供用于一个或多个动作的指令。用户终端可以包括一个或多个存储器存储设备,其包括含有用于执行一个或多个动作的代码、逻辑或指令的非暂时性计算机可读介质。用户终端可以包括允许用户终端与可移动物体通信并从可移动物体接收成像数据的软件应用。用户终端可以包括通信单元,其可以允许与可移动物体进行通信。在一些情况下,通信单元可以包括单个通信模块或多个通信模块。在一些情况下,用户终端可以能够使用单个通信链路或多个不同类型的通信链路与可移动物体进行交互。
[0074] 用户终端可以包括显示器(或显示装置)。显示器可以是屏幕。显示器可以是也可以不是触摸屏。显示器可以是发光二极管(LED)屏幕、0LED屏幕、液晶显示器(LCD)屏幕、等离子屏幕或任何其他类型的屏幕。显示器可以被配置为显示图形用户界面(GUI)。GUI可以示出可以允许用户控制UAV的动作的图像。在一些情况下,用户可以从该图像选择目标。目标可以是静止目标或移动目标。在其他情况下,用户可以从该图像选择行进的方向。用户可以选择图像的一部分(例如,点、区域和/或对象)以定义目标和/或方向。用户可以通过改变用户注视点在屏幕上的焦点和/或方向(例如,基于对用户感兴趣的区域的眼睛追踪)来选择目标和/或方向。在一些情况下,用户可以通过以不同的方向和方式移动他或她的头部来选择目标和/或方向。
[0075] 用户可以触摸屏幕的一部分。用户可以通过触摸屏幕上的点来触摸屏幕的一部分。备选地,用户可以从预先存在的一组区域选择屏幕上的区域,或可以绘制区域的边界、区域的直径或以任何其他方式指定屏幕的一部分。用户可以通过借助于用户交互设备(例如,鼠标、操纵杆、键盘轨迹球触摸板、按钮、口头命令、手势识别、姿态传感器、热传感器、触摸电容式传感器或任何其他装置)选择图像的一部分来选择目标和/或方向。触摸屏可以被配置为检测用户的触摸的位置、触摸的长度、触摸的压力和/或触摸运动,由此每个上述的触摸方式可以指示来自用户的特定输入命令。
[0076] 显示器上的图像可以示出借助于可移动物体的负载采集的视图。例如,可以在显示器上示出由成像装置采集的图像。这可以被认为是第一人称视角(FPV)。在一些情况下,可以提供单个成像装置并且可以提供单个FPV。备选地,可以提供具有不同视场的多个成像装置。视图可以在多个FPV之间切换,或可以同时示出多个FPV。多个FPV可以对应于不同的成像装置(或可以不同的成像装置其生成),其可以具有不同的视野。用户可以使用用户终端来选择由成像装置采集的图像的一部分,以指定可移动物体的目标和/或运动方向。
[0077] 在另一示例中,显示器上的图像可以示出可以借助于来自可移动物体的负载的信息而生成的地图。可选地,可以借助于可以利用立体映射技术的多个成像装置(例如,右相机、左相机或更多个相机)来生成地图。在一些情况下,可以基于关于UAV相对于环境、成像装置相对于环境和/或UAV相对于成像装置的位置信息,来生成地图。位置信息可以包括姿势信息、空间位置信息、角速度、线速度、角加速度和/或线性加速度。可选地,可以借助于一个或多个附加传感器来生成地图,如本文其他地方更详细描述的。地图可以是二维地图,或可以是三维地图。视图可以在二维和三维地图视图之间切换,或可以同时显示二维和三维地图视图。用户可以使用用户终端来选择地图的一部分,以指定可移动物体的目标和/或运动方向。视图可以在一个或多个FPV以及一个或多个地图视图之间切换,或可以同时显示一个或多个FPV以及一个或多个地图视图。用户可以使用任何视图来选择目标或方向。用户选择的部分可以包括目标和/或方向。用户可以使用所描述的任何选择技术来选择部分。
[0078] 在一些实施例中,可以在显示于用户终端(例如,虚拟现实系统或增强现实系统)上的3D虚拟环境中提供图像数据。可选地,3D虚拟环境可以对应于3D地图。虚拟环境可以包括可以由用户操纵的多个点或物体。用户可以通过虚拟环境中的各种不同动作来操纵点或物体。这些动作的示例可以包括选择一个或多个点或物体、拖放、平移、旋转、翻转、推、拉、放大、缩小等。可以设想三维虚拟空间中的点或物体的任何类型的移动动作。用户可以使用用户终端来操纵虚拟环境中的点或物体以控制UAV的飞行路径和/或UAV的运动特性。用户也可以使用用户终端来操纵虚拟环境中的点或物体以控制成像装置的运动特性和/不同功能。
[0079] 例如,在一些实施例中,用户可以使用用户终端来实现指向目标飞行。用户可以选择在用户终端上显示的图像上的一个或多个点。该图像可以被提供在用户终端的输出设备上呈现的GUI中。当用户选择一个或多个点时,所述选择可以延伸到与该点相关联的目标。在一些情况下,所述选择可以延伸到目标的一部分。该点可以位于图像中的目标上或其附近。然后,UAV可以飞向该目标和/或追踪该目标。例如,UAV可以飞行到相对于该目标的预定距离、位置和/或方位。在一些情况下,UAV可以通过以预定距离、位置和/或方位跟随目标,来追踪该目标。UAV可以继续向目标移动,追踪目标或以相对目标的预定距离、位置和/或方向悬停,直到在用户终端处接收到新的目标指令。当用户在图像上选择另外不同的一个或多个点时,可以接收新的目标指令。当用户选择不同的一个或多个点时,目标选择可以从原始目标切换到与新目标,其中新目标与所述新的一个或多个点相关联。然后,UAV可以改变其飞行路线并飞向该新目标和/或追踪新目标。
[0080] 在一些实施例中,用户可以使用用户终端来实现指定方向飞行。用户可以选择在用户终端上显示的图像上的点。该图像可以被提供在用户终端的输出设备上呈现的GUI中。当用户选择该点时,所述选择可以延伸到与该点相关联的目标方向。然后,UAV可以沿该方向飞行。UAV可以继续沿该方向移动,直到检测到撤销条件为止。例如,UAV可以沿目标方向飞行,直到用户终端处接收到新的目标方向指令为止。当用户在图像上选择另外不同的点时,可以接收新的目标方向指令。当用户选择不同的点时,目标选择可以从原始方向切换到新目标方向,其中新目标方向与所述新的点相关联。然后,UAV可以改变其飞行路线,并沿新的目标方向飞行。
[0081] 用户终端可以用来控制可移动物体的移动,例如,UAV的飞行。用户终端可以允许用户手动直接控制可移动物体的飞行。备选地,可以提供单独的装置,其可以允许用户手动直接地控制可移动物体的飞行。单独的装置可以与用户终端或不与用户终端进行通信。可选地,可移动物体的飞行可以是完全自主的或半自主的。可选地,用户终端可以用于控制可移动物体的任何组件(例如,负载的操作、载体的操作、一个或多个传感器、通信、导航、降落支架、一个或多个组件的致动、电源控制或其他功能)。备选地,可以使用单独的装置来控制可移动物体的一个或多个组件。单独的装置可以与用户终端或不与用户终端进行通信。可以借助于一个或多个处理器自动控制一个或多个组件。
[0082] 在一些情况下,可以由用户选择可移动物体的行进方向。可移动物体可以沿用户选择的方向行进。该方向可以是通过用户选择图像的一部分(例如,在FPV或地图视图中)来选择的。可移动物体可以沿着所选方向行进,直到接收到撤销指令或实现了撤销条件为止。例如,可移动物体可以自动沿所选方向行进,直到输入新的方向或输入新的目标为止。可移动物体可以沿所选方向行进,直到选择了不同的飞行模式为止。例如,用户可以手动控制可移动物体的飞行。
[0083] 图3示出了根据实施例的用于处理图像和/或视频数据以产生立体视频数据的组件的示例的框图300。立体视频数据可以以FPV显示在用户终端上,例如,如图1和2所示。组件可以包括位于可移动物体上的第一组组件以及布置为远离可移动物体的第二组组件。在一些实施例中,来自第二组组件的一个或多个组件可以位于用户终端上。
[0084] 第一组组件可以包括成像装置302、编码器310和通信单元314。成像装置可以经由载体可操作地连接到可移动物体。可选地,成像装置可以设置在可移动物体的壳体内。在一些备选实施例(未示出)中,成像装置可以被实现为独立装置并且不需要被设置在可移动物体上。惯性测量单元(IMU)(未示出)可以安装在成像装置上,或安装在成像装置所连接到的载体上。可以使用可移动物体上的一个或多个处理器来实现编码器。UAV上的一个或多个处理器可以包括用于对原始图像数据308进行编码的视频编解码处理器。这里使用的原始图像数据可以包括原始视频数据。这里使用的编码器可以包括视频编码器。通信单元314可以位于可移动物体的主体内。通信单元314可以包括一个或多个处理器,该一个或多个处理器被配置为将来自可移动物体的编码视频数据312直接或间接地发送到用户终端。
[0085] 在一些实施例中,成像装置302、编码器310和通信单元314可以安装或共同位于可移动物体上,例如,能够在空中、陆地、水上或水体内行驶的载运工具。载运工具的实例可以包括飞行器(例如,UAV、飞机、旋翼飞机、轻于空气的载具(lighter-than air vehicle))、陆地载运工具(例如,轿车、卡车、公交车、火车、漫游车、地)、水上载运工具(例如,船舶、轮船、潜艇)或基于太空的载运工具(例如,卫星、航天飞机、火箭)。可移动物体可以能够在陆地或地下、在水上或水中、在空中、在空间内或其任何组合上行驶。在一些实施例中,可移动物体可以是移动装置、手机或智能手机、个人数字助理(PDA)、计算机、膝上型计算机、平板PC、媒体内容播放器、视频游戏站/系统、可穿戴装置(诸如虚拟现实耳机或头戴式装置(HMD))或能够基于图像数据捕获、提供或呈现图像数据和/或识别或追踪目标对象的任何电子装置。可移动物体可以是自推进的、可以是静止的或移动的,并且可以随时间改变方位(例如,姿态)。
[0086] 成像装置302可以用作本文其他地方所描述的图像捕获装置。成像装置可以被配置为捕获一个或多个物体的原始图像数据。原始图像数据可以对应于例如多个物体的静止图像或视频帧。这些物体可以包括能够由视觉追踪系统实时地进行光学识别和/或追踪的任何物理物体或结构。光学追踪具有若干优点。例如,光学追踪允许无线“传感器”(不易受噪声影响),并允许同时追踪许多物体(例如,不同类型的物体)。可以以2D或3D格式在静止图像和/或视频帧中描绘物体;物体可以是现实生活的和/或动画的;物体可以是彩色的、黑/白的或灰度的;且物体可以在任何色彩空间中。物体可以是静止的。备选地,物体可以是可移动的,且可以在任何给定时间点是移动的或静止的。
[0087] 成像装置302可以被配置为获得将可移动物体被配置为在其中进行操作的环境的原始图像数据308。如图3所示,成像装置可以将原始图像数据308发送到编码器310,以处理(编码)成编码后的视频数据312。编码器可以是由可移动物体或成像装置的组件承载的独立装置。可选地,编码器可以在UAV的外部。在一些实施例中,原始图像数据和编码后的视频数据可以包括多个彩色图像,且多个像素可以包括彩色像素。在其他实施例中,原始图像数据和编码后的视频数据可以包括多个灰度图像,且多个像素可以包括灰度像素。在一些实施例中,多个灰度图像中的每个像素可以具有归一化的灰度值。
[0088] 编码器可以被配置为压缩原始图像数据308中的数字信号,以试图减小数据的大小而对图像的感知质量没有显著不利影响。数据压缩可以包括图像压缩和/或视频压缩。数据压缩可以包括使用比原始格式更少的比特来编码信息。数据压缩可以是有损的或无损的。无损压缩可以通过识别和消除统计冗余来减少比特数。在无损压缩中不丢失信息。有损压缩可以通过识别某些信息并删除/截断它来减少比特。当可移动物体和用户终端之间的数据传输带宽有限时,这种数据压缩是特别有利的。数据压缩对于节省资源应用(例如,数据存储空间)也是可取的。例如,JPEG图像压缩可以消除不必要的信息比特,以在保存信息和减小尺寸之间取得平衡。MPEG压缩还可以添加帧间编码,以利用运动序列中的连续帧的相似性。
[0089] 压缩质量可以包括通过将范围值压缩为单个量子值而实现的量化参数(QP)值。例如,可以使用QP值来减少图像中使用的颜色的数量。QP值也可以用于减少来自图像数据的高频分量的信息。在一些情况下,较高的QP值可以指示施加于图像数据的较高压缩率,其导致较大的数据损耗,且较低的QP值可以指示施加于图像数据的较低压缩率,其导致较小的数据损耗。在压缩之后,使用较高QP值压缩的图像数据可以具有较低的分辨率、较低的亮度、较低的对比度、较少的细节颜色信息和/或丢失其他图像质量。另一方面,使用较低QP值压缩的图像数据可以具有较高的分辨率、较高的图像亮度、较高的图像对比度、较详细的颜色信息和/或其他增强的图像质量。也可以使用其他合适的压缩方法和算法。
[0090] 在一些实施例中,编码器可以被配置为通过对环境的原始视频数据进行编码来处理原始视频数据,在可移动物体上产生立体视频数据。可以通过将原始视频数据中的多个图像视图融合在一起而生成立体视频数据。在一些实施例中,可以使用多目联合编码对原始视频数据进行编码。多目联合编码可以包括基于成像装置的位置信息的帧间预测。可以从IMU获得成像装置的位置信息。多目联合编码可以包括在成像装置在相同时刻或不同时刻捕获的多个图像视图之间应用帧间预测。在一些实施例中,成像装置302可以包括被配置为捕获多个图像视图的多个成像装置。例如,成像装置302可以包括第一成像装置304,其被配置为捕获多个图像304-1、304-2等。成像装置302还可以包括第二成像装置306,其被配置为捕获多个图像306-1、306-2等。多个图像304-1、304-2、306-1和306-2可以对应于由第一和第二成像装置从不同角度/位置和/或在相同时刻或不同时刻拍摄的多个图像视图。多个图像视图可以以原始图像数据308的形式提供给编码器310。IMU可以被配置为在每次捕获图像的同时获得成像装置302的位置信息(例如,第一和第二成像装置304和306的位置信息)。例如,IMU可以在对应于拍摄图像304-1的时间t1获得第一成像装置304的位置信息。类似地,IMU可以在对应于拍摄图像306-1的时间t1’获得第二成像装置306的位置信息。时间t1和t1’可以是相同或不同的时间点。编码器310可以被配置为使用多目联合编码对原始图像数据308进行编码。如本文所述的多目联合编码可以包括:基于成像装置在拍摄图像的每个时间点的位置信息,对多个图像进行帧间预测。
[0091] 原始图像数据可以包括在不同时刻拍摄的多个图像视图的原始视频数据。在一些实施例中,多目联合编码可以包括:将多视图视频编码(MVC)格式应用于原始视频数据。例如,编码310可以被配置为将MVC格式应用于原始视频数据。应用MVC格式可以包括(1)使成像装置获得的原始视频数据相关,以及(2)减少原始视频数据中的信息冗余。在一些其他实施例中,多目联合编码可以包括:对原始视频数据应用高效视频编码(HEVC)格式。在一些实施例中,当由成像装置捕获原始视频数据时,可以由编码器310中的一个或多个处理器大致实时地或接近实时地对所述原始视频数据进行编码。
[0092] 可移动物体上的通信单元314可以被配置为将编码后的视频数据312(包括其上生成的立体视频数据)发送到远离可移动物体的通信单元316。通信单元316可以位于或不位于用户终端处。用户终端可以位于或不位于地面上。用户终端可以位于远离可移动物体的位置。在一些情况下,通信单元316可以位于与可移动物体和用户终端通信的地面站处。用户终端和可移动物体可以经由通信单元314和316彼此通信。编码后的视频数据312可以经由下行链路从可移动物体发送到用户终端。用户终端可以经由上行链路向可移动物体发送各种控制信号(未示出)。上行链路和下行链路中的每一个可以是无线链路。无线链路可以包括RF(射频)链路、Wi-Fi链路、蓝牙链路、3G链路或LTE链路。无线链路可以用于长距离传输图像数据或控制数据。例如,可以在等于或大于约5m、10m、15m、20m、25m、50m、100m、150m、200m、250m、300m、400m、500m、750m、1000m、1250m、1500m、1750m、2000m、2500m、3000m、
3500m、4000m、4500m、5000m、6000m、7000m、8000m、9000m或10000m的距离上使用无线链路。
在一些情况下,通信单元314可以是成像装置和/或编码器的组件。例如,成像装置和/或编码器可以包括一个或多个收发器。在一些情况下,通信单元316可以是显示装置和/或解码器的组件。
[0093] 可移动物体和用户终端(在第一通信单元314和第二通信单元316之间)之间的通信带宽的范围可以是约10Kbps到约1M bps。根据当前或可用的通信带宽,可以使用不同的图像数据压缩策略。例如,当通信带宽足够快以支持实时图像传输时,整个图像可以被均匀地压缩。然而,当通信带宽下降到一定水平时,可以切换到不同的图像压缩策略,其中以不同的比率选择性地压缩不同的图像。在一些实施例中,编码后的视频数据312可以包括高分辨率立体视频数据。在其它实施例中,经处理的视频数据312可以包括超高分辨率立体视频数据。
[0094] 通信单元316转而可以将编码后的视频数据312发送到解码器318。解码器可以是视频解码器,或可以包括视频解码器。可以使用用户终端和/或地面站处的一个或多个处理器来实现解码器。在一些情况下,解码器可以实现在显示装置326上。解码器可以被配置为解压缩由编码器处理的经处理的图像数据。解码器可以被配置为对编码后的视频数据312进行解码,以检索立体视频数据,并将立体视频数据发送到显示装置326。立体视频数据可以包括多个左眼图像322-1和322-2以及多个右眼图像324-1和324-2。多个左眼图像和右眼图像可以被提供在显示于显示装置326上的立体视频流中。显示装置可以位于用户终端处。备选地,显示装置可以可操作地连接到用户终端并可以从用户终端拆卸。在一些情况下,显示装置可以远离用户终端。所述显示装置可以被配置为使用解码后的立体视频数据来显示环境的FPV。用户可以在显示装置上查看环境的FPV。
[0095] 在一些情况下,当可移动物体上的成像装置拍摄环境中的一个或多个物体的图像时,可以在显示装置上实时示出环境的FPV图像和/或视频。显示装置可以是适合于显示图像和/或视频的装置,例如LCD(液晶显示器)、CRT(阴极射线管)、OLED(有机发光二极管)或等离子体。在一些情况下,显示器可以设置在移动装置上,诸如手机、PDA或平板电脑。在一些实施例中,显示装置可以是能够显示环境的3D FPV立体数据的可穿戴显示装置。
[0096] 在一些实施例中,原始图像数据和/或编码后的视频数据可以被直接发送到用户终端而不被存储在任何形式的介质中。在一些备选实施例中,可以在将由成像装置捕获的原始图像数据和/或由编码器压缩的经编码的视频数据发送到用户终端之前将其存储在媒体存储装置(未示出)中。媒体存储装置也可以由可移动物体承载。媒体存储装置可以是能够存储多个对象的图像数据或视频数据的任何类型的存储介质。媒体存储装置可以提供为CD、DVD、蓝光盘、硬盘、磁盘、闪存卡/驱动、固态驱动、易失性或非易失性存储器、全息数据存储装置和任何其他类型的存储介质。作为另一示例,媒体存储装置可以是网络服务器、企业服务器或任何其他类型的计算机服务器。媒体存储装置可以被计算机编程,以接受来自用户终端处的一个或多个装置的请求(例如,HTTP或可以发起数据传输的其他协议),并且向用户终端提供所请求的图像数据。另外,媒体存储装置可以是用于分发图像数据的广播设备,诸如免费广播、有线电视、卫星和其他广播设施。媒体存储装置也可以是数据网络(例如,云计算网络)中的服务器。在一些实施例中,媒体存储装置可以位于成像装置、编码器和/或可移动物体上。在一些实施例中,媒体存储装置可以位于用户终端(诸如,遥控器、地面站、服务器等)上。可以设想上述组件的任何排列或组合。
[0097] 图4示出了根据一些实施例的图3中的系统的输入和输出。如图4所示,输入402可以包括由位于可移动物体的不同位置处的N个相机(402-1、402-2、...、402-N)捕获的相同场景的多个(N个)图像视图。输入402可以被发送到编码器404。编码器可以是如本文其他地方所述的任何视频编码器。多个相机和编码器可以位于可移动物体上。在一些实施例中,编码器可以是多视图视频编码(MVC)编码器。编码器可以被配置为接收N个时间上同步的视频流并生成比特流。比特流可以经由一个或多个通信单元从可移动物体无线发送到用户终端。在一些情况下,可以在发送比特流之前将其存储在一个或多个存储器单元上。可以从编码器404将该比特流发送到解码器406。解码器可以位于或不位于用户终端处。在一些实施例中,解码器可以是多视图视频编码(MVC)解码器。解码器可以被配置为接收比特流并对其进行解码,并向用户终端输出408多个视频信号。多个视频信号可以包括不同类型的视频信号。例如,视频信号可以包括(1)用于电视或高分辨率电视的地面电视信号410;(2)包括左眼图像412-1和右眼图像412-2的立体视频412;和/或(3)包括从不同视图(例如,414-1、414-2和414-3)捕获的多个不同图像的多视图视频414。视频信号可以被转换成图像以显示在用户终端上。在一些实施例中,用户终端可以包括能够显示立体图像数据和/或多视图图像数据的显示装置。显示装置可以是诸如头戴式显示器或支持VR或AR的眼镜的可穿戴装置。
[0098] 图5示出了根据一些实施例的对图像的多视图视频编码(MVC)。MVC可以为视频场景的多个视图(诸如,位于可移动物体上的多个同步摄像机)提供紧凑的表示。MVC还可以提供用于3D观看的立体配对视频。3-D视频可以指n视图的多视图视频表示,其包括立体视图表示。可以经由各种通道在显示装置上显示3-D视频,包括从可移动物体发送的立体视频数据、有限和卫星传输、地面广播和/或经由因特网的流式播放和下载。例如,当用户正基于用户在显示装置上看到的FPV3-D视频操作可移动物体(例如,UAV)时,3-D视频可以提供高质量沉浸式的多媒体体验。
[0099] 多视图视频编码(MVC)可以是诸如H.264/MPEG-4AVC标准的视频压缩标准的扩展。MVC可以用于高效编码立体视频信号和多视图视频信号。可以由来自不同视点的多个摄像机捕获多视图视频序列。当相机之间的距离足够近时(即,密集的相机分布),不同视图的图像之间可能存在高相关性。MVC不仅可以利用暂时存在于给定视图内的帧之间的冗余,而且还可以利用相邻视图的帧之间的相似性。通过利用冗余和相似性,可以实现针对视图的独立编码的比特率的减小,而不牺牲重建视频质量。
[0100] 多视图视频可以用于支持3-D视频应用,其中在显示装置上提供对视觉场景的3-D深度感知。显示装置可以提供两个视图,其中向观看者的左眼呈现左眼视图,并向观看者的右眼呈现右眼视图。3-D显示技术确保正确的眼睛看到适当的信号。可以用被动偏振或主动快门技术来完成上述效果。
[0101] 在MVC中使用帧间预测可以利用空间和时间冗余来进行压缩。由于多视图场景的相机(或渲染的视点透视图)通常从附近的视点捕获相同的场景,因此存在实质性的视点间冗余。图5的部分A示出了2个相机系统的样本预测结构。可以由第一相机502-1和第二相机502-2捕获一个或多个视频帧。第一相机和第二相机可以位于可移动物体(例如,UAV)上。
[0102] 在MVC中使用的视频帧可以包括不同的图片类型,例如,I帧、P帧和B帧。I帧是最不可压缩的,且不需要其他视频帧来进行解码。I帧实际上是完全指定的图片,类似于传统的静态图像文件。P帧可以将来自先前帧的数据用来解压缩,且相较于I帧,是更可压缩的。P帧仅包含与先前帧的图像变化。例如,在汽车横穿静止背景的场景中,只需对汽车的运动进行编码。编码器不需要在P帧中存储不变的背景像素,从而节省了空间。P帧也被称为差别帧。B帧可以使用先前帧和在后帧进行数据参考,以获得最高的数据压缩量。与一个P帧相比,一个B帧可以通过使用当前帧和前后帧二者之间的差别指定其内容,来节省更多空间。
[0103] 可以从时间参考帧以及从帧间参考帧预测一个或多个图像。帧间预测可以发生在时间上和空间上相邻的帧之间、非相邻帧之间等。例如,可以在左视图相机和右视图相机之间帧间预测504一个或多个图像。同时,可以在每一组左视图和右视图帧内在空间和时间上(时间T1、T2、T3等)预测506一个或多个图像。帧间预测可以是自适应的。在一些情况下,根据率失真代价,可以以块为基础选择时间和帧间参考中的预测。
[0104] 除了部分B示出了包括多于两个相机的多个相机系统的帧间预测之外,图5的部分B类似于图5的部分A。如图5的部分B所示,可以根据某个相机的时间上相关的图片预测同一相机的图片。附加地,可以使用相邻相机的图片进行有效的预测。在图5的部分B中,该系统可以包括在同一时间或不同时间从不同位置捕获图像的五个摄像机(502-1、502-2、502-3、502-4和502-5)。多个相机可以位于可移动物体(例如,UAV)的不同部分上。类似于图5的部分A,部分B中的帧间预测504可以发生在时间上和空间上(时间T1、T2、T3等)的相邻帧之间、非相邻帧之间等506。在一些情况下,由一个或多个相机捕获的图像可以用作独立于其他视图的基本视图,并且是与高级视频编码(AVC)兼容的。例如,由相机502-1捕获的图像可以用作预测其他视图中的图像的基本视图。
[0105] 在一些实施例中,可以在将视频显示在显示装置上之前对视频数据进行平滑。可以使用随后在图6、7和8中描述的实施例中的一个或更多个来平滑视频数据。在某些情况下,可以在对可移动物体上的视频数据进行编码之前平滑视频数据(参见图7)。在其他情况下,可以在在远离可移动物体的用户终端或地面站处解码视频数据之后平滑所述视频数据(参见图8)。当显示装置是头戴式显示器或支持VR或AR的眼镜时,视频的平滑可以有助于减少由可移动物体和/或成像装置的移动引起的观看不适。例如,当可移动物体是具有由云台支撑的相机的UAV时,云台和/或UAV的用户控制的移动和/或振动可能导致图像抖动和失真,这可能导致观看不适,因为FPV显示在用户的眼睛附近的显示装置上。
[0106] 图6示出了根据一些实施例的成像装置在多个视频帧上的运动以及成像装置的虚拟运动路径的映射。成像装置可以在捕获多个图像(或图像帧)时处于运动中。成像装置可以被安装到或不被安装到可移动物体。可以从成像装置上的IMU或者从将成像装置连接到可移动物体的载体上的IMU获得成像装置的位置信息。位置信息可以包括成像装置沿着和/或围绕任何轴随时间(或在多个图像帧上)的运动特性。图6中的曲线示出了在多个图像帧上成像装置沿着y轴(俯仰轴)的运动特性602。运动特性可以包括可以是振动或用户引起的动作的结果的干扰。可以通过经由干扰(数据点)来拟合曲线,获得虚拟运动路径604。为了平滑视频,多个视频帧可以被映射到虚拟运动路径604。虚拟运动路径可以是例如平滑的虚拟运动路径。
[0107] 在一些实施例中,所述平滑视频可以包括:实时获取成像装置的虚拟运动路径604上的参考位置,并基于参考位置来修改一个或多个图像帧。例如,可以提供用于处理环境的立体视频数据的一个或多个处理器。所述处理器可以位于成像装置、可移动物体、用户终端、显示装置和/或与上述一个或多个进行通信的地面站上。在一些实施例中,处理器可以位于可移动物体上的编码器处。处理器可以配置为基于成像装置的一个或多个先前经过的位置,大致实时地或接近实时地获得位于可移动物体上的成像装置的参考位置。可以使用成像装置和/或可移动物体上的至少一个传感器来获得先前经过的位置。处理器可以配置为基于(1)成像装置的参考位置和(2)成像装置拍摄图像帧的实际位置来修改立体视频数据中的图像帧。
[0108] 可以基于成像装置的一个或多个先前经过的位置来计算成像装置的虚拟运动路径上的参考位置。例如,可以基于成像装置的先前经过位置来外推或预测虚拟运动路径上的参考位置。在一些情况下,可以基于成像装置的先前经过位置来延伸虚拟运动路径的一部分,并且参考位置可以位于虚拟运动路径的延伸部分上。虚拟运动路径上的参考位置可以被配置为补偿成像装置中的突然的或大的移动。突然的或大的移动可以是由可移动物体的运动、成像装置所连接到的载体的运动或来自环境的外部干扰引起的。传感器可以位于可操作地连接到成像装置的惯性测量单元(IMU)中。所述传感器可以包括加速度计、陀螺仪、罗盘和/或全球定位系统(GPS)接收器。所述传感器可以被配置为获得成像装置的位置信息、姿态信息和/或运动信息。
[0109] 可以使用变换矩阵来修改立体视频数据中的图像帧。可以基于该图像帧和先前图像帧之间的运动特性的改变来计算变换矩阵。在一些实例中,运动特性的改变可以包括该图像帧相对于先前图像帧的旋转或平移。可以基于成像装置的实际位置和先前经过的位置来确定运动特性的改变。可以通过使用与成像装置和/或可移动物体连接的传感器来获得运动特性的改变。例如,可以从可操作地连接到成像装置的IMU获得运动特性的改变。
[0110] 在一些实施例中,可以获得在成像装置的虚拟运动路径上的多个参考位置。例如,可以基于成像装置的多个先前经过位置来获得(或计算)成像装置的虚拟运动路径上的多个参考位置。可以基于多个参考位置来生成成像装置的虚拟运动路径。当成像装置或可移动物体中的至少一个处于运动中时,可以在不同的时间点获得参考位置。在一些实施例中,生成虚拟运动路径可以包括:滤除不与参考位置交叠的一个或多个先前经过的位置。当成像装置或可移动物体中的至少一个处于运动中时,可以大致实时地或接近实时地生成虚拟运动路径。
[0111] 在一些实施例中,可以基于多个参考位置来修改视频数据中的多个图像帧。多个修改后的图像帧可以被映射到虚拟运动路径,以获得环境的立体视频数据。在一些实施例中,所述映射可以包括根据虚拟运动路径在时间上将多个修改后的图像帧拼接在一起,以产生环境的立体视频数据。可以使用变换矩阵来映射立体视频数据,以产生平滑的连续图像帧。可以基于立体视频数据,将环境的第一人称视角(FPV)显示在远离可移动物体的装置上。所述装置可以包括用户终端处的显示装置。
[0112] 一个或多个处理器可以被配置为基于成像装置的位置信息来生成成像装置的虚拟运动路径。所述处理器可以位于成像装置、可移动物体、用户终端、显示装置和/或与上述一个或多个进行通信的地面站上。在一些实施例中,处理器可以位于编码器处。在一些情况下,成像装置可以位于诸如UAV的可移动物体上。可以使用成像装置和/或可移动物体上的一个或多个传感器来获得成像装置的位置信息。
[0113] 所述成像装置的位置信息可以包括姿态信息,其包含成像装置相对于参考系的俯仰角、偏航角和/或横滚角。参考系可以建立到可移动物体或世界坐标系。例如,所述成像装置的位置信息可以包括位置信息,其包含成像装置的纬度坐标、经度坐标、仰角、高度和/或位移。在一些情况下,所述成像装置的位置信息可以包括运动信息,其包含成像装置的线速度、线加速度、角速度和/或角加速度。所述传感器可以包括加速度计、陀螺仪、罗盘和/或全球定位系统(GPS)接收器。所述传感器可以位于可操作地连接到成像装置并被配置为测量成像装置的位置信息的IMU中。
[0114] 在一些实施例中,所述处理器可以配置为通过将滤波器应用于成像装置的位置信息来生成虚拟运动路径。滤波器可以包括一个或多个低阶滤波器和/或高阶滤波器。在一些实例中,虚拟运动路径可以被表示为多项式时基函数。当成像装置和/或可移动物体处于运动中时,可以大致实时地或接近实时地生成虚拟运动路径。可以将立体视频数据在空间上和时间上映射到虚拟运动路径,以获得环境的立体视频数据。
[0115] 多个修改后的图像帧(基于多个参考位置)可以在空间上和时间上被映射到虚拟运动路径,以获得环境的立体视频数据。在一些情况下,可以通过使用至少一个变换矩阵来映射立体视频数据。所述至少一个变换矩阵可以包括投影变换矩阵和透视变换矩阵。可以基于先前图像帧和当前图像帧之间的成像装置的位置信息的变化来确定投影变换矩阵。可以使用可移动物体上的一个或多个传感器来获得成像装置的位置信息的变化。还可以通过分析先前图像帧和当前图像帧中的一个或多个特征点的运动特性,来获得成像装置的位置信息的变化。可以由成像装置在不同的时间点捕获先前图像帧和当前图像帧。可以使用投影变换矩阵来确定当前图像帧的旋转和平移。可以基于当前图像帧的旋转和平移来计算透视变换矩阵。可以使用透视变换矩阵来映射立体视频数据,以产生平滑的连续图像帧。
[0116] 图7示出了根据实施例的用于处理图像和/或视频数据以产生立体视频数据的组件的示例的框图700。图7中的实施例可以类似于图3中的实施例,除了图7还包括用于在对视频数据进行编码之前平滑原始图像数据的视频平滑单元718。图7中的组件可以包括位于可移动物体上的第一组组件以及布置为远离可移动物体的第二组组件。在一些实施例中,来自第二组组件的一个或多个组件可以位于用户终端上。
[0117] 第一组组件可以包括成像装置702、惯性测量单元(IMU)710、视频平滑单元718、编码器722和通信单元726。成像装置702、IMU 710、视频平滑单元718、编码器722和通信单元726可以安装或共同位于可移动物体上。成像装置可以经由载体可操作地连接到可移动物体。可选地,成像装置可以设置在可移动物体的壳体内。在一些备选实施例(未示出)中,成像装置可以被实现为独立装置并且不需要被设置在可移动物体上。IMU 710可以安装在成像装置上,或安装在成像装置所连接到的载体上。可以使用可移动物体上的一个或多个处理器来实现视频平滑单元718。视频平滑单元可以被配置为处理环境的原始视频数据,以获得预定视觉效果。这里使用的原始视频数据可以包括原始图像数据708。预定视觉效果可以包括平滑地呈现具有减少的抖动的视频数据。预定视觉效果可以改善视频回放的感知质量。视频平滑单元718可以被配置为将原始图像数据708处理成平滑的视频数据720。可以使用可移动物体上的一个或多个处理器来实现编码器722。编码器可以包括视频编解码处理器,用于对平滑的视频数据720进行编码以产生立体视频数据(提供在编码后的视频数据
724中)。编码器可以包括视频编码器。通信单元726可以位于可移动物体的主体内。通信单元可以包括一个或多个处理器,该一个或多个处理器被配置为将来自可移动物体的编码视频数据724直接或间接地发送到用户终端。
[0118] 在一些实施例中,成像装置702可以包括被配置为捕获多个图像视图的多个成像装置。例如,成像装置702可以包括第一成像装置704,其被配置为捕获多个图像704-1、704-2等。成像装置702还可以包括第二成像装置706,其被配置为捕获多个图像706-1、706-2等。
多个图像704-1、704-2、706-1和706-2可以对应于由第一和第二成像装置从不同角度/位置和/或在相同时刻或不同时刻拍摄的多个图像视图。可以以原始图像数据708的形式提供多个图像视图。IMU 710可以被配置为在每次捕获图像的同时获得成像装置702的位置信息(IMU数据711)(例如,第一和第二成像装置704和706的位置信息)。例如,IMU 710可以获得对应于在时间t1捕获图像704-1时的第一成像装置704的位置信息712-1,以及对应于在时间t2捕获图像704-2时的第一成像装置704的位置信息712-2。类似地,IMU可以获得对应于在时间t1’捕获图像706-1时的第二成像装置706的位置信息714-1,以及对应于在时间t2’捕获图像706-2时的第二成像装置706的位置信息714-2。时间t1和t1’可以是相同或不同的时间点。时间t2和t2’可以是相同或不同的时间点。
[0119] 视频平滑单元718可以配置为基于成像装置的一个或多个先前经过的位置,大致实时地或接近实时地获得成像装置的参考位置。当捕获不同图像时,可以根据IMU采集的位置信息获取成像装置的一个或多个先前经过位置。视频平滑单元718可以被配置为基于(1)成像装置的参考位置和(2)该成像装置拍摄图像帧的实际位置,修改原始图像数据708中的一个或多个图像帧,如本文其他地方所述。视频平滑单元718还可以被配置为基于成像装置的位置信息生成成像装置的虚拟运动路径,并且将修改后的视频数据映射到虚拟运动路径以获得预定视觉效果(例如,平滑的视觉效果)。修改后的视频数据可以包括已经基于成像装置的多个参考位置而被修改的多个图像帧,如本文其他地方所述。
[0120] 视频平滑单元718可以被配置为向编码器722提供平滑视频数据720。编码器可以被配置为使用多目联合编码对平滑视频数据720进行编码。如本文所述的多目联合编码可以包括:基于成像装置在拍摄图像的每个时间点的位置信息,对多个图像进行帧间预测。
[0121] 在一些实施例中,编码器可以被配置为通过对环境的平滑视频数据进行编码来处理平滑视频数据,以在可移动物体上产生立体视频数据。可以通过将平滑视频数据中的多个图像视图融合在一起而生成立体视频数据。在一些实施例中,可以使用多目联合编码对平滑视频数据进行编码。多目联合编码可以包括基于成像装置的位置信息的帧间预测。可以从IMU获得成像装置的位置信息。多目联合编码可以包括在成像装置在相同时刻或不同时刻捕获的多个图像视图之间应用帧间预测。
[0122] 在一些实施例中,多目联合编码可以包括:将多视图视频编码(MVC)格式应用于平滑视频数据。例如,编码器722可以被配置为将MVC格式应用于平滑视频数据。应用MVC格式可以包括(1)使成像装置获得的平滑视频数据相关,以及(2)减少平滑视频数据中的信息冗余。在一些其他实施例中,多目联合编码可以包括:对平滑视频数据应用高效视频编码(HEVC)格式。在一些实施例中,当视频平滑单元718正生成平滑视频数据时,可以由编码器722中的一个或多个处理器大致实时地或接近实时地对所述平滑视频数据进行编码。
[0123] 可移动物体上的通信单元726可以被配置为将编码后的视频数据724(包括其上生成的立体视频数据)发送到远离可移动物体的通信单元728。通信单元728可以位于或不位于用户终端处。用户终端可以位于或不位于地面上。用户终端可以位于远离可移动物体的位置。在一些情况下,通信单元728可以位于与可移动物体和用户终端通信的地面站处。用户终端和可移动物体可以经由通信单元726和728彼此通信。编码后的视频数据724可以经由下行链路从可移动物体发送到用户终端。用户终端可以经由上行链路向可移动物体发送各种控制信号(未示出)。上行链路和下行链路中的每一个可以是无线链路。无线链路可以包括RF(射频)链路、Wi-Fi链路、蓝牙链路、3G链路或LTE链路。在一些情况下,通信单元726可以是成像装置、视频平滑单元和/或编码器的组件。例如,成像装置、视频平滑单元和/或编码器可以包括一个或多个收发器。在一些情况下,通信单元728可以是显示装置和/或解码器的组件。
[0124] 在一些实施例中,编码后的视频数据724可以包括高分辨率立体视频数据。在其它实施例中,经处理的视频数据724可以包括超高分辨率立体视频数据。
[0125] 通信单元728转而可以将编码后的视频数据724发送到解码器730。解码器可以是视频解码器,或可以包括视频解码器。可以使用用户终端和/或地面站处的一个或多个处理器来实现解码器。在一些情况下,解码器可以实现在显示装置738上。解码器可以被配置为解压缩由编码器处理的经处理的图像数据。解码器可以被配置为对编码后的视频数据724进行解码,以获取立体视频数据,并将立体视频数据(在解码后的视频数据732中)发送到显示装置738。如前所述,可以根据环境的平滑视频数据生成立体视频数据。立体视频数据可以包括多个左眼图像734-1和734-2以及多个右眼图像736-1和736-2。多个左眼图像和右眼图像可以被提供在被配置为要显示在显示装置738上的立体视频流中。显示装置可以位于用户终端处。备选地,显示装置可以可操作地连接到用户终端并可以从用户终端拆卸。在一些情况下,显示装置可以远离用户终端。所述显示装置可以被配置为使用解码后的立体视频数据来显示环境的FPV。用户可以在显示装置上查看环境的FPV。
[0126] 在一些情况下,当可移动物体上的成像装置拍摄环境中的一个或多个物体的图像时,可以在显示装置上实时示出环境的FPV图像和/或视频。显示装置可以是适合于显示图像和/或视频的装置,例如LCD(液晶显示器)、CRT(阴极射线管)、OLED(有机发光二极管)或等离子体。在一些情况下,显示器可以设置在移动装置上,诸如手机、PDA或平板电脑。在一些实施例中,显示装置可以是能够显示环境的3D FPV立体数据的可穿戴显示装置。
[0127] 在一些实施例中,原始图像数据、平滑视频数据和/或编码后的视频数据可以被直接发送到用户终端而不被存储在任何形式的介质中。在一些备选实施例中,可以在将由成像装置捕获的原始图像数据、由视频平滑单元生成的平滑视频数据和/或由编码器压缩的经编码的视频数据发送到用户终端之前将其存储在媒体存储装置(未示出)中。媒体存储装置也可以由可移动物体承载。媒体存储装置可以是能够存储多个对象的图像数据或视频数据的任何类型的存储介质。媒体存储装置可以提供为CD、DVD、蓝光盘、硬盘、磁盘、闪存卡/驱动、固态驱动、易失性或非易失性存储器、全息数据存储装置和任何其他类型的存储介质。作为另一示例,媒体存储装置可以是网络服务器、企业服务器或任何其他类型的计算机服务器。媒体存储装置可以被计算机编程,以接受来自用户终端处的一个或多个装置的请求(例如,HTTP或可以发起数据传输的其他协议),并且向用户终端提供所请求的图像数据。另外,媒体存储装置可以是用于分发图像数据的广播设备,诸如免费广播、有线电视、卫星和其他广播设施。媒体存储装置也可以是数据网络(例如,云计算网络)中的服务器。在一些实施例中,媒体存储装置可以位于成像装置、编码器和/或可移动物体上。在一些实施例中,媒体存储装置可以位于用户终端(诸如,遥控器、地面站、服务器等)上。可以设想上述组件的任何排列或组合。
[0128] 图8示出了根据实施例的用于处理图像和/或视频数据以产生立体视频数据的组件的示例的框图800。图8中的实施例可以类似于图3和7的实施例,除了图8中的视频平滑单元828布置为远离可移动物体并被配置为在对视频数据进行解码之后进行平滑。图8中的组件可以包括位于可移动物体上的第一组组件以及布置为远离可移动物体的第二组组件。在一些实施例中,来自第二组组件的一个或多个组件可以位于用户终端上。
[0129] 第一组组件可以包括成像装置802、惯性测量单元(IMU)810、编码器816和通信单元820。成像装置802、IMU 810、编码器816和通信单元820可以安装或共同位于可移动物体上。成像装置可以经由载体可操作地连接到可移动物体。可选地,成像装置可以设置在可移动物体的壳体内。在一些备选实施例(未示出)中,成像装置可以被实现为独立装置并且不需要被设置在可移动物体上。IMU 810可以安装在成像装置上,或安装在成像装置连接到的载体上。可以使用可移动物体上的一个或多个处理器来实现编码器816。编码器可以包括视频编解码处理器,用于对原始图像数据808进行编码以产生立体视频数据(提供在编码后的视频数据818中)。编码器可以包括视频编码器。通信单元820可以位于可移动物体的主体内。通信单元可以包括一个或多个处理器,该一个或多个处理器被配置为将来自可移动物体的编码视频数据818直接或间接地发送到用户终端。
[0130] 在一些实施例中,成像装置802可以包括被配置为捕获多个图像视图的多个成像装置。例如,成像装置802可以包括第一成像装置804,其被配置为捕获多个图像804-1、804-2等。成像装置802还可以包括第二成像装置806,其被配置为捕获多个图像806-1、806-2等。
多个图像804-1、804-2、806-1和806-2可以对应于由第一和第二成像装置从不同角度/位置和/或在相同时刻或不同时刻拍摄的多个图像视图。可以以原始图像数据808的形式提供多个图像视图。IMU 810可以被配置为在每次捕获图像的同时获得成像装置802的位置信息(IMU数据811)(例如,第一和第二成像装置804和806的位置信息)。例如,IMU可以获得对应于在时间t1捕获图像804-1时的第一成像装置804的位置信息812-1,以及对应于在时间t2捕获图像804-2时的第一成像装置804的位置信息812-2。类似地,IMU可以获得对应于在时间t1’捕获图像806-1时的第二成像装置806的位置信息814-1,以及对应于在时间t2’捕获图像806-2时的第二成像装置806的位置信息814-2。时间t1和t1’可以是相同或不同的时间点。时间t2和t2’可以是相同或不同的时间点。
[0131] 成像装置802可以被配置为向编码器816提供原始图像数据808。编码器可以被配置为使用多目联合编码对原始视频数据816进行编码。如本文所述的多目联合编码可以包括:基于成像装置在拍摄图像的每个时间点的位置信息,对多个图像进行帧间预测。
[0132] 在一些实施例中,编码器可以被配置为通过对环境的原始视频数据进行编码来处理原始视频数据,以在可移动物体上产生立体视频数据。可以通过将原始视频数据中的多个图像视图融合在一起而生成立体视频数据。在一些实施例中,可以使用多目联合编码对原始视频数据进行编码。多目联合编码可以包括基于成像装置的位置信息的帧间预测。可以从IMU获得成像装置的位置信息。多目联合编码可以包括在成像装置在相同时刻或不同时刻捕获的多个图像视图之间应用帧间预测。
[0133] 在一些实施例中,多目联合编码可以包括:将多视图视频编码(MVC)格式应用于原始视频数据。例如,编码816可以被配置为将MVC格式应用于原始视频数据。应用MVC格式可以包括(1)使成像装置获得的原始视频数据相关,以及(2)减少原始视频数据中的信息冗余。在一些其他实施例中,多目联合编码可以包括:对原始视频数据应用高效视频编码(HEVC)格式。在一些实施例中,当由成像装置802生成原始视频数据时,可以由编码器816中的一个或多个处理器大致实时地或接近实时地对所述原始视频数据进行编码。
[0134] IMU 810可以被配置为将成像装置802的位置信息(IMU数据811)发送给编码器816和/或通信单元820。可移动物体上的通信单元820可以被配置为将编码后的视频数据818(包括其上生成的立体视频数据)和IMU数据811发送到远离可移动物体的通信单元822。通信单元822可以位于或不位于用户终端处。用户终端可以位于或不位于地面上。用户终端可以位于远离可移动物体的位置。在一些情况下,通信单元822可以位于与可移动物体和用户终端通信的地面站处。用户终端和可移动物体可以经由通信单元820和822彼此通信。编码后的视频数据818和IMU数据811可以经由下行链路从可移动物体发送到用户终端。用户终端可以经由上行链路向可移动物体发送各种控制信号(未示出)。上行链路和下行链路中的每一个可以是无线链路。无线链路可以包括RF(射频)链路、Wi-Fi链路、蓝牙链路、3G链路或LTE链路。在一些情况下,通信单元820可以是成像装置和/或编码器的组件。例如,成像装置和/或编码器可以包括一个或多个收发器。在一些情况下,通信单元822可以是显示装置、解码器和/或视频平滑单元的组件。
[0135] 在一些实施例中,编码后的视频数据818可以包括高分辨率立体视频数据。在其它实施例中,经处理的视频数据818可以包括超高分辨率立体视频数据。
[0136] 通信单元822转而可以将编码后的视频数据818发送到解码器824。解码器可以是视频解码器,或可以包括视频解码器。可以使用用户终端和/或地面站处的一个或多个处理器来实现解码器。解码器可以被配置为解压缩由编码器编码的经处理的图像数据。解码器可以被配置为对编码后的视频数据818进行解码以获取立体视频数据,并将立体视频数据发送到视频平滑单元828。通信单元822可以被配置为将成像装置820的IMU数据811发送给视频平滑单元828。
[0137] 可以使用远离可移动物体的一个或多个处理器来实现视频平滑单元828。视频平滑单元828可以被配置为处理立体视频数据以获得预定视觉效果。预定视觉效果可以包括平滑地呈现具有减少的抖动的立体视频数据。预定视觉效果可以改善视频回放的感知质量。视频平滑单元828可以被配置为将解码后的视频数据826处理成平滑的视频数据830。
[0138] 视频平滑单元828可以被配置为基于成像装置的一个或多个先前经过的位置,获得成像装置的参考位置。当捕获不同图像时,可以根据IMU 810采集的位置信息(IMU数据811)获取每个成像装置的一个或多个先前经过位置。视频平滑单元828可以被配置为基于(1)成像装置的参考位置和(2)该成像装置拍摄图像帧的实际位置,修改解码后的视频数据
826中的一个或多个图像帧,如本文其他地方所述。视频平滑单元828还可以被配置为基于成像装置的位置信息生成成像装置的虚拟运动路径,并且将修改后的视频数据映射到虚拟运动路径以获得预定视觉效果(例如,平滑的视觉效果)。修改后的视频数据可以包括已经基于成像装置的多个参考位置而被修改的多个图像帧,如本文其他地方所述。
[0139] 视频平滑单元828可以被配置为向显示装置836提供平滑视频数据830。平滑视频数据可以包括环境的平滑立体视频数据。立体视频数据可以包括多个左眼图像832-1和832-2以及多个右眼图像834-1和834-2。多个左眼图像和右眼图像可以被提供在被配置为要显示在显示装置836上的立体视频流中。显示装置可以位于用户终端处。备选地,显示装置可以可操作地连接到用户终端并可以从用户终端拆卸。在一些情况下,显示装置可以远离用户终端。显示装置可以被配置为使用解码后的立体视频数据来显示环境的FPV。用户可以在显示装置上查看环境的FPV。
[0140] 在一些情况下,当可移动物体上的成像装置拍摄环境中的一个或多个物体的图像时,可以在显示装置上实时示出环境的FPV图像和/或视频。显示装置可以是适合于显示图像和/或视频的装置,例如LCD(液晶显示器)、CRT(阴极射线管)、OLED(有机发光二极管)或等离子体。在一些情况下,显示器可以设置在移动装置上,诸如手机、PDA或平板电脑。在一些实施例中,显示装置可以是能够显示环境的3D FPV立体数据的可穿戴显示装置。
[0141] 图9示出了根据实施例的包括载体902和负载904的可移动对象900。虽然可移动物体900被描绘为飞机,但是该描述并不旨在限制,并且可以使用任何合适类型的可移动物体,如本文前面所述。本领域技术人员将理解,本文在飞机系统的上下文中描述的任何实施例可以应用于任何合适的可移动物体(例如,UAV)。在某些实例中,负载904可以设置在可移动物体900上,而不需要载体902。可移动物体900可以包括推进机构906、感测系统908和通信系统910。
[0142] 如前所述,推进机构906可以包括旋翼、螺旋桨、叶片发动机电机、轮子、轴、磁体或喷嘴中的一个或多个。例如,如本文别处所述,推进机构906可以是自紧式旋翼、旋翼组件或其它旋转推进单元。可移动对象可以具有一个或多个、两个或多个、三个或多个、或四个或多个推进结构。推进结构都可以是相同类型的。备选地,一个或多个推进结构可以是不同类型的推进结构。推进机构906可以使用诸如本文别处所述的诸如支撑元件(例如,驱动轴)的任何合适的方法安装在可移动物体900上。推进机构906可以安装在可移动物体900的任何合适的部分上,诸如顶部、底部、前部、后部、侧面或其合适的组合。
[0143] 在一些实施例中,推进机构906可以使可移动物体900能够垂直地从表面起飞或垂直地降落在表面上,而不需要可移动物体900的任何水平移动(例如,无需沿着跑道行进)。可选地,推进机构906可以可操作地允许可移动物体900以特定位置和/或朝向悬停在空气中。推进机构900中的一个或多个可以独立于其它推进机构受到控制。备选地,推进机构900可以被配置为同时受到控制。例如,可移动物体900可以具有多个水平朝向的旋翼,其可以向可移动物体提供升力和/或推力。可以驱动多个水平朝向的旋翼以向可移动物体900提供垂直起飞、垂直着陆和悬停能力。在一些实施例中,水平朝向旋翼中的一个或多个可沿顺时针方向旋转,而水平旋翼中的一个或多个可沿逆时针方向旋转。例如,顺时针旋翼的数量可以等于逆时针旋翼的数量。为了控制由每个旋翼产生的升力和/或推力,从而调整可移动物体900(例如,相对于最多三个平移度和三个旋转度)的空间布置、速度和/或加速度,可以独立地改变每个水平朝向的旋翼的转速。
[0144] 感测系统1008可以包括可感测可移动物体900(例如,相对于高达三个平移度和高达三个旋转度)的空间布置、速度和/或加速度的一个或多个传感器。一个或多个传感器可以包括全球定位系统(GPS)传感器、运动传感器、惯性传感器、近距离传感器或图像传感器。感测系统908提供的感测数据可用于(例如,使用合适的处理单元和/或控制模块,如下所述)控制可移动物体900的空间布置、速度和/或朝向。备选地,感测系统908可用于提供关于可移动物体周围的环境的数据,例如天气条件、接近潜在障碍物、地理特征的位置、人造结构的位置等。
[0145] 通信系统910能够经由无线信号916与具有通信系统914的终端912进行通信。通信系统910、914可以包括适合于无线通信的任意数量的发射机、接收机和/或收发机。所述通信可以是单向通信,使得数据只能在一个方向上传输。例如,单向通信可以仅涉及可移动物体900向终端912发送数据,反之亦然。可以从通信系统910的一个或多个发射机向通信系统912的一个或多个接收机发送数据,或者反之亦然。备选地,所述通信可以是双向通信,使得可以在可移动物体900和终端912之间的两个方向上发送数据。双向通信可以涉及从通信系统1010的一个或多个发射机向通信系统914的一个或多个接收机发送数据,并且反之亦然。
[0146] 在一些实施例中,终端912可以向可移动物体900、载体902和负载904中的一个或更多个提供控制数据,并且从可移动物体900、载体902和负载904中的一个或更多个接收信息(例如,可移动物体、载体或负载的位置和/或运动信息;由负载感测的数据,例如由负载相机捕获的图像数据)。在某些实例中,来自终端的控制数据可以包括用于可移动物体、载体和/或负载的相对位置、移动、驱动或控制的指令。例如,控制数据(例如,通过推进机构906的控制)可以导致可移动物体的位置和/或朝向的修改,或(例如,通过载体902的控制)导致负载相对于可移动物体的移动。来自终端的控制数据可以导致对负载的控制,诸如对相机或其他图像捕获设备的操作的控制(例如,拍摄静止或移动的图片、放大或缩小、打开或关闭、切换成像模式、改变图像分辨率、改变焦点、改变景深、改变曝光时间、改变视角或视野)。在某些实例中,来自可移动物体、载体和/或负载的通信可以包括来自(例如,感测系统908或负载904的)一个或多个传感器的信息。通信可以包括来自一个或多个不同类型的传感器(例如,GPS传感器、运动传感器、惯性传感器、近距离传感器或图像传感器)的感测信息。这样的信息可以涉及可移动物体、载体和/或负载的定位(例如位置,朝向)、移动或加速度。来自负载的这种信息可以包括由负载捕获的数据或负载的感测状态。由终端912发送提供的控制数据可以被配置为控制可移动物体900、载体902或负载904中的一个或多个的状态。备选地或组合地,载体902和负载904也可以各自包括被配置为与终端912进行通信的通信模块,使得该终端可以独立地与可移动物体900、载体902和有效负载904中的每一个进行通信并对其进行控制。
[0147] 在一些实施例中,可移动物体900可被配置为与除了终端912之外的或者代替终端912的另一远程通信设备。终端912还可以被配置为与另一远程设备以及可移动物体900进行通信。例如,可移动物体900和/或终端912可以与另一可移动物体或另一可移动物体的载体或负载通信。当需要时,远程设备可以是第二终端或其他计算设备(例如,计算机、膝上型电脑、平板电脑、智能电话或其他移动设备)。远程设备可以被配置为向可移动物体900发送数据、从可移动物体900接收数据、向终端912发送数据,和/或从终端912接收数据。可选地,远程设备可以与因特网或其他电信网络连接,使得从可移动物体900和/或终端912接收的数据可以上传到网站或服务器。
[0148] 在一些实施例中,根据实施例可以提供一种用于控制可移动物体的系统。该系统可以与本文公开的系统、设备和方法的任何合适的实施例结合使用。该系统可以包括感测模块、处理单元、非暂时性计算机可读介质、控制模块和通信模块。
[0149] 感测模块可以利用以不同方式采集与可移动物体有关的信息的不同类型的传感器。不同类型的传感器可以感测不同类型的信号或来自不同源的信号。例如,传感器可以包括惯性传感器、GPS传感器、近距离传感器(例如,激光雷达)或视觉/图像传感器(例如,相机)。感测模块可以可操作地与具有多个处理器的处理单元连接。在一些实施例中,感测模块可以可操作地与被配置为直接将感测数据传输到合适的外部设备或系统的传输模块(例如,Wi-Fi图像传输模块)连接。例如,传输模块可以用于将由感测模块的相机捕获的图像发送到远程终端。
[0150] 处理单元可以具有一个或多个处理器,诸如可编程处理器(例如,中央处理单元(CPU))。处理单元可以可操作地与非暂时性计算机可读介质连接。非暂时性计算机可读介质可以存储可由处理单元执行的用于执行一个或多个步骤的逻辑、代码和/或程序指令。非暂时性计算机可读介质可以包括一个或多个存储器单元(例如,可移动介质或诸如SD卡或随机存取存储器(RAM)的外部存储器)。在一些实施例中,来自感测模块的数据可以被直接传送到非瞬态计算机可读介质的存储器单元中并存储在其中。非暂时计算机可读介质的存储器单元可以存储可由处理单元执行的逻辑、代码和/或程序指令,以执行本文描述的方法的任何合适的实施例。例如,处理单元可以被配置为执行使处理单元的一个或多个处理器分析由感测模块产生的感测数据的指令。存储单元可储存来自感测模块的感测数据以供处理单元处理。在一些实施例中,非暂时性计算机可读介质的存储单元可以用于存储由处理单元产生的处理结果。
[0151] 在一些实施例中,处理单元可以可操作地与被配置为控制可移动物体的状态的控制模块连接。例如,控制模块可以被配置为控制可移动物体的推进机构,以相对于六个自由度调节可移动物体的空间布置、速度和/或加速度。备选地或组合地,控制模块可以控制载体、负载或感测模块的状态中的一个或多个。
[0152] 处理单元可以可操作地与被配置为从一个或多个外部设备(例如,终端、显示装置或其他遥控器)发送和/或接收数据的通信模块连接。可以使用任何合适的通信方式,例如有线通信或无线通信。例如,通信模块可以利用局域网(LAN)、广域网(WAN)、红外、无线电、WiFi、点对点(P2P)网络、电信网络、云通信等中的一个或多个。可选地,可以使用中继站,例如塔、卫星或移动站。无线通信可以是接近度相关的或接近度不相关的。在一些实施例中,通信可能需要或可能不需要视线。通信模块可以发送和/或接收以下一个或多个:来自感测模块的感测数据、由处理单元产生的处理结果、预定控制数据、来自终端或遥控器的用户命令等。
[0153] 系统的组件可以以任何合适的配置来布置。例如,系统的一个或多个组件可以位于可移动物体、载体、负载、终端、感测系统上或与上述一个或多个进行通信的附加的外部设备上。在一些实施例中,多个处理单元和/或非暂时性计算机可读介质中的一个或多个可以位于不同的位置,例如位于可移动物体、载体、负载、终端、感测模块、与上述一个或多个进行通信的附加的外部设备、或其合适组合上,使得由系统执行的处理和/或存储功能的任何合适方面可以发生在前述位置中的一个或多个位置。
[0154] 本文所用的A和/或B包括A或B中的一个或多个以及它们的组合(例如,A和B)。将理解,虽然本文中可以使用术语“第一”、“第二”、“第三”等来描述各种元件、组件、区域和/或部分,但是这些元件、组件、区域和/或部分不应受这些术语限制。这些术语仅用于区分一个元素、组件、区域或部分与另一元素、组件、区域或部分。因此,下面谈论的第一元件、组分、区域或部分可以称为第二元件、组分、区域或部分,而不违反本发明的教导。
[0155] 本文中所使用的术语仅仅是为了描述具体实施例的目的,而不是意在限制本发明。如本文中使用的,单数形式“一”、“一个”和“所述”意图还包括复数形式,除非上下文明确地给出相反的指示。还应该理解的是当在本发明中使用时,术语“包括”和/或“包括了”、或“包含”和/或“包含了”指定了存在所声明的特征、区域、整数、步骤、操作、元素和/或组件,但是不排除存在或另外还有一个或多个其他特征、区域、整数、步骤、操作、元素、组件和/或其组合。
[0156] 此外,在本文中可以使用诸如“下”或“底”和“上”或“顶”的相对术语来描述一个元件与图示其它元件的关系。应当理解,除了附图中所示的朝向之外,相对术语旨在包括元件的不同朝向。例如,如果一幅图中的元件翻转,则被描述为位于其它元件的“下”侧的元件将定向在其它元件的“上”侧。因此,示例性术语“下”可以包含“下”和“上”的朝向,这取决于图的特定朝向。类似地,如果一幅图中的元件翻转,则被描述为位于其它元件的“下方”或“下侧”的元件将定向在其它元件的“上方”。因此,“下方”或“下方”的示例性术语可以包括上下朝向。
[0157] 虽然本文已经示出和描述了本发明的优选实施例,但是对于本领域技术人员显而易见的是,这些实施例仅以示例的方式提供。在不脱离本发明的情况下,本领域技术人员将会想到许多变化、改变和备选方式。应当理解,在实施本发明时可以采用本文所述的本发明的实施例的各种备选方案。本文描述的实施例的许多不同组合是可能的,并且这样的组合被认为是本公开的一部分。此外,结合本文任何一个实施例讨论的所有特征可以容易地适用于本文的其它实施例。以下权利要求旨在限定本发明的范围,并且这些权利要求及其等同物的范围内的方法和结构由此被涵盖。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈