首页 / 专利库 / 显示技术 / 视差 / 基于双目视觉和激光雷达融合的深度估计方法

基于双目视觉激光雷达融合的深度估计方法

阅读:390发布:2020-05-08

专利汇可以提供基于双目视觉激光雷达融合的深度估计方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于 双目视觉 和 激光雷达 融合的深度估计方法,本发明将激光雷达和双目相机采集的数据通过联合标定进行配准;根据联合标定的结果得到激光雷达 视差 图;通过双目立体匹配 算法 得到双目视差图,对双目视差图进行 置信度 分析,去除双目视差图中置信度低的点,得到置信度处理后的双目视差图;将得到的激光雷达视差图和置信度处理后的双目视差图进行特征的提取和融合;通过级联沙漏结构进行进一步特征提取并做视差回归;采用中继监督,将前后级联的沙漏结构的输出都加以利用;输出融合之后准确稠密的视差图。本发明方法设计了一种更加有效的网络结构,将激光雷达视差图和双目视差图的特征更好的提取出来并进行融合,得到更加准确的视差图。,下面是基于双目视觉激光雷达融合的深度估计方法专利的具体信息内容。

1.一种基于双目视觉激光雷达融合的深度估计方法,其特征在于,包含以下步骤:
(1)对相机进行双目标定,对相机和激光雷达进行联合标定;
(2)根据双目标定的结果,通过双目立体匹配算法获取双目视差图;
(3)获取激光点视差图,对双目视差图进行置信度处理,所述的置信度处理采用卷积神经网络的方法;
(4)分别对输入的激光点云视差图和置信度处理后的双目视差图进行特征的提取并进行拼接融合;
(5)通过级联的沙漏结构进行更进一步的特征提取,然后进行视差回归并加入中继监督;
(6)输出融合之后的视差图。
2.如权利要求1所述的一种基于双目视觉和激光雷达融合的深度估计方法,其特征在于,所述步骤(1)具体为:通过双目相机和激光雷达同步采集图像和激光点云数据,根据采集的图像进行相机单目标定和双目标定确定相机内参和外参,结合激光点云数据,获取相机与激光雷达之间的外参。
3.如权利要求1所述的一种基于双目视觉和激光雷达融合的深度估计方法,其特征在于,所述步骤(2)具体为:根据双目相机采集的图像以及双目相机的标定参数,将图像进行校正从而使其行对齐,然后使用双目立体匹配算法得到对应的双目视差图。
4.如权利要求1所述的一种基于双目视觉和激光雷达融合的深度估计方法,其特征在于,所述步骤(3)具体为:通过联合标定的结果,将激光点云投影到图像上,获取对应的激光点云视差图;通过卷积神经网络去除原始双目视差图中置信度小于95%的点,获取经过置信度处理后的双目视差图。
5.如权利要求1所述的一种基于双目视觉和激光雷达融合的深度估计方法,其特征在于,所述步骤(4)具体为:将置信度处理后的双目视差图以及激光点云视差图作为输入,通过一个多层卷积神经网络进行特征初步提取得到两组十六通道特征图,之后将得到的特征图进行拼接融合得到三十二通道特征图;卷积核采用空洞卷积,并加入BN层。
6.如权利要求1所述的一种基于双目视觉和激光雷达融合的深度估计方法,其特征在于,所述步骤(5)具体为:根据得到的三十二通道特征图,通过两层级联的沙漏结构进行更进一步的特征提取,最后根据ground truth计算网络的整体loss,将两层沙漏结构的输出分别与ground truth进行loss的计算,然后加权求和获得最终的loss;
其中,DF1,DF2表示第一层和第二次沙漏结构输出的视差图,DG表示ground truth对应的视差图,p表示DG中值不为空的所有像素点,λ1和λ2分别表示两层输出求loss时对应的权重系数。
7.如权利要求1所述的一种基于双目视觉和激光雷达融合的深度估计方法,其特征在于,所述步骤(6)具体为:在测试时,使用第二层沙漏结构输出的结果作为最终融合之后的视差图。

说明书全文

基于双目视觉激光雷达融合的深度估计方法

技术领域

[0001] 本发明属于机器人计算机视觉应用领域,具体涉及一种基于双目视觉和激光雷达融合的深度估计方法。

背景技术

[0002] 在许多机器人和计算机视觉应用中,通过深度估计感知场景或物体的三维几何结构无疑是许多任务的关键,例如自动驾驶、移动机器人定位、避障、路径规划、三维重建等。
[0003] 为了估计场景的可靠深度信息,可以使用两种技术:使用激光雷达扫描仪或者对双目图像使用立体匹配算法进行深度估计。对于复杂的室外场景,激光雷达扫描仪是最实用的3D感知解决方案,激光雷达扫描仪的三维感知可以提供非常精确的深度信息,误差以厘米为单位。然而,由于激光雷达点是稀疏的,它在图像点中所占的比例不到6%,所以用激光雷达重建三维图像在实际应用中是受到限制的,无法覆盖场景中的所有对象,尽管存在一些对稀疏三维深度点的深度信息进行插值的努,但其性能也受到限制。另一方面,通过双目视觉进行深度估计可以得到稠密的深度信息。然而,由于双目相机的基线较小,感知范围受限加之立体匹配算法的固有限制(由于遮挡,光照等因素引起),双目立体视觉所得到的深度信息精度往往不高。
[0004] 因此,为了获得更好的深度估计信息,我们需要将激光雷达获取的深度信息和双目视觉的获取的深度信息进行融合,从而得到准确并且稠密的深度信息。现有技术中也基于此进行过尝试,然而结果却不尽如人意。
[0005] 专利申请号为CN 201810448954.7发明专利提出了一种基于低线束激光雷达和双目相机的融合方法。依据图像数据和雷达数据中相同对象对应的数据,生成误差系数,根据误差系数生成校准后的图像数据。该方法受环境因素影响较大,在复杂环境下双目相机采集的图像数据会受到较大的干扰,生成的视差图会有许多错误估计的区域,不利于获得准确的融合结果。
[0006] 专利申请号为CN 201810575904.5发明专利提出了一种基于现有的双目立体匹配算法的网络,通过加入激光雷达视差数据作为监督即系统误差补偿模进行训练调优最终输出优化之后的视差图。该发明的融合方法属于前端融合,即在计算双目视差图的过程中加入激光雷达视差图作为一个监督项来约束双目视差图的求解过程。该方法对双目立体匹配算法的要求较高,而且由于监督信息是在双目立体匹配算法中加入的,所以每次更换不同的双目立体匹配算法,都需要将整个网络的结构进行调整,较为繁琐。
[0007] 专利申请号为CN 201710851841.7发明专利提出了无人驾驶中立体视觉与低线束激光雷达的融合矫正方法。该发明通过语义分割获取语义分割后的视差图,再通过激光雷达数据对双目视差图进行补偿得到补偿后的全像素视差图。最后将这两个视差图作为神经网络输入得到最终的视差图。然而,语义分割的结果在复杂的环境中并不准确,无法较准确地恢复出原始的深度信息。

发明内容

[0008] 针对上述现有技术中存在的缺陷,本发明提供一种基于双目视觉和激光雷达融合的深度估计方法。该方法通过设计一种更加有效的网络结构,将激光雷达视差图和双目视差图的特征更好的提取出来并进行融合,得到更加准确的视差图。
[0009] 一种基于双目视觉和激光雷达融合的深度估计方法,包含以下步骤:
[0010] (1)对相机进行双目标定,对相机和激光雷达进行联合标定;
[0011] (2)根据双目标定的结果,通过双目立体匹配算法获取双目视差图;
[0012] (3)获取激光点云视差图,以及对双目视差图进行置信度处理,所述的置信度处理采用卷积神经网络的方法,它是一种端到端的获取输入视差图置信度的方法;
[0013] (4)分别对输入的激光点云视差图和置信度处理后的双目视差图进行特征的提取并进行拼接融合;
[0014] (5)通过级联的沙漏结构进行更进一步的特征提取,然后进行视差回归并加入中继监督,充分利用每个沙漏结构的输出结果;
[0015] (6)输出融合之后的视差图。
[0016] 上述技术方案中,进一步地,所述步骤(1)具体为:通过双目相机和激光雷达同步采集图像和激光点云数据,根据采集的图像进行相机单目标定和双目标定确定相机内参和外参,结合激光点云数据,获取相机与激光雷达之间的外参。
[0017] 进一步地,所述步骤(2)具体为:根据双目相机采集的图像以及双目相机的标定参数,将图像进行校正从而使其行对齐,然后使用双目立体匹配算法得到对应的双目视差图。
[0018] 进一步地,所述步骤(3)具体为:通过联合标定的结果,将激光点云投影到图像上,获取对应的激光点云视差图;通过卷积神经网络去除原始双目视差图中置信度小于95%的点,获取经过置信度处理后的双目视差图。
[0019] 进一步地,所述步骤(4)具体为:将置信度处理后的双目视差图以及激光点云视差图作为输入,通过一个多层卷积神经网络进行特征初步提取得到两组十六通道特征图,之后将得到的特征图进行拼接融合得到三十二通道特征图;卷积核采用空洞卷积,,确保在感受野相同的情况下使用更少的参数,降低网络耗时;并加入BN层防止过拟合,梯度消失等问题的出现。
[0020] 进一步地,所述步骤(5)具体为:根据得到的三十二通道特征图,通过两层级联的沙漏结构进行更进一步的特征提取,最后根据ground truth计算网络的整体loss,由于一共有两层级联的沙漏结构,所以将两层沙漏结构的输出分别与ground truth进行loss的计算,然后加权求和获得最终的loss,这样就能使得浅层的网络也能得到充分的训练,使得整个网络的性能得到提升;
[0021]
[0022] 其中,DF1,DF2表示第一层和第二次沙漏结构输出的视差图,DG表示ground truth对应的视差图,p表示DG中值不为空的所有像素点,λ1和λ2分别表示两层输出求loss时对应的权重系数。
[0023] 进一步地,所述步骤(6)具体为:在测试时,使用第二层沙漏结构输出的结果作为最终融合之后的视差图。
[0024] 本发明方法的主要思想是:
[0025] 将激光雷达和双目相机采集的数据通过联合标定进行配准;根据联合标定的结果得到激光雷达视差图;通过双目立体匹配算法得到双目视差图,对双目视差图进行置信度分析,去除双目视差图中置信度低的点,得到置信度处理后的双目视差图;将得到的激光雷达视差图和置信度处理后的双目视差图进行特征的提取和融合;通过级联的沙漏结构提取更深层的特征并做视差回归;采用中继监督,将前后级联的沙漏结构的输出都加以利用;输出融合之后准确稠密的视差图。
[0026] 与现有技术相比,本发明具有以下优点:
[0027] 1、本发明提出了一种高精度,高灵活性的深度估计框架
[0028] 2、本发明提出了一种将双目视觉和激光雷达进行优势互补的融合方法,并且通过置信度分析将双目视差图中置信度低的点去除,消除了误匹配点对最终融合的影响。
[0029] 3、本发明创新性地采用后端融合的方法,与原有的前端融合即将激光点云作为监督项加入到双目立体匹配算法求解的过程中不同,本发明直接将双目视差图和激光雷达视差图作为神经网络的输入进行训练,使得整个系统可以灵活地选择不同的双目立体匹配算法且不需要修改网络的结构,灵活性更强。
[0030] 4、本发明首次采用沙漏结构进行视差回归模块的特征提取,沙漏结构采用了先降采样再升采样的策略,同时加入了跳级连接来辅助升采样,这样既保证了能提取到深层次的特征,也兼顾了网络参数的计算量,在级联的沙漏结构中加入中继监督,分别计算每个沙漏结构输出的loss,充分利用不同层的网络的输出信息,相当于对多个模型进行集成,提高了网络的鲁棒性。
[0031] 5、本发明在大量不同场景下进行网络的训练,使其对环境的适应性更强,在复杂的环境下也能有比较好的融合结果。附图说明
[0032] 图1为本发明方法的整体流程图
[0033] 图2为本发明实施例1获取的原始图和视差图。

具体实施方式

[0034] 下面结合附图和具体实施例对本发明作进一步说明。
[0035] 如图1所示为发明方案进行双目视觉和激光雷达融合的流程,具体如下:
[0036] 1.通过双目相机和激光雷达同步采集标定板图像和激光点云数据,根据采集的图像进行相机单目标定和双目标定确定相机内参和左右相机的外参,结合激光雷达点云数据,获取相机与激光雷达之前的外参。
[0037] 1.1本步骤中,双目相机的镜头光轴保持平行,焦距一致,固定相机与激光雷达位置,保证两者之间相对位置不变;在信号同步单元的控制下同时采集两路图像信号以及激光雷达点云数据;
[0038] 1.2根据相机单目、双目标定原理,获取相机内参外参信息以及标定板在每相机坐标系中的平面方程am,i,同时根据激光点云获取标定板在每帧激光雷达坐标系中的平面方程al,i。θ表示平面的法向量,X表示平面上点的坐标,d表示坐标系原点到平面的距离。
[0039] am,i:θm,iX+dm,i=0
[0040] al,i:θl,iX+dl,i=0
[0041] 1.3在获取标定板在不同坐标系下的平面方程后,通过最小化如下方程来约束RT矩阵,求解得到最终的外参信息。i表示每组图像和激光点云数据编号,l表示每组中平面上点的个数。
[0042]
[0043] 2.利用双目标定和联合标定的结果处理图像和激光点云数据,得到双目视差图和激光点云视差图。
[0044] 2.1本步骤中,首先利用双目标定的结果,得到左右行对齐的图像,根据PSMNet端到端网络获取对应的视差图。PSMNet通过一个金字塔池化结构提取左右视图的特征信息,然后根据提取的特征信息构建匹配代价立方体,最后通过三个级联的沙漏结构对视差进行分类回归。
[0045] 2.2在得到初步的视差图之后,通过置信度分析对视差图进行置信度分析,将其中置信度低于Thresh的点去除。具体如下公式所示:
[0046]
[0047] 其中,Mi表示双目视差图在像素点i处的灰度值,di表示置信度分析后输出的置信度图在像素点i处的灰度值,Thresh表示我们设置的置信度阈值
[0048] 2.3根据标定获取的相机激光雷达外参,将激光点云投影到图像当中,并根据视差和深度的关系,将激光点云的深度信息转换为视差信息,获取激光点云视差图。
[0049]
[0050] 其中,B和f分别表示双目相机基线的长度和相机的焦距,Z表示深度,D表示视差。
[0051] 3.将步骤2中得到的双目视差图以及激光点云视差图作为输入,通过一个多层卷积神经网络进行特征初步提取得到两组十六通道特征图,之后将得到的多通道特征图进行拼接融合得到三十二通道特征图;卷积核采用空洞卷积,确保在感受野相同的情况下使用更少的参数,降低网络耗时;加入了BN层,目的是用来防止过拟合,梯度消失等问题的出现。
[0052] 4.根据之前提取的特征,再通过两层级联的沙漏结构,提取更深层的特征,最后根据ground truth计算网络的整体loss。由于一共有两层级联的沙漏结构,所以将两层沙漏结构的输出分别与ground truth进行loss的计算,然后加权求和获得最终的loss,这样就能使得浅层的网络也能得到充分的训练,使得整个网络的性能得到提升。
[0053]
[0054] 其中,DF1,DF2表示第一层和第二次沙漏结构输出的视差图,DG表示ground truth对应的视差图,p表示DG中值不为空的所有像素点,λ1和λ2分别表示两层输出求loss时对应的权重系数。
[0055] 5.在测试时,使用第二层沙漏结构输出的结果作为最终融合之后的视差图。
[0056] 上述方法加入了置信度分析来减少双目视差图中误匹配带来的误差,所述置信度分析的具体工作过程包括以下步骤:
[0057] 步骤1)在得到初步的视差图之后,通过置信度分析对视差图进行置信度分析;
[0058] 步骤2)输出置信度分析结果图;
[0059] 步骤3)考虑到融合的过程是一个优势互补的过程,所以要尽可能保证双目视差图和激光点云视差图的准确性。我们将其中置信度低于某个较高阈值Thresh的点去除,保证融合过程中不会出现误差过大的像素点。
[0060] 通过后端融合(即直接将双目视差图与激光雷达视差图融合)的方法,使得整个系统可以灵活地选择不同的双目立体匹配算法且不需要修改网络的结构,灵活性更强。
[0061] 采用沙漏结构进行特征提取,沙漏结构能更好地提取视差图的深层特征,使得信息更加丰富,有助于后续视差图的获取;沙漏结构采用了先降采样再升采样的策略,同时加入了跳级连接来辅助升采样,这样既保证了能提取到深层次的特征,也兼顾了网络参数的计算量(先降采样后升采样可以使得网络计算量大大减少);在级联的沙漏结构中加入中继监督,分别计算每个沙漏结构输出的loss,充分利用不同层的网络的输出信息,相当于对多个模型进行集成,提高了网络的鲁棒性。
[0062] 实施例1
[0063] 本实施例主要测量在道路场景下深度估计质量的优劣,主要包括对于细节部分以及整体轮廓的还原。图2中(a),(b),(c)分别表示原始图形,PSMNet方法得到的视差图和本发明的方法融合得到的视差图。从结果中可以看出,本发明的方法相较于原始的双目视差图,人和车的轮廓还原得更加准确。同时,原始双目视差图对于远处杆子的深度估计都存在比较明显的错误,它们的中间存在一段空缺,而本发明的方法很好地将整个杆子的深度信息估计了出来。
[0064] 实施例2
[0065] 本实施例通过Kitti2015数据集对本发明的方法进行评估。Kitti2015数据集由200组数据构成,包含左右视图以及对应的ground truth,对应的激光雷达数据可以从Kitti的原始数据中获得。该数据集通过将视差图与ground truth进行对比,计算错误率来评估深度估计质量的好坏,错误率越低表示深度估计质量越好。其中错误率定义为视差值与ground truth相差3以上或者5%以上的像素点的数量在所有像素点中所占的比例。具体结果见表1:
[0066] 表1.各个方法在Kitti2015上的表现
[0067]
[0068] 从表格中可以看出,我们所使用的PSMNet方法在Kitti2015数据集上的错误率为3.98%。之后,通过PSMNet得到的结果图进行融合,本发明的方法融合得到的视差图的错误率为1.46%。可以看出,通过本发明的方法对双目视差图和激光雷达视差图进行融合后,能将原始的双目视差图的错误率降低大约60%。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈