首页 / 专利库 / 图形技术 / 迭代重建 / 一种无监督位姿与深度计算方法及系统

一种无监督位姿与深度计算方法及系统

阅读:335发布:2020-05-12

专利汇可以提供一种无监督位姿与深度计算方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种无监督 位姿 与深度计算方法及系统,其中主要采用以下模 块 :位姿预测网络模型TNet、深度估计网络模型DMNet、视觉重建模型V和误差损失函数模块;计算前向运动相对位姿和后向运动相对位姿,计算图像的深度估计结果和图像对应深度,通过重建误差、平滑误差和孪生一致性误差求和得到损失函数,进行 迭代 更新,直到损失函数收敛,最后根据训练好的模型Tnet和模型DNet计算出相机相对位姿和预测 深度图 。,下面是一种无监督位姿与深度计算方法及系统专利的具体信息内容。

1.一种无监督位姿与深度计算方法,其特征在于,包含位姿网络模型TNet、深度网络模型DNet、图像视觉重建模型V和损失函数,包括以下步骤:
S1,预备单目视频数据集;
S2,从步骤S1中的单目视频数据集中抽取连续图像,将相邻图像依次输入位姿网络模型TNet,得到图像间共同的特征F,特征F输入位姿网络模型TNet,分别得到前向运动相对位姿和后向运动相对位姿;
S3,将步骤S2中的连续图像输入深度网络模型DNet,通过前向传播得到图像的深度估计结果和图像对应深度;
S4,将S2中的连续图像、前向运动相对位姿、后向运动相对位姿和图像对应深度,输入图像视觉重建模型V,得到扭曲图像;
S5,计算扭曲图像与S2中的连续图像间的重建误差,计算深度估计结果的平滑误差,计算孪生一致性误差;
S6,通过重建误差、平滑误差和孪生一致性误差求和得到损失函数,进行反向传播,进行迭代更新,直到损失函数收敛;
S7,进行预测,利用位姿网络模型Tnet和深度网络模型DNet,分别前向传播,计算出相机相对位姿和预测深度图
2.根据权利要求1所述的无监督位姿与深度计算方法,其特征在于,所述步骤S5中扭曲图像与S2中的连续图像间重建误差的计算公式为:
Lreprojection=α*Lphotometric+(1-α)*Lssim
其中,Lphotometric为光度误差,Lssim为图像间相似性,α是权重系数。
3.根据权利要求2所述的无监督位姿与深度计算方法,其特征在于,所述Lphotometric为:
其中,It是连续图像,Is是扭曲图像,L为连续图像图像数减1。
4.根据权利要求2所述的无监督位姿与深度计算方法,其特征在于,所述Lssim为:
其中,It是连续图像,Is是扭曲图像。
5.根据权利要求1所述的无监督位姿与深度计算方法,其特征在于,所述步骤S6中孪生一致性误差为:
其中,其中I为单位矩阵,L为连续图像图像数减1,T为位姿变换矩阵。
6.根据权利要求5所述的无监督位姿与深度计算方法,其特征在于,所述步骤S6中损失函数为:
LTotal=LReconstruction+β*LSmooth+γ*LTwin
其中,Lreconstruction为,Lsoooth为深度估计结果的平滑误差,β和γ为权重系数。
7.根据权利要求1所述的无监督位姿与深度计算方法,其特征在于,所述步骤S6中损失函数利用Adam优化方法进行训练。
8.一种无监督位姿与深度计算的系统,其特征在于,包括位姿网络模TNet、深度网络模块DNet、图像视觉重建模块V和损失函数模块;位姿网络模块TNet进行位姿估计,深度网络模块DNet进行深度估计,图像视觉重建模块V进行图像投影,位姿网络模块TNet和深度网络模块DNet通过损失函数模块约束。
9.根据权利要求8所述的无监督位姿与深度计算的系统,其特征在于,所述模块TNet包含编码器和孪生模块,编码器包含卷积层和激活函数,孪生模块包含相同结构的位姿预测模块,位姿预测模块包含ConvLstm和卷积层;模块DNet包含编码器和解码器,编码器包含卷积层和Dwise,解码器包含反卷积层、卷积层和Dwise。

说明书全文

一种无监督位姿与深度计算方法及系统

技术领域

[0001] 本发明属于SLAM(Simultaneous Localization And Mapping)和SfM(Structure from Motion)领域,特别是一种无监督位姿与深度计算方法及系统。

背景技术

[0002] 近年来,基于深度学习方法的单目稠密深度估计和视觉里程计VO(Visual Odometry)的算法发展迅速,它们也是SfM和SLAM系统的关键模。已有研究表明,基于监督深度学习的VO和深度估计在许多具有挑战性的环境中都取得了良好的性能,并缓解了尺度漂移等性能下降问题。然而,在实际应用中要训练这些监督模型,获得足够的具有真实标记的数据是困难和昂贵的。相比之下,无监督的方法拥有只需要无标签的视频序列的巨大优势。
[0003] 深度和姿态估计的深度无监督模型通常采用两个模块,其中一个模块预测深度图,另一个模块估计相机相对位姿。再使用估计的深度图和姿态将图像从源图像投影变换到目标图像后,利用光度误差损失作为优化目标,以端到端方式训练这些模型。然而现有的技术很少考虑到如下关键问题:VO的时序性,并且忽略了无人驾驶数据集只有单一运动方向的缺点,模型只能处理单方向的运动,没有利用前向后向的运动约束。现有模型没有考虑模型的复杂性,参数量大,很难适用于VO的实际应用场景。

发明内容

[0004] 本发明的工作原理为:利用Twin位姿网络模型,利用ConvLSTM学习数据的时序信息,同时改进深度估计网络,提出DispMNet(Disparity Mobile Net),使位姿和深度估计精度均达到较高的平。
[0005] 为了解决上述问题,本发明提出一种无监督绝对尺度计算方法及系统。
[0006] 本发明所采用的技术方案是:
[0007] 一种无监督位姿与深度计算方法,包含位姿网络模型TNet、深度网络模型DNet、图像视觉重建模型V和损失函数,包括以下步骤:
[0008] S1,预备单目视频数据集;
[0009] S2,从步骤S1中的单目视频数据集中抽取连续图像,将相邻图像依次输入位姿网络模型TNet,得到图像间共同的特征F,特征F输入位姿网络模型TNet,分别得到前向运动相对位姿和后向运动相对位姿;
[0010] S3,将步骤S2中的连续图像输入深度网络模型DNet,通过前向传播得到图像的深度估计结果和图像对应深度;
[0011] S4,将S2中的连续图像、前向运动相对位姿、后向运动相对位姿和图像对应深度,输入图像视觉重建模型V,得到扭曲图像;
[0012] S5,计算扭曲图像与S2中的连续图像间的重建误差,计算深度估计结果的平滑误差,计算孪生一致性误差;
[0013] S6,通过重建误差、平滑误差和孪生一致性误差求和得到损失函数,进行反向传播,进行迭代更新,直到损失函数收敛;
[0014] S7,进行预测,利用位姿网络模型Tnet和深度网络模型DNet,分别前向传播,计算出相机相对位姿和预测深度图。
[0015] 采用全新的孪生模块,同时处理视频序列的前向和后向运动,同时在反转一致性约束下,利用时序一致性误差项,约束前向后向的运动,极大提高位姿估计准确性;采用基于MobileNet结构的DispMNet模型,减少了37%的参数量,同时提高了模型的深度估计准确率。
[0016] 进一步的,所述步骤S5中扭曲图像与S2中的连续图像间重建误差Lreprojection的计算公式为:
[0017] Lreprojection=α*Lphotometric+(1-α)*Lssim
[0018] 其中,Lphotometric为光度误差,Lssim为图像间相似性,α是权重系数。
[0019] 进一步的,所述Lphotometric为:
[0020]
[0021] 其中,It是连续图像,Is是扭曲图像,L为连续图像图像数减1。
[0022] 进一步的,所述Lssim为:
[0023]
[0024] 其中,It是连续图像,Is是扭曲图像。
[0025] 进一步的,所述步骤S6中孪生一致性误差Ltwin为:
[0026]
[0027] 其中,I为单位矩阵,L为连续图像图像数减1,T为相对位姿。
[0028] 进一步的,所述步骤S6中损失函数为:
[0029] LTotal=Lreprojection+β*LSmooth+γ*LTwin
[0030] 其中,Lreprojection为重建误差,Lsoooth为深度估计结果的平滑误差,β和γ为权重系数。
[0031] 进一步的,所述步骤S6中损失函数利用Adam优化方法进行训练。
[0032] 一种无监督位姿与深度计算的系统,包括位姿网络模块TNet、深度网络模块DNet、图像视觉重建模块V和损失函数模块;位姿网络模块TNet进行位姿估计,深度网络模块DNet进行深度估计,图像视觉重建模块V进行图像投影,位姿网络模块TNet和深度网络模块DNet通过损失函数模块约束。
[0033] 优选的,所述模块TNet包含编码器和孪生模块,编码器包含卷积层和激活函数,孪生模块包含相同结构的位姿预测模块,位姿预测模块包含ConvLstm和卷积层;模块DNet包含编码器和解码器,编码器包含卷积层和Dwise,解码器包含反卷积层、卷积层和Dwise。
[0034] 本发明同现有技术相比具有以下优点及效果:
[0035] 1、提出了一种新颖的用于单目视觉和深度估计的无监督框架,该框架的位姿网络模型采用利用ConvLSTM学习数据的时序信息,提高位姿估计准确性能。
[0036] 2、位姿网络采用全新的孪生模块,同时处理视频序列的前向和后向运动,同时在反转一致性约束下,利用时序一致性误差项,约束前向后向的运动,极大提高位姿估计准确性。
[0037] 3、提出基于MobileNet结构的DispMNet模型,减少了37%的参数量,同时提高了模型的深度估计准确率。附图说明
[0038] 构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
[0039] 图1为本发明总体流程图
[0040] 图2为本发明模型TNet结构图;
[0041] 图3为本发明模型DMNet结构图;
[0042] 图4为本发明深度图结果与Groundtruth算法、SfmLearner算法的对比;
[0043] 图5为本发明位姿估计结果和其他算法的对比结果;
[0044] 图6为本发明深度估计结果和其他算法的对比结果。

具体实施方式

[0045] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0046] 实施例1:
[0047] 如图1-6所示,一种无监督位姿与深度计算方法,其中主要采用以下模块:位姿预测网络模型TNet、深度估计网络模型DMNet、视觉重建模型V和误差损失函数模块。TNet模型包含编码器和孪生模块,其中编码器包含7层卷积层,每一层卷积层之后都连接激活函数,卷积核大小分别为7、5、3、3、3、3、3;孪生模块包含两个结构相同的子网络模块,分别用于处理前向或后向运动时的位姿预测,每个子模块由ConvLstm层以及卷积核大小为1的卷积层Conv构成。DMNet包含编码器、解码器、连接层三部分,其中编码器由7层卷积模块组成,每一个卷积模块具体包含:卷积层(卷积核大小1x1,Relu(激活函数)),Dwise(3x3,Relu),卷积层(1x1,Relu),Dwise(3x3,Relu),卷积层(1x1,Relu);解码器包含6层反卷积模块,每一个反卷积模块具体包含:反卷积层(卷积核大小3x3,Relu),卷积层(1x1,Relu),Dwise(3x3,Relu),卷积层(1x1,Relu);连接层用于将网络浅层特征传递到后端解码器,与后端特征进行级联。
[0048] 步骤1,准确好单目视频序列,例如KITTI无人驾驶数据集、EuRoc数据集、TUM数据集、Oxford数据集。
[0049] 步骤2,每次取固定长度的视频片段V,按序将相邻两帧输入位姿网络,例如视频片段V的长度为5帧,将其中相邻两帧(t0和t1,t1和t2,t2和t3,t3和t4)输入网络,可以得到4组两帧共同的特征F1、F2、F3、F4。4个特征组分别独立的经过TNet模块的两个位姿预测模块,可以指定任一子模块作前向位姿预测,另一子模块则用作后向位姿预测,对于前向模块,特征按F1到F4的顺序,可以得到前向运动的两帧相对位姿预测结果:T0-1,T1-2,T2-3,T3-4对于后向模块,特征按F4到F1的顺序,得到后向运动的相对位姿,T4-3,T3-2,T2-1,T1-0;
[0050] 例如视频片段V的长度为3帧,将其中相邻两帧(t0和t1,t1和t2)输入网络,可以得到2组两帧共同的特征F1、F2。2个特征组分别独立的经过TNet模块的两个位姿预测模块,对于前向模块,特征按F1到F2的顺序,可以得到前向运动的两帧相对位姿预测结果:T0-1,T1-2,对于后向模块,特征按F2到F1的顺序,得到后向运动的相对位姿,T2-1,T1-0。
[0051] 步骤3,对于上述的视频片段V,每一帧Ii(i=0,1,2…)单独输入深度估计网络,通过网络前向传播计算得到单帧的深度估计结果,每张图像对应深度Di(i=0,1,2…)。例如视频片段V的长度为5帧,则i=0,1,2,3,4。
[0052] 步骤4,利用上述图像片段V,结合两两帧之间的相对位姿Tn-m,Tm-n(n=0,1,2…;m=i+1)和每一帧的深度Di,采用公式1经过视觉重建模块得到扭曲图像I’,其中I’包含前向和后向扭曲图像。例如视频片段V的长度为5帧,则n=0,1,2,3,m=1,2,3,4。
[0053]
[0054] 其中,其中Pt是像素坐标,K是相机内参,Dt是预测深度图,Tt→s是预测位姿。
[0055] 步骤5,将图像片段V中I图像与上述步骤4中得到的扭曲图像I’之间进行逐像素对比,采用公式2计算图像片段V中I图像与上述步骤3中得到的扭曲图像I’之间的重建误差,[0056] Lreprojection=α*Lphotometric+(1-α)*Lssim    (2)
[0057] 其中,Lphotometric为光度误差,采用公式3计算;Lssim为图像间相似性,采用公式4计算;α是权重系数,取值范围为0-1,例如取值0.85;
[0058]
[0059]
[0060] 其中,It是连续图像,Is是扭曲图像,L为连续图像图像数减1(即L=i-1),例如视频片段V的长度为5帧,则L=4;
[0061] 计算预测深度图的平滑误差;
[0062] 采用公式5计算孪生一致性误差,
[0063]
[0064] 其中,I为单位矩阵,L为连续图像图像数减1(即L=i-1),T为位姿变换矩阵,Tn-m*Tm-n=I(n=0,1,2…;m=i+1)。例如视频片段V的长度为5帧,则n=0,1,2,3,m=1,2,3,4,L=4。
[0065] 步骤6,采用公式6对步骤5中得到的重建误差、平滑误差、孪生一致性误差求和得到最终的损失函数。
[0066] LTotal=Lreprojection+β*LSmooth+γ*LTwin    (6)
[0067] 其中,Lreprojection为步骤5中的计算出的重建误差,Lsoooth为深度估计结果的平滑误差,β和γ为权重系数,β和γ取值范围为0-1,例如β取值0.85,γ取值0.5。
[0068] 再利用Adam优化方法反向传播,对本框架中所有模块中的参数值进行迭代更新,直到损失函数收敛,本方法的训练阶段完成。
[0069] 步骤7,测试阶段,准备好测试数据集,对于位姿估计任务,输入一对源图像,利用步骤1至步骤6训练好的TNet网络,前向传播计算出两帧之间的相机相对位姿,得到预测结果。对于深度估计任务,输入单帧图像到训练好的DMNet模块,通过网络前向传播,计算得到预测深度图。
[0070] 如图5所示,将本算法位姿估计结果和其他算法的对比,从视频序列09-10的结果显示,本算法的结果最准确;如图6所示,将本算法深度估计结果和其他算法的对比,从error metric误差度量指标和accuracy metric准确率度量指标来看,本算法的abs rel绝对差、sq rel平方差、RMSE均方差、log R对数均方差最小以及准确率最高。
[0071] 以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈