首页 / 专利库 / 门,大门和窗户 / 框架 / 基于元学习的室内场景重建方法

基于元学习的室内场景重建方法

阅读:799发布:2021-04-11

专利汇可以提供基于元学习的室内场景重建方法专利检索,专利查询,专利分析的服务。并且本 发明 属于 计算机视觉 技术领域,提供了一种基于元学习的室内场景重建方法。本方法利用元学习的meta-critic多任务联合学习的思想,从多个相关联的源任务中学习二维到三维的内在知识,作为目标任务的先验知识,以此为监督,训练目标任务的网络模型,达到更快更好地学习到从视频中重建出三维点 云 模型的方式方法;本方法的技术 框架 主要由两部分构成,分别为(1)源任务的多任务联合训练模型和(2)由预训练meta-critic模型为监督的目标任务模型。本发明使用的Meta-Critic思想也使源任务的训练中规避了不同任务需要使用不同的损失函数的劣势,该网络可以在学习模拟损失函数的同时共享不同任务之间的知识信息。,下面是基于元学习的室内场景重建方法专利的具体信息内容。

1.一种基于元学习的室内场景重建方法,其特征在于,步骤如下:
建模框架的目标任务的输入为视频,即连续序列的RGB图片,通过meta-critic网络输出三维点模型;源任务为元学习的多任务学习模式,包含相机位姿预测及深度图预测两个源任务,两个源任务的输入均为彩色视频序列,输出分别为相机位姿序列及深度图序列;
本方法利用元学习的meta-critic多任务联合学习的思想,从多个相关联的源任务中学习二维到三维的内在知识,作为目标任务的先验知识,以此为监督,训练目标任务的网络模型,达到更快更好地学习到从视频中重建出三维点云模型的方式方法;本方法的技术框架主要由两部分构成,分别为(1)源任务的多任务联合训练模型和(2)由预训练meta-critic模型为监督的目标任务模型;具体描述如下:
(1)多任务联合训练模型
源任务包括两个任务网络模型:一个是相机位姿预测网络,命名为CameraActor,另一个为深度图预测网络,命名为DepthActor;
深度图预测网络由带有跳连接的多尺度预测输出的编码器解码器组成,编码器和解码器分别包含7层卷积或反卷积层,编码器卷积层的前两层卷积核分别为7×7,5×5,其余卷积层卷积核均为3×3,每个卷积后带有一个ReLU激活层,输出深度图尺寸与输入视频序列尺寸相同;
相机位姿预测网络由7个步长为2的卷积组成,每个卷积后带有一个1×1的卷积,输出通道为6:3个平移和3个旋转角,用来表示相机位姿,最后应用一个平均池化层聚合在所有空间位置上的相机位姿预测值;
多任务联合训练模型通过一个Meta-Critic网络实现;Meta-Critic网络包含两个模,分别为Meta-Value Net模块和Task-Actor Encoder模块;TAEN的输入为DepthActor和CameraActor的输入序列、预测的相机位姿及深度图序列、预测序列与真值之间的差值,其作用为将这些有效的信息编码为一个特征向量z;具体来说,将TAEN定义为一个LSTM的循环神经网络,最后带有一个全连接层,将LSTM最后一个时序的分布式特征映射为特征向量z;
MVN的输入为DepthActor和CameraActor的输入序列、预测的相机位姿及深度图序列、TAEN的特征向量z,其作用为判定预测器Actor的准确度,并以此为监督通过神经网络学习的方式在训练过程中不断调整两个源任务的Actor以及Meta-Critic网络的参数,提高Meta-Critic网络的学习能
Meta-Critic网格的优化目标表示为:
其中,x为输入值,为预测值,z为TAEN编码的特征向量,r为输入与真值的差值,θ、和ω分别为任务预测器、MVN、TAEN的网络参数,由公式1和公式2看出,对每一个任务M,任务预测器Actor会在训练过程中学会学习最大化价值函数,使得预测结果更精确;
(2)目标任务模型
目标任务是从视频中对三维场景进行点云模型重建;目标任务模型包含点云预测模块及Meta-Critic模块两部分,Meta-Critic模块与多任务联合训练模型相同;点云预测模块输入为连续的彩色视频序列,输出为三维点云,网络构建基于标准LSTM和GRU模块,利用GRU模块保留上一个序列的有效特征,用于微调基于之前序列的特征而重建的场景点云,使场景点云包含更多的局部及全局细节特征;场景点云重建模型采用VGG结构,使用全卷积网络,卷积层均采用3×3卷积,带有ReLU非线性激活层,通过不断的下采样回归出三维的点云模型;
(3)数据集采集
多任务联合训练模型中,数据集采用开源数据集7Scenes,包含不同场景的彩色视频序列;
目标任务模型,即场景点云重建模型任务中,在SUNCG数据集提供的大型场景模型中,人工选取不同视角、不同的室内场景进行了数据采集,共计275组视频序列,每个视频序列包含20-25,每帧包含彩色图、深度图及其相机位姿的真值;
(4)实验过程
实验过程共分为三个阶段,多任务联合训练阶段、目标任务训练阶段以及目标任务测试阶段;多任务联合训练阶段在7Scenes数据集上进行训练,每次训练过程中送入多张连续图片作为多任务的预测器Actor的采样输入,输出预测的深度图及相机位姿结果与原输入一起送入Meta-Critic网络中进行监督训练,在不断的迭代训练中优化网络参数模型,直至模型收敛;目标任务训练阶段对7Scene数据集和从SUNCG中采集的数据集结合进行训练,在这一阶段,由多任务联合训练的模型的Meta-Critic网络的参数保持不变,对场景点云重建模型预测器Actor进行训练,优化场景点云重建模型;在目标任务测试阶段,仅使用在目标任务训练阶段优化的场景点云重建模型,输入连续视频序列,输出三维场景点云。

说明书全文

基于元学习的室内场景重建方法

技术领域

[0001] 本发明属于计算机视觉技术领域,尤其涉及基于元学习的三维场景重建技术,针对相机拍摄的室内的局部场景视频,重建较高精确度的三维场景点表示的场景模型。

背景技术

[0002] 在我们生活的三维的世界中,人类的感知到的一切都占据了物理空间的一部分。同样的,三维场景理解也是很重要的一部分,因为它是真实场景的一种映射。三维场景重建作为计算机视觉和图形学领域中的重要研究方向之一,在机器人导航、自动驾驶、场景理解等方面有着广泛的应用前景。然而,由于三维表示法带来的维数诅咒和标注数据集的有限性,近几十年来三维场景重建的研究进展缓慢。随着深度学习的复兴和近年来一些大规模数据集的出现,三维形状处理的研究活动在计算机视觉领域再次蓬勃发展,为三维场景重建注入了新的可能性和目标,同时也带来了一些新的挑战。
[0003] 传统的三维重建方法通常利用手工制作的特征,如体素和TSDF来表示三维场景形状,并利用图形模型分别推断场景占据网格和语义标签信息。在深度学习方面,目前最先进的技术SSCNet,使用端到端三维网络同时完成场景重建和语义标注的任务。通过深度神经网络学习将语义信息和几何信息隐式地结合起来,使两个独立的任务能够相互受益。
[0004] 虽然在场景补全和标注精度上取得了显著的提高,但3D体素表示带来了大量的参数,需要耗费大量的计算。此外,现有SSC存在的另一个问题是低分辨率表示,特别是由于计算资源的限制,传统的和基于深度学习的方法都牺牲了高分辨率,从而取得可接受的计算速度。另一方面,大多数现有的方法只使用深度作为输入,很难将一些对象中的各种类别区分开来。例如,一张纸和一桌布放在一张桌子上。显然,它们可以很容易地通过颜色或纹理信息来区分。总之,深度和彩色图像是传感器捕捉到的不同模式,它们都为我们提供了场景的样子。前者给我们更多的关于物体形状和距离感觉,而后者传递更多关于物体纹理和显著性的信息。有实验证明,这两种模式都有助于提高三维场景重建任务的性能,但如何将两者融合仍是一个有待解决的问题。
[0005] 针对以上存在的问题,也有一些尝试性的解决方案。SATNet利用人类的感知方式,从低层次的二维视觉信息学习到高维的线索信息,提出了一个解耦合融合自然图和深度图框架,将三维场景重建分为两个子任务,即二维语义分割和三维语义场景补全,两个子任务通过2D到3D的重投影层连接。这种融合方式更具灵活性,扩展性也更强。DDRSSC引入了一个轻量级的维度分解残差网络框架,同时利用深度和RGB信息,将三维场景的补全和标注作为一个联合任务。具体来讲,在三维普通卷积升级为分解网络3D DDR减少网络中大量的参数,同时,采用多尺度融合,使用级联的DDR减少计算成本,级联的DDR模块也可以同时捕获低层特征和高层次特征,增强了网络的表示能,有利于语义场景完成任务的性能。
[0006] 结合了深度图和彩色图,三维场景的重建效果均有一定的增强,但是仍然存在以下问题:
[0007] 第一,由于三维体素表示在深度卷积时需要的计算成本问题,其低分辨率问题仍然存在;第二,以上方法重建均采用三维监督的方式,即其优化在于网络训练时重建场景的体素和真实场景的体素的交并比损失,这个比较的前提是场景的三维体素模型准确建立,但是对于大量的真实世界的场景而言,其三维体素模型是难以获取的,其模型的建立需要大量的人力物力;第三,在2D图片到3D场景的映射中均需要相机的位姿信息来实现二维坐标到三维世界坐标的转变,这也反映了其训练过程的局限性。本发明主要关注于这些问题,对三维场景重建的方法提出一个基于元学习的设想方案,使其更利于三维室内场景的重建。

发明内容

[0008] 本发明针对解决三维场景重建的分辨率低、真实场景模型获取难度大的问题。目前的基于深度学习的场景重建方法,采用三维体素表示,场景模型分辨率低,导致场景的一些轮廓纹理细节不够精细;基于数据驱动的深度学习训练方式,需要大量带有相机标定的二维图片及对应的三维模型,这些数据获取难度大,导致实验结果对训练数据的依赖性较大。这些问题对于机器人导航等应用有很大的障碍。为了解决这些问题,本发明将场景模型重建任务视为目标任务,对场景重建中需要的相机标定、深度图预测任务视为源任务,利用元学习的一种meta-critic思想,发挥元学习的从多任务中学会学习这种思想的优势,从源任务中学习视频与三维表示的一种内在经验知识,从而训练目标任务的神经网络,学习到三维场景的点云表示模型,三维点的稀疏稠密度表示重建场景的精细度。
[0009] 本发明的技术方案:
[0010] 基于元学习的室内场景重建方法,步骤如下:
[0011] 建模框架的目标任务的输入为视频,即连续序列的RGB图片,通过meta-critic网络输出三维点云模型;源任务为元学习的多任务学习模式,包含相机位姿预测及深度图预测两个源任务,两个源任务的输入均为彩色视频序列,输出分别为相机位姿序列及深度图序列;本方法利用元学习的meta-critic多任务联合学习的思想,从多个相关联的源任务中学习二维到三维的内在知识,作为目标任务的先验知识,以此为监督,训练目标任务的网络模型,达到更快更好地学习到从视频中重建出三维点云模型的方式方法;本方法的技术框架主要由两部分构成,分别为(1)源任务的多任务联合训练模型和(2)由预训练meta-critic模型为监督的目标任务模型;具体描述如下:
[0012] (1)多任务联合训练模型
[0013] 源任务包括两个任务网络模型:一个是相机位姿预测网络,命名为CameraActor,另一个为深度图预测网络,命名为DepthActor;
[0014] 深度图预测网络由带有跳连接的多尺度预测输出的编码器解码器组成,编码器和解码器分别包含7层卷积或反卷积层,编码器卷积层的前两层卷积核分别为7×7,5×5,其余卷积层卷积核均为3×3,每个卷积后带有一个ReLU激活层,输出深度图尺寸与输入视频序列尺寸相同;
[0015] 相机位姿预测网络由7个步长为2的卷积组成,每个卷积后带有一个1×1的卷积,输出通道为6:3个平移和3个旋转角,用来表示相机位姿,最后应用一个平均池化层聚合在所有空间位置上的相机位姿预测值;
[0016] 多任务联合训练模型通过一个Meta-Critic网络实现;Meta-Critic网络包含两个模块,分别为Meta-Value Net(MVN)模块和Task-Actor Encoder(TAEN)模块;TAEN的输入为DepthActor和CameraActor的输入序列、预测的相机位姿及深度图序列、预测序列与真值之间的差值,其作用为将这些有效的信息编码为一个特征向量z;具体来说,将TAEN定义为一个LSTM的循环神经网络,最后带有一个全连接层,将LSTM最后一个时序的分布式特征映射为特征向量z;MVN的输入为DepthActor和CameraActor的输入序列、预测的相机位姿及深度图序列、TAEN的特征向量z,其作用为判定预测器Actor的准确度,并以此为监督通过神经网络学习的方式在训练过程中不断调整两个源任务的Actor以及Meta-Critic网络的参数,提高Meta-Critic网络的学习能力;
[0017] Meta-Critic网格的优化目标表示为:
[0018]
[0019]
[0020] 其中,x为输入值,为预测值,z为TAEN编码的特征向量,r为输入与真值的差值,θ、和ω分别为任务预测器、MVN、TAEN的网络参数,由公式1和公式2看出,对每一个任务M,任务预测器Actor会在训练过程中学会学习最大化价值函数,使得预测结果更精确,相比于传统监督学习的最小化一个固定的损失函数,更具有普适性;同时对每个任务,Meta-Critic网络会学习模拟实际的监督学习损失函数,对单任务问题,这样无疑增大了工作量,但是对本专利的多任务联合训练来说,却可以共享任务交叉的一些先验知识。
[0021] (2)目标任务模型
[0022] 目标任务是从视频中对三维场景进行点云模型重建;目标任务模型包含点云预测模块及Meta-Critic模块两部分,Meta-Critic模块与多任务联合训练模型相同;点云预测模块输入为连续的彩色视频序列,输出为三维点云,网络构建基于标准LSTM和GRU模块,利用GRU模块保留上一个序列的有效特征,用于微调基于之前序列的特征而重建的场景点云,使场景点云包含更多的局部及全局细节特征;场景点云重建模型采用VGG结构,使用全卷积网络,卷积层均采用3×3卷积,带有ReLU非线性激活层,通过不断的下采样回归出三维的点云模型;
[0023] (3)数据集采集
[0024] 多任务联合训练模型中,数据集采用开源数据集7Scenes,包含不同场景的彩色视频序列;
[0025] 目标任务模型,即场景点云重建模型任务中,在SUNCG数据集提供的大型场景模型中,人工选取不同视角、不同的室内场景进行了数据采集,共计275组视频序列,每个视频序列包含20-25,每帧包含彩色图、深度图及其相机位姿的真值;
[0026] (4)实验过程
[0027] 实验过程共分为三个阶段,多任务联合训练阶段、目标任务训练阶段以及目标任务测试阶段。多任务联合训练阶段在7Scenes数据集上进行训练,每次训练过程中送入多张连续图片作为多任务的预测器Actor的采样输入,输出预测的深度图及相机位姿结果与原输入一起送入Meta-Critic网络中进行监督训练,在不断的迭代训练中优化网络参数模型,直至模型收敛;目标任务训练阶段对7Scene数据集和从SUNCG中采集的数据集结合进行训练,在这一阶段,由多任务联合训练的模型的Meta-Critic网络的参数保持不变,对场景点云重建模型预测器Actor进行训练,优化场景点云重建模型;在目标任务测试阶段,仅使用在目标任务训练阶段优化的场景点云重建模型,输入连续视频序列,输出三维场景点云。
[0028] 本发明的有益效果:
[0029] (1)本发明提出了一种基于元学习的三维场景重建模型,该模型具有较强的扩展性,随着源任务的增多,联合训练时获取的有益信息增多,源任务的关联性为目标任务的学习提供了有益的先验知识信息,使得目标任务可以在较少的训练迭代后取得较好的预期结果。
[0030] (2)本发明使用的Meta-Critic思想也使源任务的训练中规避了不同任务需要使用不同的损失函数的劣势,该网络可以在学习模拟损失函数的同时共享不同任务之间的知识信息。附图说明
[0031] 图1为技术框架第一阶段多任务联合训练网络架构图。输入为连续的彩色视频序列,Actor包含两个源任务,分别为相机位姿预测网络及深度图预测网络,用于从视频序列中预测相机位姿及其深度图,预测结果作为TAEN网络的输入,将多任务进行联合,在Meta-Critic思想的监督下学习二维与三维空间之间的隐含先验知识,优化网络参数模型。
[0032] 图2为技术框架第二阶段目标任务网络架构图。输入为连续的彩色视频序列,保持第一阶段已训练结束的Meta-Critic模型的参数不变,对场景点云预测网络进行优化训练。
[0033] 图3为技术框架第三阶段场景点云重建流程图,将连续的彩色视频序列作为预训练好的场景点云预测模型中,得到最终的视频序列对应的三维点云模型。

具体实施方式

[0034] 以下结合附图和技术方案,进一步说明本发明的具体实施方式。
[0035] 实施例
[0036] (一)网络训练
[0037] 第一阶段:首先随机初始化不同Actor以及Meta-Critic的网络参数,在循环迭代训练中,每一次迭代,对不同任务随机采样连续的三张视频序列,送入Actor预测器及Meta-Critic网络中,在Meta-Critic参数不变时对不同任务的Actor进行迭代训练,一次Actor迭代训练结束后保持Actor参数不变对TAEN及MVN网络进行训练。
[0038] 第二阶段:首先随机初始化场景点云预测网络参数,载入第一阶段的Meta-Critic的训练参数,并保持其参数在整个训练过程中不变,之后循环迭代训练场景点云预测网络,每次迭代训练,随机采样连续的三张视频序列,送入Actor中,以Meta-Critic模拟损失函数为监督,训练优化点云预测模型。
[0039] 在网络训练时,本发明使用的是Ubuntu操作系统服务器,配备Intel(R)Xeon(R)CPU E5-2650 V4的2.2GHz的CPU处理器,系统内存为128GB,使用英伟达Titan X显卡,显存为12GB。代码的编写使用Python3编程语言,在pyTorch深度学习框架下进行实验模型的训练及测试。
[0040] (二)测试与应用
[0041] 本发明针对三维场景点云重建问题。从连续的视频序列中重建模型,不需要额外的相机标定信息及场景模型真值的三维监督。由于本发明提出的监督方式受人类学会学习过程的启发,其监督效果一定程度上受限于多任务联合训练的Meta-Critic模型。
[0042] 在测试和应用时,首先准备好连续的室内场景视频序列,修改代码中的文件路径、训练好的模型路径参数,之后执行第三阶段的测试代码,代码运行结束后可以使用MeshLab软件在output文件夹中查看三维点云的视觉结果。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈