首页 / 专利库 / 电脑图像 / 渲染 / 视觉渲染 / 一种基于深度学习的低纹理工业零件位姿估计方法

一种基于深度学习的低纹理工业零件位姿估计方法

阅读:769发布:2020-05-13

专利汇可以提供一种基于深度学习的低纹理工业零件位姿估计方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于 深度学习 的低纹理工业零件 位姿 估计方法,涉及 计算机视觉 技术领域,所述方法包括以下步骤:首先对所需位姿估计的工业零件进行 三维建模 ,构造物理仿真环境,并在所述仿真环境中生成所述工业零件处于不同位姿的数据集;其次对所述数据集进行实例分割和裁剪;最后建立基于深度学习的位姿估计子网络和位姿细化子网络,以得到低纹理工业零件的位姿。本发明通过对工业零件进行三维建模,建立基于深度学习的位姿估计子网络和位姿细化子网络,分别以RGB图和 深度图 、原始点 云 和用初始位姿 渲染 得到的新的点云作为输入,极大程度地提高了对于低纹理、具有反光表面的工业零件的识别效果,对工业散乱零件的抓取具有重要的应用价值。,下面是一种基于深度学习的低纹理工业零件位姿估计方法专利的具体信息内容。

1.一种基于深度学习的低纹理工业零件位姿估计方法,其特征在于,所述方法包括以下步骤:
步骤1、对所需位姿估计的工业零件进行三维建模,构造物理仿真环境,并在所述仿真环境中生成所述工业零件处于不同位姿的数据集;
步骤2、对所述数据集进行实例分割和裁剪;
步骤3、建立基于深度学习的位姿估计子网络和位姿细化子网络,以得到低纹理工业零件的位姿。
2.如权利要求1所述的基于深度学习的低纹理工业零件位姿估计方法,其特征在于,所述步骤1中的三维建模是基于UV映射技术,即将所述工业零件的表面以二维贴图的方式映射到三维模型的表面。
3.如权利要求1所述的基于深度学习的低纹理工业零件位姿估计方法,其特征在于,所述步骤1中的物理仿真环境是通过物理引擎与图形引擎相结合实现对真实场景的模拟。
4.如权利要求1所述的基于深度学习的低纹理工业零件位姿估计方法,其特征在于,所述步骤1中的数据集包括RGB图、深度图、所述工业零件的类别、所述工业零件的包围框、所述工业零件的mask。
5.如权利要求1所述的基于深度学习的低纹理工业零件位姿估计方法,其特征在于,所述步骤2中需对裁剪后的RGB图和深度图进行特征提取;所述RGB图和深度图的特征图尺寸为64×H×W;根据所述特征图预测初始位姿,所用的损失函数为:
其中,N为特征点个数,[R|t]为真实位姿, 为预测得到的位姿,xi为模型上的三维点坐标。
6.如权利要求1和4所述的基于深度学习的低纹理工业零件位姿估计方法,其特征在于,所述步骤3中的位姿估计子网络以所述RGB图和所述深度图作为输入;所述RGB图为包含单个工业零件的最小包围框区域内的RGB图像;所述深度图为包含单个工业零件的最小包围框区域内的深度图像
7.如权利要求1和5所述的基于深度学习的低纹理工业零件位姿估计方法,其特征在于,所述步骤3中的位姿细化子网络以原始点和用所述初始位姿渲染得到的新的点云作为输入。
8.如权利要求7所述的基于深度学习的低纹理工业零件位姿估计方法,其特征在于,所述原始点云是由所述深度图上单个工业零件的mask区域计算得到,记为P0,计算公式为:
其中,(xw,yw,zw)为相机坐标系下特征点的坐标,(u,v)为像素坐标系下特征点的坐标,zc为特征点的深度值,u0,v0,dx,dy,f为相机的内参。
9.如权利要求7所述的基于深度学习的低纹理工业零件位姿估计方法,其特征在于,所述新的点云是通过计算初始位姿集合中的最优位姿,记为[R0|t0],将模型重建进行投影渲染,得到在所述最优位姿[R0|t0]下的深度图并计算在所述位姿下新的点云,记为P1。
10.如权利要求1和7所述的基于深度学习的低纹理工业零件位姿估计方法,其特征在于,所述步骤3中的位姿细化子网络为通过多次迭代细化,直至得到满足精度要求的位姿,迭代公式为:
其中,为最终的位姿,M为迭代的次数, 为第i+1次迭代预测的位姿;
损失函数为:
其中,N为特征点个数,[R|t]为真实位姿, 为当前迭代得到的最终位姿,xi为模型上的三维点坐标。

说明书全文

一种基于深度学习的低纹理工业零件位姿估计方法

技术领域

[0001] 本发明涉及计算机视觉技术领域,尤其涉及一种基于深度学习的低纹理工业零件位姿估计方法。

背景技术

[0002] 计算机视觉技术在机器人非结构化场景感知中占据重要的地位。视觉图像是获取真实世界信息的有效手段,通过视觉感知算法提取对应任务的特征,如物体位置度、姿态等信息,从而使机器人能够执行对应操作,完成指定作业任务。对于工业机器人分拣而言,目前已经能够利用视觉传感器获取场景数据,但如何从场景中识别目标物体,并估计其位置和姿态,从而计算工业机器人的抓取位置和抓取路径则成为核心问题。
[0003] 近几年,随着深度学习技术的快速发展,基于深度学习的位姿估计技术已经成为位姿估计领域的主流算法。但现有的基于深度学习的主流位姿估计算法大都依赖于物体表面的颜色、纹理等信息,对于工业上低纹理、具有反光表面的零件识别效果较差,对实现高效的零件自动化分拣产生一定的阻碍。
[0004] 因此,本领域的技术人员致于开发一种基于深度学习的低纹理工业零件位姿估计方法,通过物理引擎与图形引擎相结合的方式对真实场景进行模拟,应用UV映射技术对工业零件进行三维建模,建立基于深度学习的位姿估计子网络和位姿细化子网络,构建相应的数据集通过不断迭代得到物体位姿估计算法,以提高机器人对于散乱零件场景的分拣能力。

发明内容

[0005] 有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是克服现有位姿估计算法大都依赖于物体表面的颜色、纹理等信息而导致对于低纹理、具有反光表面的零件识别效果较差的问题。
[0006] 为实现上述目的,本发明提供了一种基于深度学习的低纹理工业零件位姿估计方法,其特征在于,所述方法包括以下步骤:
[0007] 步骤1、对所需位姿估计的工业零件进行三维建模,构造物理仿真环境,并在所述仿真环境中生成所述工业零件处于不同位姿的数据集;
[0008] 步骤2、对所述数据集进行实例分割和裁剪;
[0009] 步骤3、建立基于深度学习的位姿估计子网络和位姿细化子网络,以得到低纹理工业零件的位姿。
[0010] 进一步地,所述步骤1中的三维建模是基于UV映射技术,即将所述工业零件的表面以二维贴图的方式映射到三维模型的表面。
[0011] 进一步地,所述步骤1中的物理仿真环境是通过物理引擎与图形引擎相结合实现对真实场景的模拟。
[0012] 进一步地,所述步骤1中的数据集包括RGB图、深度图、所述工业零件的类别、所述工业零件的包围框、所述工业零件的mask。
[0013] 进一步地,所述步骤2中需对裁剪后的RGB图和深度图进行特征提取;所述RGB图和深度图的特征图尺寸为64×H×W;根据所述特征图预测初始位姿,所用的损失函数为:
[0014]
[0015] 其中,N为特征点个数,[R|t]为真实位姿, 为预测得到的位姿,xi为模型上的三维点坐标。
[0016] 进一步地,所述步骤3中的位姿估计子网络以所述RGB图和所述深度图作为输入;所述RGB图为包含单个工业零件的最小包围框区域内的RGB图像;所述深度图为包含单个工业零件的最小包围框区域内的深度图像
[0017] 进一步地,所述步骤3中的位姿细化子网络以原始点和用所述初始位姿渲染得到的新的点云作为输入。
[0018] 进一步地,所述原始点云是由所述深度图上单个工业零件的mask区域计算得到,记为P0,计算公式为:
[0019]
[0020] 其中,(xw,yw,zw)为相机坐标系下特征点的坐标,(u,v)为像素坐标系下特征点的坐标,zc为特征点的深度值,u0,v0,dx,dy,f为相机的内参。
[0021] 进一步地,所述新的点云是通过计算初始位姿集合中的最优位姿,记为[R0|t0],将模型重建进行投影渲染,得到在所述最优位姿[R0|t0]下的深度图并计算在所述位姿下新的点云,记为P1。
[0022] 进一步地,所述步骤3中的位姿细化子网络为通过多次迭代细化,直至得到满足精度要求的位姿,迭代公式为:
[0023]
[0024] 其中,为最终的位姿,M为迭代的次数, 为第i+1次迭代预测的位姿;
[0025] 损失函数为:
[0026]
[0027] 其中,N为特征点个数,[R|t]为真实位姿, 为当前迭代得到的最终位姿,xi为模型上的三维点坐标。
[0028] 与现有技术相比,通过本发明的实施,至少具有以下有益的技术效果:
[0029] 本发明提供的一种基于深度学习的低纹理工业零件位姿估计方法,通过对工业零件进行三维建模,建立基于深度学习的位姿估计子网络和位姿细化子网络,分别以RGB图和深度图、原始点云和用初始位姿渲染得到的新的点云作为输入,极大程度地提高了对于低纹理、具有反光表面的工业零件的识别效果,对工业散乱零件的抓取具有重要的应用价值。
[0030] 以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。

附图说明

[0031] 图1是本发明的一个较佳实施例提供的一种基于深度学习的低纹理工业零件位姿估计方法的流程图
[0032] 图2是本发明的一个较佳实施例提供的物理仿真构建数据集的流程图;
[0033] 图3是本发明的一个较佳实施例提供的贴图前后的零件模型和仿真结果图;
[0034] 图4是本发明的一个较佳实施例提供的位姿估计子网络的流程图;
[0035] 图5是本发明的一个较佳实施例提供的位姿估计子网络的结构图;
[0036] 图6是本发明的一个较佳实施例提供的位姿细化子网络的流程图;
[0037] 图7是本发明的一个较佳实施例提供的位姿细化子网络的结构图;
[0038] 图8是本发明的一个较佳实施例提供的位姿估计过程结果图;
[0039] 图9是本发明的一个较佳实施例提供的位姿估计最终结果图。

具体实施方式

[0040] 以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
[0041] 在附图中,结构相同的部件以相同数字标号表示,各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的,本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰,附图中有些地方适当夸大了部件的厚度。
[0042] 如图1所示,为本发明的一个较佳实施例提供的一种基于深度学习的低纹理工业零件位姿估计方法的流程图,所述方法包括以下步骤:
[0043] 步骤1、对所需位姿估计的工业零件进行三维建模,构造物理仿真环境,并在所述仿真环境中生成所述工业零件处于不同位姿的数据集;
[0044] 在对工业零件进行三维建模时,如图2所示,通过物理引擎与图形引擎相结合的方式,实现对真实场景的模拟,进一步通过光照纹理等属性,使渲染结果贴近真实场景;物理引擎能够赋予场景中刚性物体真实的物理属性,包括质量和碰撞属性,配合基于网格的快速碰撞检测算法,使场景具备与真实环境相同的物理属性;
[0045] 为了使工业零件和建模环境贴近真实世界,本发明应用UV映射技术,将工业零件的表面以二维贴图的方式映射到三维模型的表面;将三维网格模型以一种合理的方式展开,三维网格模型的表面被平铺到二维平面上,这个二维空间即被称为UV纹理空间,它提供了一种物体表面与纹理图像之间的映射关系,通过将预设好的纹理图像放置于UV纹理空间中,便可确定纹理图像上的每个像素对应模型表面的位置;
[0046] 在上述物理仿真环境中,通过自由跌落的方式生成工业零件处于不同位姿的数据集,包括RGB图、深度图、所述工业零件的类别、所述工业零件的包围框、所述工业零件的mask。
[0047] 步骤2、对所述数据集进行实例分割和裁剪;
[0048] 为了获取图像中单个零件的包围框和mask,利用已有算法对相机所拍摄的图像进行实例分割,根据实例分割的结果对RGB图和深度图进行裁剪,将裁剪的结果输入到位姿估计子网络:首先,分别对裁剪后的RGB图和深度图进行特征提取,原始的RGB图尺寸为3×H×W,原始的深度图尺寸为1×H×W,其中H和W分别表示裁剪后图像的高度和宽度;其次,经过特征提取后,特征图的尺寸均为32×H×W,对两个特征图进行拼接得到尺寸为64×H×W的特征图;最后,通过若干个全连接层,针对每个特征点预测一个初始位姿,所用损失函数定义如下:
[0049]
[0050] 其中,N为特征点个数,[R|t]为真实位姿, 为预测得到的位姿,xi为模型上的三维点坐标。
[0051] 步骤3、建立基于深度学习的位姿估计子网络和位姿细化子网络,以得到低纹理工业零件的位姿;
[0052] 针对工业零件低纹理的特性,本发明提出位姿估计子网络和位姿细化子网络,其中,位姿估计子网络以RGB图和深度图作为输入,RGB图为包含单个工业零件的最小包围框区域内的RGB图像,深度图为包含单个工业零件的最小包围框区域内的深度图像;位姿细化子网络以原始点云和用初始位姿渲染得到的新的点云作为输入;
[0053] 对于位姿估计子网络,将裁剪后的结果输入到其中:首先分别对裁剪后的RGB图和深度图进行特征提取,经过特征提取后,得到尺寸为64×H×W的特征图,最后通过若干个全连接层,针对每个特征点预测一个初始位姿;
[0054] 对于位姿细化子网络,原始点云是由深度图上单个工业零件的mask区域计算得到,记为P0,计算公式为:
[0055]
[0056] 其中,(xw,yw,zw)为相机坐标系下特征点的坐标,(u,v)为像素坐标系下特征点的坐标,zc为特征点的深度值,u0,v0,dx,dy,f为相机的内参;
[0057] 位姿估计子网络为每个特征点预测了一个初始位姿,通过位姿聚类算法,计算得到初始位姿集合中的最优位姿,记为[R0|t0],将模型重建进行投影渲染,得到在所述最优位姿[R0|t0]下的深度图并计算在所述位姿下新的点云,记为P1;位姿细化子网络以原始点云P0和渲染得到的新的点云P1作为输入,预测得到更加精确的位姿,重新以当前位姿渲染得到新的点云P2,再和原始位姿P0输入到位姿细化子网络中,通过多次迭代细化,直至得到满足精度要求的位姿,迭代公式为:
[0058]
[0059] 其中,为最终的位姿,M为迭代的次数, 为第i+1次迭代预测的位姿;
[0060] 损失函数为:
[0061]
[0062] 其中,N为特征点个数,[R|t]为真实位姿, 为当前迭代得到的最终位姿,xi为模型上的三维点坐标。
[0063] 实施例
[0064] 本实施例中,整个深度学习方法所实施的软件平台主要包括物理仿真引擎Blender和深度学习框架Pytorch,电脑硬件配置为NVIDIA GeForce GTX 1080TI显卡。
[0065] 步骤1、如图1和图2所示,对所需位姿估计的工业零件进行三维建模,通过物理引擎与图形引擎相结合的方式构造物理仿真环境,应用UV映射技术,将工业零件的表面以二维贴图的方式映射到三维模型的表面,并在所述仿真环境中生成所述工业零件处于不同位姿的数据集,具体包括RGB图、深度图、每个工业零件的类别、包围框以及零件的mask,通过物理仿真生成约1000张图片,每个工业零件大约有3000个实例,具体生成过程如下:首先,随机初始化当前场景的零件个数和零件类型,根据零件的个数和类型,选择相应的零件模型初始化位姿,位置随机范围设置在场景堆叠区域上方,通过均匀分布的若干个位置点叠加随机偏移生成,以保证两者有一定的距离偏差,位姿以欧拉角表示,为0°-360°角范围内的任意值;其次,通过物理仿真模型,计算在重力作用下零件下落形成的堆叠场景;最后,在指定范围内随机放置光源,并调整光源亮度,确定对应的相机位姿,从而构成一次样本的渲染配置。图3示出了贴图前后的零件三维模型以及生成的RGB图和深度图;
[0066] 步骤2、如图4和图5所示,分别为本实施例所提供的位姿估计子网络的流程图和结构图,利用已有算法对相机所拍摄的图像进行实例分割,根据实例分割的结果对RGB图和深度图进行裁剪,将裁剪的结果输入到位姿估计子网络:首先,分别对裁剪后的RGB图和深度图进行特征提取,原始的RGB图尺寸为3×H×W,原始的深度图尺寸为1×H×W,其中H和W分别表示裁剪后图像的高度和宽度;其次,经过特征提取后,特征图的尺寸均为32×H×W,对两个特征图进行拼接得到尺寸为64×H×W的特征图;最后,通过若干个全连接层,针对每个特征点预测一个初始位姿;
[0067] 步骤3、位姿估计子网络为每个特征点预测了一个初始位姿,通过位姿聚类算法,计算得到初始位姿集合中的最优位姿,记为[R0|t0],将模型重建进行投影渲染,得到在所述最优位姿[R0|t0]下的深度图并计算在所述位姿下新的点云,记为P1;如图6和图7所示,分别为本实施例所提供的位姿细化子网络的流程图和结构图,位姿细化子网络以原始点云P0和渲染得到的新的点云P1作为输入,预测得到更加精确的位姿,重新以当前位姿渲染得到新的点云P2,再和原始位姿P0输入到位姿细化子网络中,通过多次迭代细化,直至得到满足精度要求的位姿;图8示出了本实施例的位姿估计算法的过程结果,第一列是采集得到的场景图片,第二列是将单个三维模型根据位姿估计子网络预测的位姿进行重新投影得到的图像,第三列是将单个三维模型根据位姿细化子网络预测的位姿进行重新投影得到的图像,第四列是第二列、第三列投影的模型的轮廓显示在一张图像上;图9示出了本实施例的位姿估计算法的最终结果,第一行是采集得到的场景图片,第二行是将三维模型根据估计的位姿进行重新投影得到的图像。在本实施例中,根据预测得到的位姿,将三维模型重新投影到图像上,同时分别将位姿估计和位姿细化两个阶段的位姿投影的模型的轮廓显示在图像上,表明位姿细化子网络可以提高最终的位姿精度。
[0068] 以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈