首页 / 专利库 / 人工智能 / 人工神经网络 / 前馈神经网络 / 多层感知器 / 一种基于混合特征感知神经网络进行3D目标检测的方法

一种基于混合特征感知神经网络进行3D目标检测的方法

阅读:154发布:2020-05-15

专利汇可以提供一种基于混合特征感知神经网络进行3D目标检测的方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于混合特征 感知 神经网络进行3D目标检测的方法,对于3D目标检测物,首先通过MCG 算法 对RGB图进行预处理得到目标检测物的2D候选区,将2D候选区初始化得到3D候选区,然后将初始化3D候选区后的 颜色 图和 深度图 送入由分类任务损失函数和 位置 比例损失函数组成的双通道混合特征感知的特征提取模 块 分别获取物体表面特征和几何特征信息,最后将两者信息融合完成3D目检测任务,采用了混合特征感知的策略,在不同的维度上提取感兴趣物体的特征,使提取出的特征包含的维度更多也更具分辨性,能够得到准确的目标检测物的3D真实位置。,下面是一种基于混合特征感知神经网络进行3D目标检测的方法专利的具体信息内容。

1.一种基于混合特征感知神经网络进行3D目标检测的方法,其特征在于,包括以下步骤:
步骤1)、获取目标检测物的RGB图和RGB图相对应的深度图
步骤2)、采用MCG算法对RGB图进行预处理,得到目标检测物的2D候选区;
步骤3)、从RGB图中的目标检测物的2D候选区初始化得到一个目标检测物的3D候选区,根据2D候选区域对应的类别联合与RGB图对应的深度图初始化3D候选区的中心点的位置和目标检测物的尺寸大小;
步骤4)、建立分类任务损失函数和位置比例损失函数的神经网络模型,将初始化3D候选区后的RGB图和RGB图相对应的深度图输入到神经网络模型中,神经网络模型输出结果即为目标检测物的真实位置。
2.根据权利要求1所述的一种基于混合特征感知神经网络进行3D目标检测的方法,其特征在于,步骤3)中,目标检测物在世界坐标系中的坐标为 其
中,[xcam,ycam,zcam]是目标检测物在相机坐标系下的中心,[l,w,h]是目标检测物在倾斜坐标系下的3D尺寸,是目标检测物在倾斜坐标系中方向向量与z轴的夹;倾斜坐标系是通过将相机坐标系中点的方向与重方向一致转换得来的,倾斜坐标系没有对相机坐标系做任何的y轴旋转。
3.根据权利要求2所述的一种基于混合特征感知神经网络进行3D目标检测的方法,其特征在于,相机坐标系与倾斜坐标系之间的转换关系如公式(1)所示,倾斜坐标系与世界坐标系之间的转换矩阵由公式(2)得到:
XYZtilt=Rtilt*XYZcam    (1)
Rtilt=Rx*Rz                     (2)
其中,Rtilt是倾斜坐标系与世界坐标系之间的转换矩阵,Rx和Rz分别是x轴和z轴的旋转矩阵。
4.根据权利要求1所述的一种基于混合特征感知神经网络进行3D目标检测的方法,其特征在于,根据2D候选区域对应的类别联合与RGB图对应的深度图初始化3D候选区域的中心点的位置和尺寸大小,对于每一个3D的候选区域的尺寸大小,通过与尺寸大小相对应类别的平均尺寸初始化。
5.根据权利要求4所述的一种基于混合特征感知神经网络进行3D目标检测的方法,其特征在于,对于目标检测物在3D候选区的中心点位置进行初始化得到初始化坐标(xinit,yinit,zinit),其中zinit通过zmed初始化得到,xinit和yinit通过公式(3)计算得到;对于3D候选区域,初始化 为0;
其中,zmed对应的是2D候选区映射到3D候选区的中值深度;f是获取RGB图相机的焦距,(cx,cy)是2D候选区的中心坐标,(ox,oy)是获取RGB图相机的中心点坐标。
6.根据权利要求1所述的一种基于混合特征感知神经网络进行3D目标检测的方法,其特征在于,步骤4)中,将RGB图输入神经网络模型理前,通过卷积和池化对输入的RGB图进行降维和特征预处理。
7.根据权利要求1所述的一种基于混合特征感知神经网络进行3D目标检测的方法,其特征在于,利用混合感知模对降维和特征预处理后的RGB图提取特征,其中混合感知模块是一个相同尺度大小的多层特征感知器;每一层特征感知器都是卷积、池化和激活函数的一个组合。
8.根据权利要求7所述的一种基于混合特征感知神经网络进行3D目标检测的方法,其特征在于,建立目标检测物的神经网络模型,神经网络模型的整体损失函数为:
其中,Lcls是分类任务损失函数,即交叉熵损失函数,用于对目标检测物进行分类:
Lreg为位置比例损失函数,用于目标检测物的位置检测,λ为平衡分类损失和位置损失的一个超参数。
9.根据权利要求8所述的一种基于混合特征感知神经网络进行3D目标检测的方法,其特征在于,位置比例损失函数具体如公式(4)所示:
c i
其中,1={0,1};当3D候选区域不是目标检测物的真实区域时,取0;反之,取1;β是第i个输出变量的权重;SL1是smoothL1函数,Δbi为网络预测的偏差, 为真实偏差。
10.根据权利要求8所述的一种基于混合特征感知神经网络进行3D目标检测的方法,其特征在于,神经网络的超参数包括学习率、正则化参数、神经网络的层数、每一层的神经元个数、学习的回合数、小批量数据的大小、输出神经元的编码方式、代价函数的选择、权重的初始化方法、神经元的激活函数和参加训练模型数据的规模。

说明书全文

一种基于混合特征感知神经网络进行3D目标检测的方法

技术领域

[0001] 本发明涉及计算机视觉的目标检测领域,具体涉及一种基于混合特征感知神经网络进行3D目标检测的方法。

背景技术

[0002] 目标检测计算机视觉研究领域的一个基础问题,它的任务就是给出感兴趣物体在图像中的位置信息和类别信息。传统的做法是用一个2维的矩形框在图像中标定物体,目前针对2D的目标检测技术已经较为成熟。
[0003] 但是在一些应用场景中,我们不仅仅需要目标的表面信息。它的深度信息也是我们比较关注的一个方向。比如无人驾驶汽车,移动机器人等都需要对物体在物理世界的详细位置信息。这时,目标的3D检测就显得尤为重要。但就目前来看,3D目标检测的研究还不够成熟,主要体现在算法不成熟以及处理对象过于单调。比如目标检测数据具有物体遮挡,光线变化,以及空间物体密集,局部特征不明显,类间样本不均衡等特点,现有的3D目标检测算法不能很好的解决此问题。

发明内容

[0004] 本发明的目的在于提供一种基于混合特征感知神经网络进行3D目标检测的方法,以克服现有技术的不足,进一步提高3D目标检测的准确率。
[0005] 为达到上述目的,本发明采用如下技术方案:
[0006] 一种基于混合特征感知神经网络进行3D目标检测的方法,包括以下步骤:
[0007] 步骤1)、获取目标检测物的RGB图和RGB图相对应的深度图
[0008] 步骤2)、采用MCG算法对RGB图进行预处理,得到目标检测物的2D候选区;
[0009] 步骤3)、从RGB图中的目标检测物的2D候选区初始化得到一个目标检测物的3D候选区,根据2D候选区域对应的类别联合与RGB图对应的深度图初始化3D候选区的中心点的位置和目标检测物的尺寸大小;
[0010] 步骤4)、建立分类任务损失函数和位置比例损失函数的神经网络模型,将初始化3D候选区后的RGB图和RGB图相对应的深度图输入到神经网络模型中,神经网络模型输出结果即为目标检测物的真实位置。
[0011] 进一 步的 ,步骤 3) 中 ,目 标 检 测物在 世界 坐标 系中 的 坐标 为其中,xcam,ycam,zcam]是目标检测物在相机坐标系下的中心,[l,w,h]是目标检测物在倾斜坐标系下的3D尺寸, 是目标检测物在倾斜坐标系中方向向量与z轴的夹;倾斜坐标系是通过将相机坐标系中点的方向与重方向一致转换得来的,倾斜坐标系没有对相机坐标系做任何的y轴旋转。
[0012] 进一步的,相机坐标系与倾斜坐标系之间的转换关系如公式(1)所示,倾斜坐标系与世界坐标系之间的转换矩阵由公式(2)得到:
[0013] XYZtilt=Rtilt*XYZcam    (1)
[0014] Rtilt=Rx*Rz   (2)
[0015] 其中,Rtilt是倾斜坐标系与世界坐标系之间的转换矩阵,Rx和Rz分别是x轴和z轴的旋转矩阵。
[0016] 进一步的,根据2D候选区域对应的类别联合与RGB图对应的深度图初始化3D候选区域的中心点的位置和尺寸大小,对于每一个3D的候选区域的尺寸大小,通过与尺寸大小相对应类别的平均尺寸初始化。
[0017] 进一步的,对于目标检测物在3D候选区的中心点位置进行初始化得到初始化坐标(xinit,yinit,zinit),其中zinit通过zmed初始化得到,xinit和yinit通过公式(3)计算得到;对于3D候选区域,初始化 为0;
[0018]
[0019] 其中,zmed对应的是2D候选区映射到3D候选区的中值深度;f是获取RGB图相机的焦距,(cx,cy)是2D候选区的中心坐标,(ox,oy)是获取RGB图相机的中心点坐标。
[0020] 进一步的,步骤4)中,将RGB图输入神经网络模型理前,通过卷积和池化对输入的RGB图进行降维和特征预处理。
[0021] 进一步的,利用混合感知模对降维和特征预处理后的RGB图提取特征,其中混合感知模块是一个相同尺度大小的多层特征感知器;每一层特征感知器都是卷积、池化和激活函数的一个组合。
[0022] 进一步的,建立目标检测物的神经网络模型,神经网络模型的整体损失函数为:
[0023]
[0024] 其中,Lcls是分类任务损失函数,即交叉熵损失函数,用于对目标检测物进行分类:
[0025] Lreg为位置比例损失函数,用于目标检测物的位置检测,λ为平衡分类损失和位置损失的一个超参数。
[0026] 进一步的,位置比例损失函数具体如公式(4)所示:
[0027]
[0028]
[0029] 其中,1c={0,1};当3D候选区域不是目标检测物的真实区域时,取0;反之,取1;βi是第i个输出变量的权重;SL1是smoothL1函数,Δbi为网络预测的偏差, 为真实偏差。
[0030] 进一步的,神经网络的超参数包括学习率、正则化参数、神经网络的层数、每一层的神经元个数、学习的回合数、小批量数据的大小、输出神经元的编码方式、代价函数的选择、权重的初始化方法、神经元的激活函数和参加训练模型数据的规模。
[0031] 与现有技术相比,本发明具有以下有益的技术效果:
[0032] 本发明一种基于混合特征感知神经网络进行3D目标检测的方法,对于3D目标检测物,首先通过MCG算法对RGB图进行预处理得到目标检测物的2D候选区,将2D候选区初始化得到3D候选区,然后将初始化3D候选区后的颜色图和深度图送入由分类任务损失函数和位置比例损失函数组成的双通道混合特征感知的特征提取模块分别获取物体表面特征和几何特征信息,最后将两者信息融合完成3D目检测任务,采用了混合特征感知的策略,在不同的维度上提取感兴趣物体的特征,使提取出的特征包含的维度更多也更具分辨性,能够得到准确的目标检测物的3D真实位置。
[0033] 进一步的,利用位置比例损失函数提高目标检测物位置计算的准确度。附图说明
[0034] 图1为本发明估计算法的流程图
[0035] 图2为3D候选区生成示意图。
[0036] 图3为可视化测试结果图。

具体实施方式

[0037] 下面结合附图对本发明做进一步详细描述:
[0038] 如图1所示,一种基于混合特征感知神经网络进行3D目标检测的方法,将颜色图和深度图送入双通道混合特征感知的特征提取模块分别获取物体表面特征和几何特征信息,最后将两者信息融合完成3D目检测任务。
[0039] 具体包括以下步骤:
[0040] 步骤1)、获取目标检测物的RGB图和RGB图相对应的深度图;
[0041] 步骤2)、采用MCG算法对RGB图进行预处理,得到目标检测物的2D候选区;
[0042] 步骤3)、从RGB图中的目标检测物的2D候选区初始化得到一个目标检测物的3D候选区,根据2D候选区域对应的类别联合与RGB图对应的深度图初始化3D候选区的中心点的位置和目标检测物的尺寸大小;
[0043] 步骤4)、建立分类任务损失函数和位置比例损失函数的神经网络模型,将初始化3D候选区后的RGB图和RGB图相对应的深度图输入到神经网络模型中,神经网络模型输出结果即为目标检测物的真实位置。
[0044] 如图2所示,步骤3)中,目标检测物的世界坐标系为 其中,[xcam,ycam,zcam]是目标检测物在相机坐标系下的中心,[l,w,h]是目标检测物在倾斜坐标系下的3D尺寸, 是目标检测物在倾斜坐标系中方向向量与z轴的夹角。
[0045] 其中,倾斜坐标系是通过将相机坐标系中点云的方向与重力方向一致转换得来的,倾斜坐标系没有对相机坐标系做任何的y轴旋转;
[0046] 相机坐标系与倾斜坐标系之间的转换关系如公式(1)所示,倾斜坐标系与世界坐标系之间的转换矩阵由公式(2)得到:
[0047] XYZtilt=Rtilt*XYZcam    (1)
[0048] Rtilt=Rx*Rz    (2)
[0049] 其中,Rtilt是倾斜坐标系与世界坐标系之间的转换矩阵,Rx和Rz分别是x轴和z轴的旋转矩阵。
[0050] 根据2D候选区域对应的类别联合与RGB图对应的深度图初始化3D候选区域的中心点的位置和尺寸大小,对于每一个3D的候选区域的尺寸大小,通过与尺寸大小相对应类别的平均尺寸初始化。
[0051] 对于目标检测物在3D候选区的中心点位置进行初始化得到初始化坐标(xinit,yinit,zinit),其中zinit通过zmed初始化得到,xinit和yinit通过公式(3)计算得到;对于3D候选区域,初始化 为0;
[0052]
[0053] 其中,zmed对应的是2D候选区映射到3D候选区的中值深度;f是获取RGB图相机的焦距,(cx,cy)是2D候选区的中心坐标,(ox,oy)是获取RGB图相机的中心点坐标。
[0054] 步骤4)中,将RGB图输入神经网络模型理前,通过卷积和池化对输入的RGB图进行降维和特征预处理。
[0055] 利用混合感知模块对降维和特征预处理后的RGB图提取特征,
[0056] 其中混合感知模块是一个相同尺度大小的多层特征感知器;每一层特征感知器都是卷积、池化和激活函数的一个组合。混合特征感知模块包括conv5、conv6和conv7。具体的,分别将conv5_3、conv6_2和conv7_2作为特征提取层,它们都是大小为7x7的特征图,特征图的通道数分别是512,256,256,这些特征图数经过ROIPooling之后,串联在一起形成最终的图像特征
[0057] 建立目标检测物的神经网络模型,神经网络模型的整体损失函数为:
[0058]
[0059] 其中,Lcls是分类任务损失函数,即交叉熵损失函数,用于对目标检测物进行分类,即获取物体表面特征,如公式(8)所示;
[0060] Lreg为位置比例损失函数,用于目标检测物的位置检测,即获取物体的几何特征信息,λ为平衡分类损失和位置损失的一个超参数:
[0061]
[0062] 位置比例损失函数具体如公式(4)所示:
[0063]
[0064] 其中,1c={0,1};当3D候选区域不是目标检测物的真实区域时,取0;反之,取1;βi是第i个输出变量的权重;SL1是smoothL1函数,Δbi为网络预测的偏差, 为真实偏差。
[0065]
[0066] 神经网络的超参数包括学习率、正则化参数、神经网络的层数、每一层的神经元个数、学习的回合数、小批量数据的大小、输出神经元的编码方式、代价函数的选择、权重的初始化方法、神经元的激活函数和参加训练模型数据的规模;超参数根据经验值设置,对超参数进行初始化,具体如表1所示:
[0067] 表1超参数初始化
[0068]
[0069]
[0070] 对本申请的申请网络模型进行训练,通过迭代二十次输出一次训练结果,每30000次改变一次学习率,通过迭代2000次保存一次模型结果。在训练完模型之后,通过训练好的模型对测试图片进行预测和验证。我们对预测出来的结果进行了NMS处理,然后用处理之后的结果与真实值进行比较和分析,具体测试结果如图3所示,目标检测物的3D结果检测精度高,检测准确。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈