首页 / 专利库 / 专利权 / 发明 / 一种基于Faster rcnn的多模态行人检测模型及方法

一种基于Faster rcnn的多模态行人检测模型及方法

阅读:333发布:2021-01-21

专利汇可以提供一种基于Faster rcnn的多模态行人检测模型及方法专利检索,专利查询,专利分析的服务。并且一种基于Faster rcnn的多模态行人检测模型及方法,包括输入数据对齐处理和并行特征提取网络,将并行特征提取网络得到的结果通过后续的RPN网络和分类网络进行处理,从而进行类别分类和 位置 回归。本 发明 有效判别行人在视频或者图片中的位置,同时避免人与人遮挡时出现的虚检问题和物体遮挡人体时漏检的问题。,下面是一种基于Faster rcnn的多模态行人检测模型及方法专利的具体信息内容。

1.一种基于Faster rcnn的多模态行人检测模型,其特征在于,包括输入数据对齐处理和并行特征提取网络,将并行特征提取网络得到的结果通过后续的RPN网络和分类网络进行处理,从而进行类别分类和位置回归;其中输入数据对齐处理采用张正友摄像机标定的方法,对深度相机进行标定,将深度图转化到彩色图图像坐标系中,然后截取彩色图和深度图中重叠的部分,分别进行保存,得到了一组对齐的彩色图和深度图,在进行不同模态的特征图合并的时候,同一位置的彩色图特征和深度图特征才能合并在一起,共同发挥作用,并行特征提取网络是用两个独立的卷积神经网络分别提取彩色图数据和深度图数据的特征,作为后续两种模态特征融合的基础
2.一种基于Faster rcnn的多模态行人检测方法,其特征在于,包括以下步骤;
一、输入数据对齐处理:
二、并行特征提取网络:
三:将并行特征提取网络得到的结果通过后续的RPN网络和分类网络进行处理,从而进行类别分类和位置回归。
3.根据权利要求2所述的一种基于Faster rcnn的多模态行人检测方法,其特征在于,所述的输入数据对齐处理具体为:
步骤一:采用利用微软2代Kinect深度传感器采集,共包含现实生活中的5个场景,包含了多种人体姿态
步骤二:采用张正友摄像机标定的方法,对深度相机进行标定,将深度图转化到彩色图图像坐标系中,然后截取彩色图和深度图中重叠的部分,分别进行保存,得到了一组对齐的彩色图和深度图;
步骤三:将深度图采用Jet色图编码后得到深度图和彩色图图像坐标系中的截取的彩色图送入行人检测模型中。
4.根据权利要求2所述的一种基于Faster rcnn的多模态行人检测方法,其特征在于,所述的并行特征提取网络具体为:
步骤一:对输入的彩色图和深度图用不同的特征提取网络提取深层特征信息得到特征图;
步骤二:对上一步得到的特征图进行L2归一化处理;
假设并行输入的原始输入图片为(IRGB IDepth),经过卷积神经网络进行特征提取之后,得到一组并行的特征图(fRGB,fDepth),假设特征图(fRGB,fDepth)中某一通道特征图为f,且该特征图分辨率为r×c,则经过L2归一化后的特征图uf为:
其中:
在对两组特征图分别进行L2归一化后,这两组特征图的数值大小将被缩放到同一尺度上,共同对最终的检测结果起到作用;
步骤三:针对归一化特征图 中每一个通道的特征图 设计一个尺
度参数γi,对该通道特征图进行一定比例的放大,经过尺度参数放大后的特征图Fi为:
将并行特征提取网络得到的结果通过后续的RPN网络和分类网络进行处理,从而进行类别分类和位置回归。
5.根据权利要求4所述的一种基于Faster rcnn的多模态行人检测方法,其特征在于,所述的后续的RPN网络和分类网络与Faster Rcnn网络一致。

说明书全文

一种基于Faster rcnn的多模态行人检测模型及方法

技术领域

[0001] 本发明涉及行人检测模型技术领域,特别涉及一种基于Fasterrcnn的多模态行人检测模型及方法。

背景技术

[0002] 人体检测是计算机视觉领域最具有应用价值的研究方向之一,也是其中的一个重点和难点问题。人体检测问题是指在视频或者图片中判断是否存在人体,如果判断有人体则还需要输出人体所在的位置。人体检测在无人驾驶、智能安防、以及家庭服务机器人领域具有重要的实际应用价值,同时是人体行为步态分析,人体身份识别和行人跟踪等众多应用的前提和基础。早期的人体检测任务通常都是基于彩色图进行的,而随着深度学习方法的不断发展,彩色图所包含的信息利用率已经接近饱和。由于彩色图易受光照变化等先天缺陷,单纯使用彩色图进行人体检测已经没有多少潜
[0003] 深度图蕴含着外界环境的深度信息,进而表征着物体的几何形状信息,同时深度图还具有良好的光照不变性,这些性质均是彩色图所不具备的。正是由于这些原因,基于RGB-D多模态数据进行人体检测的研究在计算机视觉和机器人等学科中越来越活跃。
[0004] 现有的行人检测算法大多数为仅以RGB图像作为输入的单输入网络,容易受RGB图像亮度对比度和图像模糊的影响;同时模型对遮挡的行人所能提取的整体特征判别度不高。

发明内容

[0005] 为了克服上述现有技术的不足,本发明的目的在于提供一种基于Faster rcnn的多模态行人检测模型及方法,有效判别行人在视频或者图片中的位置,同时避免人与人遮挡时出现的虚检问题和物体遮挡人体时漏检的问题。
[0006] 为了实现上述目的,本发明采用的技术方案是:
[0007] 一种基于Faster rcnn的多模态行人检测模型,包括输入数据对齐处理和并行特征提取网络,将并行特征提取网络得到的结果通过后续的RPN网络和分类网络进行处理,从而进行类别分类和位置回归;其中输入数据对齐处理采用张正友摄像机标定的方法,对深度相机进行标定,将深度图转化到彩色图图像坐标系中,然后截取彩色图和深度图中重叠的部分,分别进行保存,得到了一组对齐的彩色图和深度图,在进行不同模态的特征图合并的时候,同一位置的彩色图特征和深度图特征才能合并在一起,共同发挥作用,并行特征提取网络是用两个独立的卷积神经网络分别提取彩色图数据和深度图数据的特征,作为后续两种模态特征融合的基础。
[0008] 一种基于Faster rcnn的多模态行人检测方法,包括以下步骤;
[0009] 一、输入数据对齐处理:
[0010] 二、并行特征提取网络:
[0011] 三:将并行特征提取网络得到的结果通过后续的RPN网络和分类网络进行处理,从而进行类别分类和位置回归。
[0012] 所述的输入数据对齐处理具体为:
[0013] 步骤一:采用利用微软2代Kinect深度传感器采集,共包含现实生活中的5个场景,包含了多种人体姿态
[0014] 步骤二:采用张正友摄像机标定的方法,对深度相机进行标定,将深度图转化到彩色图图像坐标系中,然后截取彩色图和深度图中重叠的部分,分别进行保存,得到了一组对齐的彩色图和深度图;
[0015] 步骤三:将深度图采用Jet色图编码后得到深度图和彩色图图像坐标系中的截取的彩色图送入行人检测模型中。
[0016] 所述的并行特征提取网络具体为:
[0017] 步骤一:对输入的彩色图和深度图用不同的特征提取网络提取深层特征信息得到特征图;
[0018] 步骤二:对上一步得到的特征图进行L2归一化处理;
[0019] 假设并行输入的原始输入图片为(IRGB IDepth),经过卷积神经网络进行特征提取之后,得到一组并行的特征图(fRGB,fDepth),假设特征图(fRGB,fDepth)中某一通道特征图为f,且该特征图分辨率为r×c,则经过L2归一化后的特征图uf为:
[0020]
[0021] 其中:
[0022]
[0023] 在对两组特征图分别进行L2归一化后,这两组特征图的数值大小将被缩放到同一尺度上,共同对最终的检测结果起到作用;
[0024] 步骤三:针对归一化特征图 中每一个通道的特征图 设计一个尺度参数γi,对该通道特征图进行一定比例的放大,经过尺度参数放大后的特征图Fi为:
[0025]
[0026] 将并行特征提取网络得到的结果通过后续的RPN网络和分类网络进行处理,从而进行类别分类和位置回归。
[0027] 所述的后续的RPN网络和分类网络与Faster Rcnn网络一致。
[0028] IRGB表示RGB输入图像,IDepth表示深度图输入图像。fRGB表示经过特征提取层输出的RGB特征图。fDepth表示经过特征提取层输出的深度图特征图。 表示对应RGB图像和深度图归一化特征图。γi对应第i个特征图上的尺度参数。Fi表示第i个经过尺度参数放大后的特征图。
[0029] 本发明的有益效果:
[0030] 本申请引入了深度图的信息作为行人检测的辅助信息,可以有效地克服RGB图像对于光照及行人遮挡敏感的问题,提高了行人检测网络的性能;引入特征分算法,有效提高行人在遮挡情况下的局部判别性。附图说明
[0031] 图1是整体技术流程图
[0032] 图2为操作流程示意图。
[0033] 图3为实验室拍摄示意图。
[0034] 图4为会议室拍摄示意图。
[0035] 图5为办公室拍摄示意图。
[0036] 图6为走廊拍摄示意图。
[0037] 图7为大厅拍摄示意图。
[0038] 图8为验证时误检示意图。
[0039] 图9为验证时误检提升示意图。
[0040] 图10为未并行的检测结果示意图。
[0041] 图11为并行的检测结果示意图。

具体实施方式

[0042] 下面结合附图对本发明作进一步详细说明。
[0043] 如图1图2所示:
[0044] 输入的数据包括RGB数据和对应对齐的深度图数据,通过特征提取网络分别提取对应数据的特征图,由于RGB特征图整体的特征值取值范围比深度图大好多,所以需要对两组特征图分别做归一化处理,使两组特征图的特征值分布在同一取值范围,对行人检测起到相当的作用,同时深度图的特征数据包含有遮挡行人彼此的深度信息,可以更好的检测出被遮挡的行人。
[0045] 利用彩色图和深度图数据作为行人检测模型的输入数据,以目标检测模型Faster RCNN作为基础检测框架,设计了并行特征提取网络来整合多模态输入数据,引入了深度信息以此提高网络对遮挡行人的检测能力。
[0046] 如图2所示:
[0047] 一、输入数据对齐处理:
[0048] 步骤一:采用张正友摄像机标定的方法,对深度相机进行标定,将深度图转化到彩色图图像坐标系中,然后截取彩色图和深度图中重叠的部分,分别进行保存,得到了一组对齐的彩色图和深度图;
[0049] 步骤二:将深度图采用Jet色图编码后得等到深度图和原始的彩色图片送入行人检测模型中;
[0050] 二、并行特征提取网络:
[0051] 步骤一:对输入的彩色图和深度图用不同的特征提取网络提取深层特征信息;
[0052] 步骤二:对上一步得到的特征图进行L2归一化处理;
[0053] 假设并行输入的原始输入图片为(IRGB IDepth),经过卷积神经网络进行特征提取之后,得到一组特征图(fRGB,fDepth),这些特征图往往都是多通道的,本文以单一通道特征图为单位分别对所有通道的特征图进行操作,假设特征图(fRGB,fDepth)中某一通道特征图为f,且该特征图分辨率为r×c,则经过L2归一化后的特征图uf为:
[0054]
[0055] 其中:
[0056]
[0057] 在对两组特征图分别进行L2归一化后,这两组特征图的数值大小将被缩放到同一尺度上,共同对最终的检测结果起到作用;
[0058] 步骤三:针对归一化特征图 中每一个通道的特征图 设计一个尺度参数γi,对该通道特征图进行一定比例的放大,经过尺度参数放大后的特征图Fi为:
[0059]
[0060] 在该方法中,特征图中每一通道对应的尺度参数均可利用反向传播(BP)算法来学习得到,而这些自动学习得到的尺度参数能够更好提高网络训练的鲁棒性;
[0061] 三:将并行特征提取网络得到的结果通过后续的RPN网络和分类网络进行处理,从而进行类别分类和位置回归。
[0062] 所述的后续的RPN网络和分类网络与Faster Rcnn网络一致。
[0063] 类别分类结果就只有两个,是行人或者不是行人。
[0064] 如图3至图7所示:共有2647张对齐的彩色图和深度图,5372个人体实例。这些人体实例包含了多种人体姿态,如站姿,坐姿等。该数据集的具体细节如下表所示。
[0065] 数据库实例如下:
[0066]
[0067] 将采集到的2647对图片按照9:1的比例随机分配训练集和测试集。
[0068] 如图8至图9所示:并行Faster RCNN关于误检的提升,可以有效地克服RGB图像对于光照及行人遮挡敏感的问题,提高了行人检测网络的性能;引入特征分块算法,有效提高行人在遮挡情况下的局部判别性。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈