首页 / 专利库 / 企业组织 / 框图 / 基于动态视觉传感器的物体检测方法及设备

基于动态视觉传感器的物体检测方法及设备

阅读:596发布:2020-06-24

专利汇可以提供基于动态视觉传感器的物体检测方法及设备专利检索,专利查询,专利分析的服务。并且本 发明 提供一种基于动态视觉 传感器 的物体检测方法及设备,所述方法包括以下步骤:通过动态视觉传感器获取多个图像 帧 ;采用递归一致网络检测所述图像帧以获取检测对象的候选框,其中所述递归一致网络包括一个帧检测网络模型和一个候选 框图 模型。本发明通过采用一种新的递归一致检测网络,从动态视觉传感器获取的数据中快速检测出检测对象的包围框,在保证检测 精度 的同时大大提高了检测速率。,下面是基于动态视觉传感器的物体检测方法及设备专利的具体信息内容。

1.一种基于动态视觉传感器的物体检测方法,其特征在于,包括以下步骤:
通过动态视觉传感器获取多个图像
采用递归一致网络检测所述图像帧以获取检测对象的候选框,其中所述递归一致网络包括一个帧检测网络模型和一个候选框图模型。
2.根据权利要求1所述的方法,其特征在于,所述帧检测网络模型基于当前帧图像的特征图与由所述候选框图模型生成的前一帧图像的时域一致候选框,生成该当前帧图像的候选检测框。
3.根据权利要求1所述的方法,其特征在于,所述帧检测网络模型包括完全检测网络和快速检测网络。
4.根据权利要求1-3中任意一项所述的方法,其特征在于,所述帧检测网络模型生成当前帧图像的候选检测框的执行步骤包括:
将当前帧图像通过所述完全检测网络的第一至三个卷积层进行处理;
以当前帧以及前一帧图像的第三个卷积层的特征图,和前一帧图像的检测结果作为输入,执行快速检测网络的处理步骤;
若所述快速检测网络中的softmax层预测的置信度值低于阈值,则从第三个卷积层继续执行完全检测网络的处理步骤,并以完全检测网络的输出作为帧检测网络的输出。
5.根据权利要求4所述的方法,其特征在于,若快速检测网络中的softmax层预测的置信度值高于阈值,则将所述快速检测网络的结果作为帧检测网络的输出。
6.根据权利要求3-5中任意一项所述的方法,其特征在于,所述快速检测网络的处理步骤包括:
串联前一帧图像和当前帧图像的特征图,得到当前帧图像更新的特征图;
将前一帧图像的候选检测框的区域作为感兴趣区域ROI,并由ROI池化层从所述更新的特征图中池化出该ROI的特征向量
将所述ROI的特征向量经过处理得到检测信息。
7.根据权利要求3或4所述的方法,其特征在于,所述完全检测网络的处理步骤包括:
将当前帧图像通过多层卷积层及池化层的处理得到当前帧图像的特征图;
基于所述当前帧图像的特征图,采用区域建议网络回归出当前帧图像的候选框;
利用非极大值抑制算法对所述回归出的当前帧图像的候选框作处理,得到建议ROI;
由ROI池化层在所述当前帧图像的特征图上,动态池化出建议ROI的特征向量;
将每个建议ROI的特征向量经过处理得到检测信息。
8.根据权利要求7所述的方法,其特征在于,所述动态池化出的建议ROI的特征向量均为固定长度。
9.根据权利要求6或7所述的方法,其特征在于,所述检测信息包括用于描述候选检测框的参数和检测对象的分类标识信息。
10.根据权利要求9所述的方法,其特征在于,所述用于描述候选检测框的参数和检测对象的分类标识信息,由每个建议ROI的特征向量经过全连层后,通过包围框回归层和softmax层分别处理后得到。
11.根据权利要求1所述的方法,其特征在于,所述候选框图模型基于每个时刻的候选检测框建立图模型,并将所述候选检测框中满足时域一致性约束的候选检测框作为当前帧图像的时域一致候选框。
12.根据权利要求1所述的方法,其特征在于,所述候选框图模型包括多个图层,且每一个图层对应一帧图像。
13.根据权利要求11所述的方法,其特征在于,所述时域一致性约束表示为检测对象在前一时刻所处位置与当前时刻所处位置之间的距离小于第一预设阈值。
14.根据权利要求13所述的方法,其特征在于,所述距离为欧几里得距离或曼哈顿距离。
15.根据权利要求11所述的方法,其特征在于,当候选检测框中存在一个长度大于第二预设阈值的时域轨迹时,则该候选检测框满足时域一致性约束。
16.一种基于动态视觉传感器的物体检测设备,其特征在于,包括:
获取模:用于通过动态视觉传感器获取多个图像帧;
检测模块:用于采用递归一致网络检测所述图像帧以获取检测对象的候选框,其中所述递归一致网络包括一个帧检测网络模型和一个候选框图模型。

说明书全文

基于动态视觉传感器的物体检测方法及设备

技术领域

[0001] 本发明涉及计算机视觉领域,具体而言,本发明涉及一种基于动态视觉传感器的物体检测方法及设备。

背景技术

[0002] 物体检测是计算机视觉领域中的一个热点问题,其目的是要在图像或视频中识别并检测出感兴趣类别的每个物体实例。它是自动驾驶、无人机和基于手势的交互系统等应用中的重要部分。高能效的摄像机、基于嵌入式低能耗处理器的实时视觉处理算法以及稳定的性能都是物体检测在实际中应用的关键。
[0003] 物体检测技术在许多重要的应用场景,例如自动驾驶、无人机、家庭辅助以及基于手势的人机交互中发挥核心作用。传统的物体检测方法以可变性部件模型及其变体为主流,这类方法利用图像描述子如HOG(方向梯度直方图,Histogram of Oriented Gradient)、SIFT(尺度不变特征变换,Scale-Invariant Feature Transform)以及LBP(局部二值模式,Local Binary Patterns)等作为特征,用滑窗遍历整个图像,寻找某一类别的最大响应区域。
[0004] 近年来,随着深度学习技术的迅猛发展,基于深度神经网络的物体检测技术由于其显著的性能成为这一领域的主流技术方法。目前,基于深度神经网络的物体检测技术大多建立在FRCNN(快速区域卷积神经网,Faster Region Convolutional Neural Network)的框架下:首先将输入图像进行一系列的卷积操作,得到特征图;然后在特征图中根据ROI(感兴趣区域,Region of Interest)的位置及尺度,在图像特征图上动态池化出具有固定长度的特征作为该ROI的特征,最后利用该ROI特征对该ROI中的物体分类并回归该物体的包围框。
[0005] 虽然这类基于卷积神经网络的方法具有良好的检测性能,但需要大量的存储空间和计算资源,通常仅能在GPU上运行,因此无法满足嵌入式电子设备应用的需求。
[0006] 为了提高检测算法的速度,出现了一些更高效的网络结构,这类方法不依赖于基于ROI的动态池化,而是直接由图像特征图上每个点的特征直接分类,并回归物体的包围框参数。与FRCNN的检测模型相比,该方法能够在保证精度的情况下提速2.5倍,或者在降低精度约10%的情况下提速8.6倍。依然距离高效嵌入式应用的需求有数十倍的差距。
[0007] 对于自动驾驶、无人机、家庭辅助和基于手势的交互系统等实际应用,高能效是物体检测算法能够广泛应用的先决条件。然而,基于卷积神经网络的检测方法具有良好的检测性能,但需要大量的存储空间和计算资源,通常仅能在GPU上运行,因此无法满足嵌入式电子应用的需求。
[0008] DVS(动态视觉传感器,Dynamic Vision Sensor)相机具有高效能的特点,然而现有的基于神经网络的物体检测算法都有着较高的复杂度,使得整个视觉检测系统的功耗依然很高,无法满足实际应用的需求。
[0009] 和传统CMOS(互补金半导体电路,Complementary  Metal  Oxide Semiconductor)或CCD(电荷耦合元件,Charge-coupled Device)敏感器生成的图像不同,DVS敏感器是根据场景光照变化强度大小而产生事件,其产生的图像具有稀疏性、二值化的特点。

发明内容

[0010] 本发明的目的旨在根据DVS相机的特点,结合时域信息,提供一种物体检测方法,以提高物体检测效率。
[0011] 为了实现上述目的,本发明一实施例提供一种基于动态视觉传感器的物体检测方法,包括以下步骤:
[0012] 通过动态视觉传感器获取多个图像
[0013] 采用递归一致网络检测所述图像帧以获取检测对象的候选框,其中所述递归一致网络包括一个帧检测网络模型和一个候选框图模型。
[0014] 具体的,所述帧检测网络模型基于当前帧图像的特征图与由所述候选框图模型生成的前一帧图像的时域一致候选框,生成该当前帧图像的候选检测框。
[0015] 其中,所述帧检测网络模型包括完全检测网络和快速检测网络。
[0016] 进一步,所述帧检测网络模型生成当前帧图像的候选检测框的执行步骤包括:
[0017] 将当前帧图像通过所述完全检测网络的第一至三个卷积层进行处理;
[0018] 以当前帧以及前一帧图像的第三个卷积层的特征图,和前一帧图像的检测结果作为输入,执行快速检测网络的处理步骤;
[0019] 若所述快速检测网络中的softmax层预测的置信度值低于阈值,则从第三个卷积层继续执行完全检测网络的处理步骤,并以完全检测网络的输出作为帧检测网络的输出。
[0020] 可选的,若快速检测网络中的softmax层预测的置信度值高于阈值,则将所述快速检测网络的结果作为帧检测网络的输出。
[0021] 具体的,所述快速检测网络的处理步骤包括:
[0022] 串联前一帧图像和当前帧图像的特征图,得到当前帧图像更新的特征图;
[0023] 将前一帧图像的候选检测框的区域作为感兴趣区域ROI,并由ROI池化层从所述更新的特征图中池化出该ROI的特征向量
[0024] 将所述ROI的特征向量经过处理得到检测信息。
[0025] 具体的,所述完全检测网络的处理步骤包括:
[0026] 将当前帧图像通过多层卷积层及池化层的处理得到当前帧图像的特征图;
[0027] 基于所述当前帧图像的特征图,采用区域建议网络回归出当前帧图像的候选框;
[0028] 利用非极大值抑制算法对所述回归出的当前帧图像的候选框作处理,得到建议ROI;
[0029] 由ROI池化层在所述当前帧图像的特征图上,动态池化出建议ROI的特征向量;
[0030] 将每个建议ROI的特征向量经过处理得到检测信息。
[0031] 优选的,所述动态池化出的建议ROI的特征向量均为固定长度。
[0032] 具体的,所述检测信息包括用于描述候选检测框的参数和检测对象的分类标识信息。
[0033] 具体的,所述用于描述候选检测框的参数和检测对象的分类标识信息,由每个建议ROI的特征向量经过全连层后,通过包围框回归层和softmax层分别处理后得到。
[0034] 具体的,所述候选框图模型基于每个时刻的候选检测框建立图模型,并将所述候选检测框中满足时域一致性约束的候选检测框作为当前帧图像的时域一致候选框。
[0035] 其中,所述候选框图模型包括多个图层,且每一个图层对应一帧图像。
[0036] 具体的,所述时域一致性约束表示为检测对象在前一时刻所处位置与当前时刻所处位置之间的距离小于第一预设阈值。
[0037] 优选的,所述距离为欧几里得距离或曼哈顿距离。
[0038] 具体的,当候选检测框中存在一个长度大于第二预设阈值的时域轨迹时,则该候选检测框满足时域一致性约束。
[0039] 本发明另一实施例提供一种基于动态视觉传感器的物体检测设备,包括:
[0040] 获取模:用于通过动态视觉传感器获取多个图像帧;
[0041] 检测模块:用于采用递归一致网络检测所述图像帧以获取检测对象的候选框,其中所述递归一致网络包括一个帧检测网络模型和一个候选框图模型。
[0042] 相比现有技术,本发明的方案具有以下优点:
[0043] 本发明通过采用一种新的递归一致检测网络,从动态视觉传感器获取的数据中快速检测出检测对象的包围框,在保证检测精度的同时大大提高了检测速率。
[0044] 本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。附图说明
[0045] 本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0046] 图1为T-1帧的DVS图像例图;
[0047] 图2为T帧的DVS图像例图;
[0048] 图3为本发明的基本构成图;
[0049] 图4为本发明一实施例提供的基于动态视觉传感器的物体检测方法流程示意图;
[0050] 图5为本发明所述递归一致网络的结构框图;
[0051] 图6为本发明所述帧检测网络的结构框图;
[0052] 图7为本发明所述帧检测网络执行过程的示意图;
[0053] 图8为本发明所述完全检测网络的结构框图;
[0054] 图9为本发明所述物体检测方法与现有物体检测方法的检测结果对比图;
[0055] 图10为本发明所述物体检测方法的检测结果图;
[0056] 图11为本发明另一实施例提供的基于动态视觉传感器的物体检测设备的结构框图。

具体实施方式

[0057] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0058] 与传统基于CMOS/CCD传感器的相机相比,DVS相机具有低功耗的特点,同时DVS传感器是一种运动敏感型传感器,只捕获存在相对运动且光照变化达到一定阈值的物体边界或轮廓事件。因此,其产生的图像具有稀疏性和二值化的特点。本发明利用DVS数据稀疏性、二值化的特点设计了一个轻量、运算代价低的检测网络模型,节省计算开销,提高计算效率。如图1和图2所示,为DVS图像的两帧例图,其中图中的白色虚线框表示T-1帧图像中人手的包围框,白色实线框表示T帧图像中人手的包围框。
[0059] 对于视频中的物体检测,除了每帧图像中所包含的空域信息,视频中有大量的时域信息可以利用,进一步加速检测速度。如图1和2所示,相邻两帧中的同一物体应具有时域一致性,即前一帧的包围框与后一阵的包围框之间应该仅有有限的偏移。基于此,本发明提供一种新的物体检测方法,图3为其基本构成图。图中所示通过DVS相机捕捉视频数据流,由DVS相机中的图像生成单元将捕捉到的视频数据流转换成多个图像帧,然后再由递归一致网络对所述图像帧进行检测,以得到图像帧中物体的检测结果。
[0060] 实施例一
[0061] 如图4所示,本发明一实施例提供一种基于动态视觉传感器的物体检测方法,采用新的递归一致网络(Recurrent Coherent Network)结构对时域信息进行融合,从而加速检测速度并提高检测稳定性。其中,所述方法包括以下步骤:
[0062] 步骤401、通过动态视觉传感器获取多个图像帧;
[0063] 所述动态视觉传感器DVS捕捉视频数据流,并通过其图像生成单元将捕捉的视频数据流转化为一帧帧的图像,得到多个图像帧,且每一帧图像对应视频数据流中一个时刻的图像。将所述多个图像帧分别作为递归一致网络的输入,以由递归一致网络对所述图像帧进行检测处理。
[0064] 步骤402、采用递归一致网络检测所述图像帧以获取检测对象的候选框,其中所述递归一致网络包括一个帧检测网络模型和一个候选框图模型。
[0065] 所述递归一致网络用于对步骤401输入的图像帧进行检测,以获取检测对象的候选框。如图5所示,递归一致网络包括一个帧检测网络模型和一个候选框图模型,其中,图5中标号为01的单元内为帧检测网络模型,标号为02的单元内为候选框图模型。
[0066] 进一步,所述帧检测网络是由两个子神经网络构成的神经网络,如图6所示,所述两个子神经网络包括:完全检测网络和快速检测网络。帧检测网络模型由当前帧图像特征,以及候选框图模型提供的上一帧的时域一致候选框,产生当前帧的候选检测框;候选框图模型基于每一时刻帧检测网络模型提供的候选检测框建立图模型,并在当前帧的候选检测框中选出满足时域一致性约束的候选框作为当前帧的检测结果。
[0067] 具体地,所述帧检测网络模型基于当前帧图像的特征图与由所述候选框图模型生成的前一帧图像的时域一致候选框,生成该当前帧图像的候选检测框。
[0068] 如图7为所述帧检测网络模型的执行过程示意图,其生成当前帧图像的候选检测框的执行步骤包括:
[0069] Step1、将当前帧图像通过所述完全检测网络的第一至三个卷积层进行处理;
[0070] Step2、以当前帧以及前一帧图像的第三个卷积层的特征图,和前一帧图像的检测结果作为输入,执行快速检测网络的处理步骤;
[0071] Step3、若所述快速检测网络中的softmax层预测的置信度值低于阈值,则从第三个卷积层继续执行完全检测网络的处理步骤,并以完全检测网络的输出作为帧检测网络的输出。
[0072] 可选的,若快速检测网络中的softmax层预测的置信度值高于阈值,则将所述快速检测网络的结果作为帧检测网络的输出。
[0073] 为了对所述帧检测网络作进一步解释,以下对其所包括的两个子神经网络:完全检测网络和快速检测网络进行详细说明:
[0074] 一、完全检测网络
[0075] 如图8所示,完全检测网络的输入为当前帧图像,输出为当前帧的候选检测框。具体的,完全检测网络的结构采用了FRCNN的框架,其对图像帧的处理步骤如下:
[0076] 1、将图像经过多层卷积层以及池化层得到图像的特征图(即图8中的卷积5);
[0077] 2、基于该特征图,用RPN(区域建议网络,Region Proposal Network)分别回归出候选框,所有回归出的候选框利用NMS(非极大值抑制,Non-Maximum Suppression)算法处理后,挑选出的候选框区域即为建议ROI;
[0078] 3、根据建议ROI在特征图上由ROI池化层动态池化出ROI特征向量,所有建议区域经动态池化后的特征向量均为固定长度;
[0079] 4、最后,每个ROI特征向量经过多个全连层后变为两个分支:一个分支为softmax层,对该ROI内的物体分类;另一个分支用以回归物体包围框参数。
[0080] 基于DVS图像稀疏性和二值化的特点,与针对普通RGB图像的检测网络相比(如ZF、VGG等),它的网络结构有更少的卷积核个数、更少的卷积层、并且前几层采用了较大的步长。这些都极大的提高了完全检测网络的速度并降低其尺寸。
[0081] 二、快速检测网络
[0082] 检测对象的位置应该是时域一致的,即同一物体相邻两帧之间应该仅有有限的偏移。因此可以用一个轻量的网络,根据相邻两帧低层次的图像特征估计物体的运动方向,从而由上一帧的物体位置得到当前帧物体位置。
[0083] 因此,我们将快速检测网络设计成一个与完全检测网络相比更轻量的网络,其网络结构如图7所示。它的输入为:前一帧以及当前帧的第三卷积层的特征图、前一帧的检测结果;输出为当前帧的候选检测框。其对图像帧的处理步骤如下:
[0084] 首先将前一帧以及当前帧的第三卷积层的特征图串联起来,得到新的特征图。然后,以上一帧的检测结果作为ROI,由ROI池化层从新的特征图中池化出该ROI的特征向量;最后,该特征向量分别经过两个分支:一个分支由softmax层对该ROI内的物体进行分类;另一个分支用以回归物体的包围框参数。
[0085] 进一步,本发明所述递归一致网络还包括一个候选框图模型,所述候选框图模型基于每个时刻的候选检测框建立图模型,并将所述候选检测框中满足时域一致性约束的候选检测框作为当前帧图像的时域一致候选框。
[0086] 本发明中的候选框图模型是一个有向无环图,用于实现检测对象跟踪。它的输入为每一时刻,帧检测模型所输出的检测候选帧,输出为当前帧的最终检测结果。
[0087] 在候选框图模型中有多个图层,每一图层对应一帧。每帧中的每一个节点都代表一个由帧检测模型输出的检测候选框。图中的边代表了可能的物体运动,例如图中有一条由节点vi,T指向vj,T+1的边,代表在T~T+1的时间间隔内,存在一个可能的由位置i至位置j的物体运动。当且仅当候选位置vi,T和vj,T+1满足时域一致性约束时,才会有由节点vi,T指向vj,T+1的边。我们的时域一致性约束定义为:
[0088] Dist(Position(vi,T)-Position(vj,T+1))
[0089] 即T+1时刻的位置与T时刻的位置之间的距离(可以是且不限于欧几里得距离或曼哈顿距离),小于第一预设阈值(Threshold)。图中的每一条路径都代表了一条可能的物体运动轨迹。
[0090] 每一时刻,该图模型都会收到帧检测网络输出的多个候选检测框。对于每个候选检测框,我们都试图提取其在候选框图模型中的时域轨迹。如果某一候选框存在一个长度大于第二预设阈值的时域轨迹,我们认为该候选框具有较高的时域一致性,其中所述第二预设阈值为候选框的时域轨迹的时域长度。所有满足该约束的候选框即为检测结果,并同时输出给T+1时刻的帧检测网络,作为时域一致候选框。
[0091] 多个候选框的时域轨迹提取可以看作为个带有约束的最小流优化问题,可以通过KSP(K最短路径,K-Shortest Path)求解。
[0092] 图9为本发明所述物体检测方法与现有物体检测方法的检测结果对比图,其中该检测结果通过采用的图像尺寸为像素640×480,运行于处理器Intel i5-4590上得到。本发明所述方法对应的递归一致网络的检测精度为95.3%,检测速度为6.4ms/帧,与其他传统的方法相比,检测效率明显提高,且检测精度也有所提高。
[0093] 为进一步展示本发明所述方法的检测效果,提供图10所示的检测结果图,图中所示的最小框为满足时域一致性的最终确定的检测对象的候选框,明显本发明所提供的物体检测方法确定的候选框的位置很精确。
[0094] 实施例二
[0095] 参见图11所示,本发明另一实施例提供一种基于动态视觉传感器的物体检测设备,包括获取模块111、检测模块112,其中,
[0096] 获取模块:用于通过动态视觉传感器获取多个图像帧;
[0097] 检测模块:用于采用递归一致网络检测所述图像帧以获取检测对象的候选框,其中所述递归一致网络包括一个帧检测网络模型和一个候选框图模型。
[0098] 本发明的方案中,实施例二提供的基于动态视觉传感器的物体检测设备中各模块的具体功能实现,可以参照实施例一提供的基于动态视觉传感器的物体检测方法的具体步骤,在此不再详述。
[0099] 综上所述,本发明根据DVS相机的特点,同时结合时域信息,构造一种新的递归一致网络,检测图像帧中的物体,不仅能够保证检测精度还极大地提高了检测速率。
[0100] 以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈