一种基于全局和局部信息融合的目标检测方法专利检索-块视听技术与设备专利检索查询-专利查询网

一种基于全局和局部信息融合的目标检测方法

阅读：455发布：2021-06-15

专利汇可以提供一种基于全局和局部信息融合的目标检测方法专利检索，专利查询，专利分析的服务。并且本发明涉及一种基于全局和局部信息融合的目标检测方法，属于视频图像处理领域。首先，将场景送入卷积神经网络中增加网络的记忆能力，使网络更好的学习场景上下文信息，得到全局的场景特征；其次，借鉴注意力机制，自适应地建立物体与物体之间的关系，得到局部的物体特征；最后，通过信息传递融合场景特征和物体特征增强特征表达。本发明的优点是，同时考虑全局场景特征和局部物体特征，并通过信息传递更好的表征目标特征，大量的对比实验表明，其检测性能明显优于其它目标检测方法。，下面是一种基于全局和局部信息融合的目标检测方法专利的具体信息内容。

权利要求

1.一种基于全局和局部信息融合的目标检测方法，其特征在于包括下列步骤：
(1)读入一幅图像I；
(2)提取场景上下文信息；
通过捕捉不同的对象之间的相互作用信息以及对象与场景之间的相互作用等信息能够有效提升目标检测性能，将图像I输送到一个具有13个卷积层和4个池化层的深度网络获得特征图，特征图作为两部分的输入，一部分作为场景上下文模块的输入，另一部分是通过区域建议网络RPN得到区域建议ROIs，然后作为关系模块的输入，在场景上下文模块中，在s
所有特征图上执行ROI-池化、拼接以及全连层接等操作，获得场景特征fs，并作为场景GRU(1)的输入；
(3)建立物体之间的关系模型
为了对RoIs进行分类和回归，关系模块不仅利用卷积层提取的外观特征和物体的坐标r
信息，而且利用所有周围物体的信息作为关系GRU(1)的输入；
给定N个对象的输入集其中ftn是卷积神经网络提取的第n个物体的原始外
观特征，表示由物体边界框的4维特征组成的第n个对象的位置特征，边界框的特征包括宽度w，高度h和中心坐标(x，y)，关系通道是处理不同对象之间关系的模块，Nr是关系通道数量，Nr＝64，通过对象关系通过模块，可以得到融合周围所有对象位置信息的融合所有关系通道上的向量和ftn获得物体特征ftn′，
作为关系GRUr(1)的输入；
(4)建立信息传递模型场景GRUs(1)和关系GRUr(1)相互通信，以不断跟新物体特征，s s r r
GRU (1)、GRU (2)、GRU (1)和GRU (2)均有两个门，一个称为更新门z，它决定要传递多少来自以前时间和当前时间的信息，另一个门是复位门r，它控制有多少过去的信息被遗忘，使用两组并行方式传递信息，一组包括场景GRUs(1)和关系GRUr(1)，另一组包括场景GRUs(2)和关系GRUr(2)，利用原始的外观特征来表示网络的初始状态hi，场景GRUs(1)、GRUs(2)和关r r
系GRU(1)、GRU(2)的处理机制是相同的，得到最终的场景特征和物体特征的融合信息；
(5)建立物体类别预测和边界框回归模型；
将场景GRUs(2)和关系GRUr(2)获得的综合信息输入到全连接层，并经过softmax预测物体的类别和边界检测框，预测物体分类是利用已经获得的融合特征信息，通过全连接层和softmax计算每个建议框应该具体属于哪个类别，并输出所属分类的概率；同时，利用边界框回归获得每个建议框的位置偏移量，使目标边界检测框更加精准，实现目标检测。
2.根据权利要求1所述的一种基于全局和局部信息融合的目标检测方法，其特征在于：
步骤(3)中关系通道各模块的处理机制是相同的，其中一个关系通道模块的工作原理是：
首先，通过点积运算得到第m个和第n个物体之间的外观权重
其中，WK、WQ是将第m个物体和第n个物体原始外观特征ftm和ftn映射到子空间中的矩阵，·表示通过点积运算用以获得WKftm和WQftn的匹配程度，d是维度，设置为4096；
其次，计算位置权重
其中，εg是基于正弦和余弦函数嵌入到高维空间几何特征的操作，和分别是第m个物体和第n个物体的位置特性，包含如下六个相对位置信息，
这里，wm，hm，xm，ym分别是第m个物体的宽度，高度和中心坐标，帅，hn，xn，yn分别是第n个物体的宽度，高度和中心坐标；
然后，计算关系权重wmn；
最后，得到具有周围物体对第n个物体的特征
其中，Wv用于对原始外观特征ftn进行线性变换，公式(5)是将物体和其他物体的信息整合到原始外观特征中的过程，输出是其他物体初始外观特征的加权和，既包含其初始外观特征，又包含其周围所有对象的特征；
最终，通过关系通道模块，得到融合物体关系信息的物体特征ftn′；
其中，带有关系的物体特征ftn′包括提取的原始外观特征ftn(卷积层后的初始外观特征)和关系特征 (融合特定信道下所有周围物体的位置信息)，在关系通
道中，将其他对象的特征融合在一起，识别当前对象与其他对象的关系，最后通过全连通网络与原始外观特征融合得到ftn′，作为关系GRUr(1)的输入。
3.根据权利要求1所述的一种基于全局和局部信息融合的目标检测方法，其特征在于：
所述步骤(4)中关系GRUr(1)的工作原理是：
首先，第t时间得到的复位门rt计算如下：
rt＝σ(Wr[ftn′，hi]) (7)其中，σ是逻辑函数，[，]表示向量的串联，Wr是一个通过卷积神经网络学习到的权重矩阵，复位门rt的输出决定是否忘记先前的状态，当rt接近于0时，会忘记之前时刻的状态信息hi，将隐藏状态重置为当前·输入，同理，计算第t时刻zt的更新门为：
zt＝σ(Wz[ftn′，hi]) (8)
其中，zt用于确定可以继续传递多少以前的信息，Wz是一个权重矩阵，如果更新门的值较大，则前一时刻引入的状态信息较多，反之亦然，在GRU中，新的隐藏状态其中，*代表矩阵点乘，新的隐藏状态由重置门的值决定，W是一个权重矩阵，实际关系r
GRU(1)输出为，
可以看出，以前的一些状态hi被传递，新的隐藏状态会选择性的更新状态，场景GRUs(1)与关系GRUr(1)只是输入不同，工作原理相同，通过上面操作可以得到场景GRUs(1)的输出
最后，融合两者信息得到更丰富的信息，
s r
融合的信息h′i将作为新的初始状态送到下一组场景GRU (2)和关系GRU (2)中，场景GRUs(2)和关系GRUr(2)的输出和在经过公式(11)得到最终的场景特征和物体特征的融合信息。

说明书全文

一种基于全局和局部信息融合的目标检测方法

技术领域

[0001] 本发明属于视频图像处理领域，尤其是指一种基于全局和局部信息融合的目标检测方法。

背景技术

[0002] 目标检测在自主驾驶、机器人、视频监控、行人检测等领域有着广泛的应用，是计算机视觉和机器学习领域的研究热点。经典的目标检测技术主要是基于手动特征的使用，可以分为三个步骤：(1)目标区域的选择；(2)特征提取；(3)分类。在第一步中，广泛采用滑动窗口策略，利用不同维数和长宽比的滑动窗口，对候选区域进行详尽的搜索。第二步对候选区域进行分析，可以使用多种技术进行特征提取，如尺度不变特征变换(SIFT)、方向梯度直方图(HOG)和加速鲁棒特征(SURF)等传统方式。第三步，利用支持向量机、AdaBoost等分类器对候选区域进行分类。虽然经典方法得到了良好的检测效果，但仍然存在一些限制，阻碍了其在速度和精度上的突破。例如，由于滑动窗口策略会在原始图像中捕获许多候选区域，并且需要逐个提取区域的特征，因此经典的目标检测方法非常耗时。而且，由于人工设计的特征对物体形态、光照和遮挡的变化非常敏感，导致传统的目标检测方法缺乏鲁棒性。

[0003] 近年来，一些深度学习技术被应用到物体检测中，克服了传统方法的局限性。目前最先进的基于深度学习的检测器大致可以分为两类。一种是两阶段方法，首先通过选择性搜索(Selective Search)、EdgeBoxes、深度掩码(DeepMask)或区域建议网络(RPN)形成一系列候选对象建议，然后将这些建议框输入卷积神经网络进行分类。另一种是一阶段方法，它直接预测多个对象在整个特征图上的置信度和位置，而不生成候选对象建议。

[0004] 基于区域的卷积网络(R-CNN)是目标检测和深度学习相结合的开端，也是一种具有代表性的两阶段方法。该方法通过从候选区域中提取特征，并采用线性支持向量机作为分类器，达到了很好的目标检测精度。但是，由于卷积网络前向传递是针对每个对象建议独立执行的，因此R-CNN的计算成本很高。此外，包含特征提取、网络微调、训练支持向量机和边界框回归的多阶段训练策略也使得R-CNN的训练速度变慢。由此，He等人提出一种空间金字塔汇聚网络(SPPNet)。该方法虽然可以通过共享计算来提高R-CNN的速度，但它的训练也是一个多级管道。此外，SPPNet中提出的微调算法无法更新卷积层，在网络深度较深时限制了其准确性。为了进一步降低计算成本，提高目标检测的准确性，Girshick等人提出了一种快速的基于区域的卷积网络(Fast R-CNN)。Fast R-CNN利用一种新颖的RoI-pooling操作，从共享卷积特征图中提取每个候选区域的特征向量，大大提高了处理速度。在Fast R-CNN中，还可以通过在训练过程中更新所有网络层来提高检测精度。虽然SPPNet和Fast R-CNN有效地减少了目标检测网络的训练时间，但是区域建议计算仍然是它们的瓶颈。为了解决这个问题，Ren等人提出了Faster R-CNN，该方法用RPN代替选择性搜索方法实现端到端的训练。RPN通过与检测网络共享全图像卷积特征，使得几乎无损耗的区域方案能够解决Fast R-CNN耗时的问题。然而，在RPN中，将一组固定的滤波器滑动到一组固定的卷积特征映射上所产生的多个尺度建议可能与对象的大小不一致。因此，Cai等人提出了多尺度卷积神经网络(MS-CNN)来匹配不同尺度对象的接受域，并采用多输出层进行对象检测。

[0005] 与上述方法不同的是，一阶段方法可以在保证一定准确率的前提下实现完整的单网络训练。这一类的代表性算法有YOLO，YOLO9000，G-CNN和SSD等。通过将对象检测任务视为一个回归问题，YOLO在空间上分离边界框和相关的类概率。由于YOLO算法的整个检测管道是单个网络，可以直接对网络进行端到端优化。SSD方法将多个具有不同分辨率的特征图的预测组合起来，以检测各种大小的物体。由于在SSD中消除了提案生成、后续像素重采样和特征重采样阶段，因此易于训练。虽然单阶段方法的运行速度可以显著提高，但其精度始终低于两阶段方法。无论是一阶段还是两阶段算法，上述大部分算法都没有有效地利用对象之间的关系，只是利用与对象本身相关联的特征进行检测。

[0006] 最近，一些研究者认识到关系的重要性，提出了一些方法通过探索对象之间的关系来达到更好的检测结果。Bell等人提出了一种空间递归神经网络(RNNs)，用于探索整个图像的上下文信息。Xu等人提出了通过迭代消息传递生成场景图的方法。网络将单个对象视为拓扑中的一个点，将对象之间的关系视为边。通过在边和点之间传递信息，证明了物体之间关系的建立能够提高检测性能。Georgia等人提出了以人为主要线索建立与周围其他物体的关系。结果表明一个人的外部行为可以提供强大的信息来定位与之交互的对象。Liu等人提出了一种结构推理网(SIN)，用于探测目标之间的结构关系。然而，SIN只考虑了对象提案的空间坐标，而忽略了物体的外观特征。Han等人提出了一个关系网络，该网络既考虑了物体的外观特征，又考虑了物体的几何特征。然而，在关系网络中忽略了场景级的特征。

发明内容

[0007] 本发明提供一种基于全局和局部信息融合的目标检测方法，目的是为了更精确的检测图像中的物体，提出的方法适用于目标跟踪，目标识别，视频监控，视频压缩等。

[0008] 本发明采取的技术方案是，包括下列步骤：

[0009] (1)读入一幅图像I；

[0010] (2)提取场景上下文信息；

[0011] 通过捕捉不同的对象之间的相互作用信息以及对象与场景之间的相互作用等信息能够有效提升目标检测性能，将图像I输送到一个具有13个卷积层和4个池化层的深度网络获得特征图，特征图作为两部分的输入，一部分作为场景上下文模块的输入，另一部分是通过区域建议网络RPN得到区域建议ROIs,然后作为关系模块的输入，在场景上下文模块中,在所有特征图上执行ROI-池化、拼接以及全连层接等操作，获得场景特征fs，并作为场景GRUs(1)的输入；

[0012] (3)建立物体之间的关系模型

[0013] 为了对RoIs进行分类和回归,关系模块不仅利用卷积层提取的外观特征和物体的坐标信息，而且利用所有周围物体的信息作为关系GRUr(1)的输入；

[0014] 给定N个对象的输入集其中是卷积神经网络提取的第n个物体的原始外观特征，表示由物体边界框的4维特征组成的第n个对象的位置特征，边界框的特征包括宽度w，高度h和中心坐标(x,y)，关系通道是处理不同对象之间关系的模块，Nr是关系通道数量，Nr＝64，通过对象关系通过模块，可以得到融合周围所有对象位置信息的融合所有关系通道上的向量和获得物体特征
作为关系GRUr(1)的输入；

[0015] (4)建立信息传递模型场景GRUs(1)和关系GRUr(1)相互通信，以不断跟新物体特征，GRUs(1)、GRUs(2)、GRUr(1)和GRUr(2)均有两个门，一个称为更新门z，它决定要传递多少来自以前时间和当前时间的信息，另一个门是复位门r，它控制有多少过去的信息被遗忘，使用两组并行方式传递信息，一组包括场景GRUs(1)和关系GRUr(1)，另一组包括场景GRUs(2)和关系GRUr(2)，利用原始的外观特征来表示网络的初始状态hi，场景GRUs(1)、GRUs(2)和关系GRUr(1)、GRUr(2)的处理机制是相同的，得到最终的场景特征和物体特征的融合信息；

[0016] (5)建立物体类别预测和边界框回归模型；

[0017] 将场景GRUs(2)和关系GRUr(2)获得的综合信息输入到全连接层，并经过softmax预测物体的类别和边界检测框，预测物体分类是利用已经获得的融合特征信息，通过全连接层和softmax计算每个建议框应该具体属于哪个类别，并输出所属分类的概率；同时，利用边界框回归获得每个建议框的位置偏移量，使目标边界检测框更加精准，实现目标检测。

[0018] 本发明所述步骤(3)中关系通道各模块的处理机制是相同的，其中一个关系通道模块的工作原理是：

[0019] 首先，通过点积运算得到第m个和第n个物体之间的外观权重，

[0020]

[0021] 其中，WK、WQ是将第m个物体和第n个物体原始外观特征和映射到子空间中的矩阵，·表示通过点积运算用以获得和的匹配程度，d是维度，设置为4096；

[0022] 其次，计算位置权重

[0023]

[0024] 其中，εg是基于正弦和余弦函数嵌入到高维空间几何特征的操作，和分别是第m个物体和第n个物体的位置特性,包含如下六个相对位置信息，

[0025]

[0026] 这里，wm,hm,xm,ym分别是第m个物体的宽度,高度和中心坐标，wn,hn,xn,yn分别是第n个物体的宽度，高度和中心坐标；

[0027] 然后，计算关系权重wmn；

[0028]

[0029] 最后，得到具有周围物体对第n个物体的特征

[0030]

[0031] 其中,Wv用于对原始外观特征进行线性变换，公式(5)是将物体和其他物体的信息整合到原始外观特征中的过程，输出是其他物体初始外观特征的加权和，既包含其初始外观特征，又包含其周围所有对象的特征；

[0032] 最终，通过关系通道模块，得到融合物体关系信息的物体特征

[0033]

[0034] 其中，带有关系的物体特征包括提取的原始外观特征 (卷积层后的初始外观特征)和关系特征 (融合特定信道下所有周围物体的位置信息)，在关系通道中，将其他对象的特征融合在一起，识别当前对象与其他对象的关系，最后通过全连通网络与原始外观特征融合得到作为关系GRUr(1)的输入。

[0035] 本发明所述步骤(4)中关系GRUr(1)的工作原理是：

[0036] 首先，第t时间得到的复位门rt计算如下:

[0037]

[0038] 其中，σ是逻辑函数,[,]表示向量的串联,Wr是一个通过卷积神经网络学习到的权重矩阵，复位门rt的输出决定是否忘记先前的状态，当rt接近于0时，会忘记之前时刻的状态信息hi，将隐藏状态重置为当前·输入，同理，计算第t时刻zt的更新门为：

[0039]

[0040] 其中，zt用于确定可以继续传递多少以前的信息，Wz是一个权重矩阵，如果更新门的值较大，则前一时刻引入的状态信息较多，反之亦然，在GRU中,新的隐藏状态，[0041]

[0042] 其中,*代表矩阵点乘，新的隐藏状态由重置门的值决定,W是一个权重矩阵，实r际关系GRU(1)输出为，

[0043]

[0044] 可以看出，以前的一些状态hi被传递,新的隐藏状态会选择性的更新状态，场景GRUs(1)与关系GRUr(1)只是输入不同，工作原理相同，通过上面操作可以得到场景GRUs(1)的输出

[0045] 最后，融合两者信息得到更丰富的信息，

[0046]

[0047] 融合的信息h′i将作为新的初始状态送到下一组场景GRUs(2)和关系GRUr(2)中，场景GRUs(2)和关系GRUr(2)的输出和在经过公式(11)得到最终的场景特征和物体特征的融合信息。

[0048] 本发明首先利用图像外观特征和几何特征，提取场景的上下文信息；其次，借鉴注意力机制，自适应的建立物体与周围物体的之间关系；最后，通过消息传递融合场景信息和关系信息，实现对物体进行分类和回归；大量的实验和比较结果表明，该方法具有良好的检测性能并且优于现有的具有代表性的目标方法，适用于目标跟踪，目标识别，视频监控，视频压缩等。

[0049] 本发明针对PASCAL VOC数据库和MS COCO数据集进行了实验对比与分析，并且从定性和定量两个角度评价了提出方法的有效性和优越性。大量的对比实验结果表明，本发明提出的方法不仅能够精准的检测目标，更能有效地检测出一些小目标或被遮挡目标。特别地，本发明于图像和视频同样适用。

[0050] 本发明的有益效果：(1)本发明是针对图像(视频)的精确目标检测方法；(2)借鉴注意力机制，通过自适应的建立物体之间的关系可以检测一些小目标或被遮挡的目标；(3)场景信息和关系信息融合可矫正一些错误的检测结果，提高目标检测精度；(4)本发明可以广泛应用于各种场景的目标检测任务，有助于后续的识别和跟踪等任务。附图说明

[0051] 图1是PASCAL VOC数据集上的部分样例图像；

[0052] 图2是MS COCO数据集上的部分样例图像；

[0053] 图3是本发明的整体框架图；

[0054] 图4是本发明关系通道模块图；

[0055] 图5是本发明物体之间关系建立模型图；

[0056] 图6是本发明提出发方法的部分检测结果图；

[0057] 图7是本发明不同方法的检测结果比较图。

具体实施方式

[0058] 包括以下步骤：

[0059] 1、读入一幅图像I，如图1和2所示；

[0060] 2、提取场景上下文信息；

[0061] 通过捕捉不同的对象之间的相互作用信息以及对象与场景之间的相互作用等信息能够有效提升目标检测性能，将图像I输送到一个具有13个卷积层和4个池化层的深度网络获得特征图，特征图作为两部分的输入，一部分作为场景上下文模块的输入,另一部分是通过区域建议网络RPN得到区域建议ROIs,然后作为关系模块的输入，如图3所示，在场景上下文模块中(图3的第I部分),在所有特征图上执行ROI-池化、拼接以及全连层接操作，获得场景特征fs，并作为场景GRUs(1)的输入；

[0062] 3、建立物体之间的关系模型(图3的第II部分)；

[0063] 为了对RoIs进行分类和回归,关系模块不仅利用卷积层提取的外观特征和物体的坐标信息,而且利用所有周围物体的信息作为关系GRUr(1)的输入；

[0064] 给定N个对象的输入集其中是卷积神经网络提取的第n个物体的原始外观特征，表示由物体边界框的4维特征组成的第n个对象的位置特征，边界框的特征包括宽度w，高度h和中心坐标(x,y)，关系通道是处理不同对象之间关系的模块(如图4所示)，Nr是关系通道数量(Nr＝64)；通过对象关系通过模块(如图5所示)，可以得到融合周围所有对象位置信息的融合所有关系通道上的向量
和获得物体特征因为关系通道各模块的处理机制是相同的,以一个关系通道模块为例来解释关系通道的工作原理；

[0065] 首先，通过点积运算得到第m个和第n个物体之间的外观权重

[0066]

[0067] 其中，WK、WQ是将第m个物体和第n个物体原始外观特征和映射到子空间中的矩阵，·表示通过点积运算用以获得和的匹配程度，d是维度，本发明设置为4096。

[0068] 其次，计算位置权重

[0069]

[0070] 其中，εg是基于正弦和余弦函数嵌入到高维空间几何特征的操作，和分别是第m个物体和第n个物体的位置特性,包含如下六个相对位置信息，

[0071]

[0072] 这里，wm,hm,xm,ym分别是第m个物体的宽度，高度和中心坐标，wn,hn,xn,yn分别是第n个物体的宽度,高度和中心坐标；

[0073] 然后，计算关系权重wmn；

[0074]

[0075] 最后，得到具有周围物体对第n个物体的特征

[0076]

[0077] 其中,Wv用于对原始外观特征进行线性变换，公式(5)是将物体和其他物体的信息整合到原始外观特征中的过程，输出是其他物体初始外观特征的加权和，既包含其初始外观特征，又包含其周围所有对象的特征；

[0078] 最终，通过关系通道模块，得到融合物体关系信息的物体特征

[0079]

[0080] 其中，带有关系的物体特征包括提取的原始外观特征 (卷积层后的初始外观特征)和关系特征 (融合特定信道下所有周围物体的位置信息)，在关系通道中，将其他对象的特征融合在一起，识别当前对象与其他对象的关系，最后通过全连通网络与原始外观特征融合得到作为关系GRUr(1)的输入。

[0081] 4、建立信息传递模型(图3的第III部分)；

[0082] 场景GRUs(1)和关系GRUr(1)相互通信,以不断跟新物体特征，GRUs(1)、GRUs(2)、GRUr(1)和GRUr(2)均有两个门，一个称为更新门z，它决定要传递多少来自以前时间和当前时间的信息；另一个门是复位门r，它控制有多少过去的信息被遗忘；使用两组并行方式传递信息，一组包括场景GRUs(1)和关系GRUr(1)，另一组包括场景GRUs(2)和关系GRUr(2)；利用原始的外观特征(没有任何场景信息或关系信息)来表示网络的初始状态hi，由于场景GRUs(1)、GRUs(2)和关系GRUr(1)、GRUr(2)的处理机制是相同的，本发明仅以关系GRUr(1)为例说明其工作原理。

[0083] 首先，第t时间得到的复位门rt计算如下:

[0084]

[0085] 其中，σ是逻辑函数,[,]表示向量的串联,Wr是一个通过卷积神经网络学习到的权重矩阵，复位门rt的输出决定是否忘记先前的状态，当rt接近于0时，会忘记之前时刻的状态信息hi，将隐藏状态重置为当前·输入，同理，计算第t时刻zt的更新门为：

[0086]

[0087] 其中，zt用于确定可以继续传递多少以前的信息，Wz是一个权重矩阵，如果更新门的值较大，则前一时刻引入的状态信息较多，反之亦然，在GRU中,新的隐藏状态[0088]

[0089] 其中,*代表矩阵点乘，新的隐藏状态由重置门的值决定,W是一个权重矩阵，实际关系GRUr(1)输出为：

[0090]

[0091] 可以看出，以前的一些状态hi被传递,新的隐藏状态会选择性的更新状态，场景GRUs(1)与关系GRUr(1)只是输入不同，工作原理相同，通过上面操作可以得到场景GRUs(1)的输出最后，融合两者信息得到更丰富的信息；

[0092]

[0093] 其中，表示场景GRUs(1)输出的信息，表示关系GRUr(1)输出的信息，融合的信息hi'将作为新的初始状态送到下一组场景GRUs(2)和关系GRUr(2)中，场景GRUs(2)和关系rGRU(2)的输出和在经过公式(11)得到最终的场景特征和物体特征的融合信息；

[0094] 5、建立物体类别预测和边界框回归模型

[0095] 将场景GRUs(2)和关系GRUr(2)获得的融合信息输入到全连接层，并经过softmax预测物体的类别和边界检测框，如图6所示，预测物体分类是利用已经获得的融合特征信息，通过全连接层和softmax计算每个建议框应该具体属于哪个类别(如人，狗，猫等)，并输出所属分类的概率；同时，利用边界框回归获得每个建议框的位置偏移量，使目标边界检测框更加精准，实现目标检测。

[0096] 综上，给定一幅图像，通过提取和融合场景特征和物体特征，实现基于全局和局部信息融合的目标检测。

[0097] 下面通过具体实验结果的分析与对比来进一步说明本发明的有益效果。

[0098] 实验例

[0099] 为了有效地和系统地评价提出的方法，在2个标准数据库PASCAL VOC和MS COCO 2014上进行了大量的目标检测实验；其中，PASCAL VOC包含VOC 2007和VOC2012两个数据集，PASCAL VOC2007数据集中包含9963张标注过的图片，由train/val/test三部分组成，共标注出24640个物体。VOC2012数据集的train/val/test包含2008-2011年的所有对应图像,train+val有11540张图片共27450个物体。与PASCAL VOC数据集相比，MSCOCO 2014中的图片包含了自然图像以及生活中常见的目标图像，由train/minival两部分组成。该数据库中图像背景较为复杂，目标数量较多且目标尺寸更小，因此在MS COCO 2014数据集上做的任务更难更具挑战性。图1和图2分别给出了两个数据集中的部分图像。此外，从定量的角度将本发明提出方法(MIFNet)与一些有代表性的方法进行性能对比，包括Fast R-CNN、Faster R-CNN、SSD500、ION、CPF和SIN等方法。

[0100] 为了评价提出方法的性能，采用两个度量来定量的评价本发明的性能，平均精度(AP)和平均精度均值(mAP)，其中，AP表示每一类别精度(P值)的平均值，mAP是所有类别的AP取均值，P值的计算公示如下：

[0101]

[0102] 在具体目标检测实施过程中，表1给出了实验参数的设置，表2和表3给出了在PASCAL VOC 2007和2012两个数据集的基于平均精度均值的检测结果。可以看出，通过融合物体之间的关系和场景信息，能够检测一下小的并且高相关的物体，如图6所示，进而可以提高目标检测精度，表4给出了在MS COCO 2014数据集上的基于平均精度的检测结果，其中50
AP是所有类在交并比(IOU)从0.5变化到0.95的平均精度值，AP 表示IOU等于0.50时的mAP，AR10代表每幅图像中检测10个物体的最大召回率，上标S、M、L分别代表小，中、大物体，例如，物体面积在322和962之间的称为中等大小的物体。从表2-4可以看出，本发明在3个数据集上分别获得了77.1％，74.1％和26.0％的最高检测精度。由于SIN考虑了物体之间的关系，其性能高于其它一些方法，但是由于其没有考虑场景上下文信息，所以其性能低于本发明提出的方法，图7给出了不同方法的部分图像中的检测结果，对比结果可以看出本发明提出的方法能够更准确的检测目标。

[0103] 为了验证全局场景信息和局部关系信息对提升检测精度的重要性，我们在两个数据集上进行了消融实验，表5和表6给出了只利用场景信息进行目标检测的结果，表7和表8给出了只利用关系信息进行目标检测的结果，可以看出，无论使用哪种信息，其检测性能均高于经典的Faster R-CNN方法。

[0104] 为了验证信息传递模块的有效性，本发明进行了两组对比实验，一组是将场景特征和物体特征分别作为GRUs(1)和GRUr(1)的输入(GRUs+r即本发明方法)，一组是将场景特征和物体连接在一起形成一个向量作为一个GRUs(1)的输入(GRUs)。从表9可以看出，两种方法的检测性能分别为77.1％和76.2％，这表明信息传递能够进一步提升检测性能。

[0105] 表1.实验参数设置

[0106]

[0107] 表2.在PASCAL VOC 2007test上的检测结果.训练集:2007trainval+2012trainval.

[0108]

[0109] 表3.在PASCAL VOC 2012test上的检测结果.

[0110] 训练集:2007trainval+2012trainval+2007test

[0111]

[0112] 表4.在MS COCO 2014minival上的检测结果，训练集:MS COCO 2014train.[0113]

[0114] 表5.在PASCAL VOC 2007test上的消融实验结果(Baseline为Faster R-CNN.Scene表示只使用场景信息)

[0115]

[0116] 表6.在MS COCO 2014minival上的消融实验结果

[0117]

[0118] 表7.在PASCAL VOC 2007test上的消融实验结果(Baseline为Faster R-CNN.Relation表示只使用物体关系信息)

[0119]

[0120] 表8.在MS COCO 2014minival上的消融实验结果.

[0121]

[0122] 表9.场景特征和物体特征不同输入的比较

[0123]

[0124] 鉴于此，本发明在深度学习框架下，提出了一种基于全局和局部信息融合的目标检测方法。该方法同时考虑了场景上下文信息和物体之间的关系信息，通过关系传递更好的表示特征。特别地，分别在3个标准的数据集上进行了大量实验，通过对比实验验证了提出方法具有良好的检测性能。

[0125] 以上所述仅为本发明的优选实施方式，本发明的保护范围并不仅限于上述实施方式，凡是属于本发明的原理的技术方案均属于本方面的保护范围，对于本领域的技术人员而言，在不脱离本发明的前提下进行的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

标题	发布/更新时间	阅读量
基于存储空间互换的改进的防重放设备	2020-05-08	505
振荡电路、芯片、电子设备	2020-05-08	933
转子铁心、转子、旋转电机、汽车用电动辅机系统	2020-05-08	288
具有拼块和数据处理的发光显示器	2020-05-11	282
在多子帧DRS中子帧的CSI-RS加扰	2020-05-08	824
电动助力转向装置	2020-05-08	878
用于作物保护优化的系统和方法	2020-05-11	134
用于当取回像素核时降低存储器延迟的方法、系统和设备	2020-05-08	968
管理基于区块链的中心化账本系统	2020-05-08	728
适应于全向视频的运动矢量预测量的方法和装置	2020-05-08	264

一种基于全局和局部信息融合的目标检测方法

一种基于全局和局部信息融合的目标检测方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：