基于改进YOLOv3的快速车辆检测方法专利检索-服务器计算机网络专利检索查询-专利查询网

基于改进YOLOv3的快速车辆检测方法

阅读：1061发布：2020-06-02

专利汇可以提供基于改进YOLOv3的快速车辆检测方法专利检索，专利查询，专利分析的服务。并且本发明涉及一种基于改进YOLOv3的快速车辆检测方法。实时目标检测算法 YOLOv3的检测速度较快且精度良好，但存在边界框定位不够精确、难以区分重叠物体等不足。本发明提出了Attention-YOLOv3算法，该算法借鉴了基于项的注意力机制，将通道注意力及空间注意力机制加入特征提取网络之中，使用经过筛选加权的特征向量来替换原有的特征向量进行残差融合，该算法有效降低了边界框的定位误差并提升了检测精度。同时本发明对于YOLO v3的anchor选取进行优化，对视频车辆图像数据集的目标候选框进行维度聚类分析，选择最优anchor个数。本发明在保证车辆检测实时性的前提下提高了车辆检测的准确性。，下面是基于改进YOLOv3的快速车辆检测方法专利的具体信息内容。

权利要求

1.一种基于改进YOLOv3的快速车辆检测方法，其特征在于，包括以下步骤：
步骤一)通过视频流获取若干包含车辆的图片，并对每张图片进行人工标注，标注每张图片所包含的车辆类型以及将图片中的车辆用目标包围框框出，按所有已完成标准的图片按照比例划分为检测模型的训练集和验证集，并对训练集进行数据扩增；
步骤二)构建基于改进的YOLOv3目标检测网络，在改进的YOLOv3目标检测网络中，对车辆候选框进行聚类分析选取目标候选框个数和宽高比维度，重新确定YOLOv3目标检测网络的anchor个数和宽高维度；同时，改进的YOLOv3目标检测网络为引入注意力机制的Attention-YOLOv3 算法，在YOLOv3目标检测网络的Darknet-53特征提取网络加入通道注意力机制及空间注意力机制，并在通道注意力机制及空间注意力机制中分别加入全局最大池化操作，两种全局最大池化操作完成后进行合并送入MLP进行通道信息筛选，接着，沿着通道维度进行平均池化和最大池化，将平均池化和最大池化的输出合并后得到特征描述子，最后，使用卷积操作来进行编码，得到空间注意力图；
步骤三)在目标检测网络上使用训练集进行模型训练，并选出验证集表现最优的模型；
步骤四)基于最优的模型，在GPU服务器上进行预测，实现对视频流进行目标车辆检测。
2.如权利要求1所述的一种基于改进YOLOv3的快速车辆检测方法，其特征在于，步骤一)中，拍摄以道路为背景的车辆视频，并对车辆视频进行逐帧提取获得所述视频流；
进行人工标注所使用的标注工具为LabelImg，标注完成生成xml格式的标记信息文件，在标记信息文件中，记录图片中每个目标车辆的坐标，包含左上角坐标x，左上角坐标y，宽度w和高度h，同时删掉模糊图片或者难以标注的图片，同时利用CCPD、KITTI及UA-DETRAC公开数据集作为补充数据集，将补充数据集及标记信息文件中的述数据按照等比例混合，按照9:1的比例划分为检测模型的所述训练集和所述验证集，训练集用于模型训练，验证集不参与模型训练，用于验证模型的训练效果。
3.如权利要求1所述的一种基于改进YOLOv3的快速车辆检测方法，其特征在于，步骤二)中，使用K-means聚类方法对车辆训练集以预测框和真实框的交并比作为相似度标准进行聚类，选取先验框数量和规格，然后对BBox的坐标、高和宽使用平方误差的总和做损失计算进行回归，并采用交叉熵损失计算的优化方法训练，进行多标签分类，通过随机梯度下降法优化求解模型，其中，BBox的坐标、高和宽的平方误差总和损失Lreg为：
其中，N是先验框中与真实框
的IOU值大于设置的阈值的个数；xi,yi,wi,hi为第i个预测框的中心点坐标、宽和高；
为与第i个预测框匹配的真实框的中心点坐标、宽和高。
4.如权利要求1所述的一种基于改进YOLOv3的快速车辆检测方法，其特征在于，步骤二)中，设输入注意力机制的卷积集为X，保留作为残差分支的输入之一，且其中H、W、C表示的是特征图的长度、宽度和通道数，随后将卷积集X分别送入两个独立的分支进行全局平均池化及全局最大池化操作，设全局平均池化过程为Favg，全局最大池化过程为Fmax，令Favg和Fmax的输出分别为Attavg及Attmax，且则一维的
权重序列Attavg可以很好地筛选出目标物体的全局背景信息，同时Attmax可以很好地突出目标物体的显著特征；
令X＝[x1,x2,…，xc],其中xc表示的是第c个卷积核的参数，则：
式中，xc(i,j)表示的是在大小为H×W的特征图上横纵坐标分别为i和j的点的第c个卷积核的参数。
令和为两个全连接层，训练时两条分支的输入共享全连接层的参
数，其中r为全连接层的降维比例，设通道注意力模块部分的输出outputch为：
outputch＝outputavg+outputmax
其中两条分支的输出outputavg、outputmax分别是：
outputavg＝Sigmoid(FC4×ReLU(FC3×Attavg))
outputmax＝Sigmoid(FC4×ReLU(FC3×Attmax))
接着通过矩阵乘法完成特征加权操作：
W＝(xc,outputch)＝xc×outputch，式中，xc表示表示的是第c个卷积核的参数，得到筛选过的通道特征W＝[w1,w2,…,wc]；
通道特征筛选完成后，将W输入至新的空间注意力机制模块中，包括以下步骤：首先，输入的特征向量将分别经过Attavg以及Attmax，再沿着通道维度进行特征叠加，得到为了能得到二维的特征权重信息，进行卷积操作来降维，令F3×3表示的是输入通道数为2，输出通道数为1，卷积核大小为3×3的卷积操作，则最后特征加权后的输出向量为outputchsp＝F3×3(Ccon)×W，最终，整个通道和空间注意力机制模块的输出为outputchsp+X。
5.如权利要求1所述的一种基于改进YOLOv3的快速车辆检测方法，其特征在于，步骤三)中，选出验证集表现最优的模型包括以下步骤：
在训练过程，每经过1轮存储一次模型，并将该模型在验证集上测试，根据车辆检测的精度mAP选择最优的模型。
6.如权利要求1所述的一种基于改进YOLOv3的快速车辆检测方法，其特征在于，步骤四)具体包括以下步骤：
按适当帧率从摄像头得到照片，用传统图像处理方法降噪、锐化后上传到GPU显存；逐级在其上计算改进的YOLO模型的每一层，获得输出；筛选合适的边界框，最终输出置信值足够高的目标的位置、大小、种类。

说明书全文

基于改进YOLOv3的快速车辆检测方法

技术领域

[0001] 本发明适用于车辆检测领域，提供了一种基于改进YOLOv3的快速车辆检测方法。

背景技术

[0002] 在视频流中最基础的内容就是把我们需要提取的目标检测和识别出来。这个领域综合了很多学科的知识，包括计算机视觉，图像处理，人工智能，数学建模等等一系列的知识。从计算机存储的角度来看，视频数据由一系列的帧图像组成，而每一帧的图像都由固定数量的像素点组成。大致的处理流程如下，首先从这些像素构成的矩阵信息中利用一些特殊方法提取出所需的目标，然后对提取出的目标进行一定的跟踪，最后利用跟踪产生的数据可以对目标的行为进行一定的分析并产生初步的结论。虽然这个领域己经发展了五十多年，但是这并不意味着这己经成为一个过时的话题。相反，这个领域涌现出越来越多新的技术，具有了更高的准确性和可靠性，从而衍生出很多新一代的产品。例如谷歌的无人驾驶汽车，拥塞路段的智能提示等等都是以此作为基础，产生了很高的经济价值和社会价值。

[0003] 通过采集交通场景的空间以及时间信息，利用计算机视觉的优势对所获得的信息进行进一步的提取，就能获得更为具有价值的信息。比如高速公路上某个路段实时的车流速度，通过的车流量，每日的主要车流类别都可以迅速的获取出来。通过对特别拥堵的路段，系统可以做出报警提示，交通部门就可以迅速的采取有效手段进行调制，做到精确而有效。这样的管理系统不仅很方便的就可以在所需的路段上安装，而且便于维护管理。随着未来电子科技的迅猛发展，遵循摩尔定律，计算机硬件的价格越来越便宜，性能越来越强，能够更快的对所获取的交通信息进行更加复杂的计算和推导。不仅仅车流监控系统的实时性可以得到很好的满足，而且功能性会进一步提升。可见，利用计算机视觉的技术对道路交通视频进行分析处理，具有很重要的现实意义，吸引着众多的国内外学者投入其中。

发明内容

[0004] 本发明的目的是：在不影响车辆检测实时性的前提下提高了车辆检测的准确性。

[0005] 为了达到上述目的，本发明的技术方案是提供了一种基于改进YOLOv3的快速车辆检测方法，其特征在于，包括以下步骤：

[0006] 步骤一)通过视频流获取若干包含车辆的图片，并对每张图片进行人工标注，标注每张图片所包含的车辆类型以及将图片中的车辆用目标包围框框出，按所有已完成标准的图片按照比例划分为检测模型的训练集和验证集，并对训练集进行数据扩增；

[0007] 步骤二)构建基于改进的YOLOv3目标检测网络，在改进的YOLOv3目标检测网络中，对车辆候选框进行聚类分析选取目标候选框个数和宽高比维度，重新确定YOLOv3目标检测网络的anchor个数和宽高维度；同时，改进的YOLOv3目标检测网络为引入注意力机制的Attention-YOLOv3 算法，在YOLOv3目标检测网络的Darknet-53特征提取网络加入通道注意力机制及空间注意力机制，并在通道注意力机制及空间注意力机制中分别加入全局最大池化操作，两种全局最大池化操作完成后进行合并送入MLP进行通道信息筛选，接着，沿着通道维度进行平均池化和最大池化，将平均池化和最大池化的输出合并后得到特征描述子，最后，使用卷积操作来进行编码，得到空间注意力图；

[0008] 步骤三)在目标检测网络上使用训练集进行模型训练，并选出验证集表现最优的模型；

[0009] 步骤四)基于最优的模型，在GPU服务器上进行预测，实现对视频流进行目标车辆检测。

[0010] 优选地，步骤一)中，拍摄以道路为背景的车辆视频，并对车辆视频进行逐帧提取获得所述视频流；

[0011] 进行人工标注所使用的标注工具为LabelImg，标注完成生成xml格式的标记信息文件，在标记信息文件中，记录图片中每个目标车辆的坐标，包含左上角坐标x，左上角坐标y，宽度w和高度h，同时删掉模糊图片或者难以标注的图片，同时利用CCPD、KITTI及UA-DETRAC公开数据集作为补充数据集，将补充数据集及标记信息文件中的述数据按照等比例混合，按照9:1的比例划分为检测模型的所述训练集和所述验证集，训练集用于模型训练，验证集不参与模型训练，用于验证模型的训练效果。

[0012] 优选地，步骤二)中，使用K-means聚类方法对车辆训练集以预测框和真实框的交并比作为相似度标准进行聚类，选取先验框数量和规格，然后对BBox的坐标、高和宽使用平方误差的总和做损失计算进行回归，并采用交叉熵损失计算的优化方法训练，进行多标签分类，通过随机梯度下降法优化求解模型，其中，BBox的坐标、高和宽的平方误差总和损失Lreg为：

[0013] 其中，N是先验框中与真实框的IOU值大于设置的阈值的个数；xi,yi,wi,hi为第i个预测框的中心点坐标、宽和高；
为与第i个预测框匹配的真实框的中心点坐标、宽和高。

[0014] 优选地，步骤二)中，设输入注意力机制的卷积集为X，保留作为残差分支的输入之一，且其中H、W、C表示的是特征图的长度、宽度和通道数，随后将卷积集X分别送入两个独立的分支进行全局平均池化及全局最大池化操作，设全局平均池化过程为Favg，全局最大池化过程为Fmax，令Favg和Fmax的输出分别为Attavg及Attmax，且则一维的权重序列Attavg可以很好地筛选出目标物体的全局背景信息，同时Attmax可以很好地突出目标物体的显著特征；

[0015] 令X＝[x1,x2,…，xc],其中xc表示的是第c个卷积核的参数，则：

[0016]

[0017]

[0018] 式中，xc(i,j)表示的是在大小为H×W的特征图上横纵坐标分别为i和j的点的第c个卷积核的参数。

[0019] 令和为两个全连接层，训练时两条分支的输入共享全连接层的参数，其中r为全连接层的降维比例，设通道注意力模块部分的输出outputch为：

[0020] outputch＝outputavg+outputmax

[0021] 其中两条分支的输出outputavg、outputmax分别是：

[0022] outputavg＝Sigmoid(FC4×ReLU(FC3×Attavg))

[0023] outputmax＝Sigmoid(FC4×ReLU(FC3×Attmax))

[0024] 接着通过矩阵乘法完成特征加权操作：

[0025] W＝(xc,outputch)＝xc×outputch，式中，xc表示第c个卷积核的参数，得到筛选过的通道特征W＝[w1,w2,...,wc]；

[0026] 通道特征筛选完成后，将W输入至新的空间注意力机制模块中，包括以下步骤：首先，输入的特征向量将分别经过Attavg以及Attmax，再沿着通道维度进行特征叠加，得到为了能得到二维的特征权重信息，进行卷积操作来降维，令F3×3表示的是输入通道数为2，输出通道数为1，卷积核大小为3×3的卷积操作，则最后特征加权后的输出向量为outputchsp＝F3×3(Ccon)×W，最终，整个通道和空间注意力机制模块的输出为outputchsp+X。

[0027] 优选地，步骤三)中，选出验证集表现最优的模型包括以下步骤：

[0028] 在训练过程，每经过1轮存储一次模型，并将该模型在验证集上测试，根据车辆检测的精度mAP选择最优的模型。

[0029] 优选地，步骤四)具体包括以下步骤：

[0030] 按适当帧率从摄像头得到照片，用传统图像处理方法降噪、锐化后上传到GPU显存；逐级在其上计算改进的YOLO模型的每一层，获得输出；筛选合适的边界框，最终输出置信值足够高的目标的位置、大小、种类。

[0031] 由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果:实时目标检测算法YOLOv3的检测速度较快且精度良好，但存在边界框定位不够精确、难以区分重叠物体等不足。本发明提出了Attention-YOLOv3算法，该算法借鉴了基于项的注意力机制，将通道注意力及空间注意力机制加入特征提取网络之中，使用经过筛选加权的特征向量来替换原有的特征向量进行残差融合，该算法有效降低了边界框的定位误差并提升了检测精度。同时本发明对于YOLO v3的anchor选取进行优化，对视频车辆图像数据集的目标候选框进行维度聚类分析，选择最优anchor个数。本发明在保证车辆检测实时性的前提下提高了车辆检测的准确性。附图说明

[0032] 图1是本发明的流程图；

[0033] 图2是注意力机制结构图；

[0034] 图3是YOLOv3多尺度预测结构图；

[0035] 图4是用于残差连接的通道及空间注意力机制结构图。

具体实施方式

[0036] 下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

[0037] 本发明的实施方式涉及一种基于改进YOLOv3的快速车辆检测方法，如图1所示，包括以下步骤：

[0038] 步骤1：数据集的制作与验证集的扩增：通过视频流获取若干包含车辆的图片，并在图片上做好人工标注，按比例划分为检测模型的训练集和验证集，并对验证集进行数据扩增，包括将车辆照片进行多尺度变化、旋转、亮暗，以达到数据增强的效果，提升模型训练的泛化能力，为车辆检测部分做好准备。

[0039] 步骤2:构建基于改进的YOLOv3目标检测网络：改进的YOLOv3其一是指根据车辆呈现宽高比相对固定的特点，利用K-Means聚类方法选取目标候选框个数和宽高比维度。使用K-means聚类方法对车辆训练集以预测框和真实框的交并比作为相似度标准进行聚类，选取先验框数量和规格，然后对BBox的坐标、高和宽使用平方误差的总和做损失计算进行回归，并采用交叉熵损失计算的优化方法训练，进行多标签分类，通过随机梯度下降法优化求解模型。BBox的坐标、高和宽的平方误差总和损失为：

[0040]

[0041] 其中，N是先验框中与真实框的IOU值大于设置的阈值的个数；xi,yi,wi,hi为第i个预测框的中心点坐标、宽和高；为与第i个预测框匹配的真实框的中心点坐标、宽和高。

[0042] 改进的YOLOv3其二是引入注意力机制的Attention-YOLOv3算法，在特征提取网络中加入通道注意力及空间注意力机制。注意力机制结构图如图2所示。YOLOv3算法的网络结构主要由Darknet-53特征提取网络以及特征金字塔网络两部分组成。整个特征提取网络完全由卷积层组成，没有用到池化操作。如图3所示，YOLOv3中所采用的特征金字塔结构(FPN)则是直接在原来的单一网络上做修改，在每个分辨率的特征图上引入后一分辨率缩放两倍的特征图并做相加(element-wise)操作。本发明首先改进原有的注意力机制，加入全局最大池化操作，两种池化操作完成后进行合并送入MLP进行通道信息筛选。接着，沿着通道维度进行平均池化和最大池化，将两者的输出合并后得到特征描述子。最后，使用卷积操作来进行编码，得到空间注意力图。以上改进不但能帮助网络进行更准确的分类，又能更精准地定位物体所在的位置。通道及空间注意力机制的结构如图4所示。

[0043] 设输入该注意力结构的卷积集为X，保留作为残差分支的输入之一，且其中H、W、C同样表示的是特征图的长度、宽度和通道数。随后将其分别送入两个独立的分支进行两种不同类型的池化操作。

[0044] 设全局平均池化过程为Favg，全局最大池化过程为Fmax，令Favg和Fmax的输出分别为Attavg及Attmax，且一维的权重序列Attavg可以很好地筛选出目标物体的全局背景信息，同时Attmax可以很好地突出目标物体的显著特征。令X＝[x1,x2,…，xc],其中xc表示的是第c个卷积核的参数。则：

[0045]

[0046]

[0047] 接着，令和为两个全连接层，训练时两条分支的输入共享全连接层的参数，其中r为全连接层的降维比例。设通道注意力模块部分的输出为：

[0048] outputch＝outputavg+outputmax

[0049] 其中两条分支的输出分别是：

[0050] outputavg＝Sigmoid(FC4×ReLU(FC3×Attavg))

[0051] outputmax＝Sigmoid(FC4×ReLU(FC3×Attmax))

[0052] 接着通过矩阵乘法完成特征加权操作：

[0053] W＝(xc,outputch)＝xc×outputch

[0054] 得到筛选过的通道特征W＝[w1,w2,…,wc]。

[0055] 第一部分的通道特征筛选完成后，需要将W输入至新的空间注意力机制模块中。首先，输入的特征向量将分别经过Attavg以及Attmax，再沿着通道维度进行特征叠加，得到为了能得到二维的特征权重信息，进行卷积操作来降维，令F3×3表示的是输入通道数为2，输出通道数为1，卷积核大小为3×3的卷积操作，则最后特征加权后的输出向量为outputchsp＝F3×3(Ccon)×W，最终，整个通道和空间注意力机制模块的输出为outputchsp+X。

[0056] 步骤3：在目标检测网络上使用训练集进行模型训练，并选出验证集表现最优的模型：最优的模型为在训练过程，每经过1轮存储一次模型，并将该模型在验证集上测试，根据车辆检测的精度mAP选择最优的模型。

[0057] 步骤4：基于最优的模型，在GPU服务器上进行预测，实现对视频流进行目标车辆检测：按适当帧率从摄像头得到照片，用传统图像处理方法降噪、锐化后上传到GPU显存；逐级在其上计算改进的YOLO模型的每一层，获得输出；筛选合适的边界框，最终输出置信值足够高的目标的位置、大小、种类。

[0058] 不难发现，本发明提出了Attention-YOLOv3算法，该算法借鉴了基于项的注意力机制，将通道注意力及空间注意力机制加入特征提取网络之中，使用经过筛选加权的特征向量来替换原有的特征向量进行残差融合，该算法有效降低了边界框的定位误差并提升了检测精度，弥补了YOLOv3边界框定位不够精确、难以区分重叠物体等不足，本发明在保证车辆检测实时性的前提下提高了车辆检测的准确性，具有较高的实用性。

标题	发布/更新时间	阅读量
基于渲染组件元素获取计算资源的方法、系统和存储介质	2020-05-08	287
多模融合无线定位系统及其定位方法	2020-05-08	108
一种定位服务权限变更方法、装置及系统	2020-05-08	665
用于运行至少两个自动化车辆的方法和设备	2020-05-08	236
一种电力物联网场景中基于协同内容缓存的卸载方法	2020-05-08	267
虚拟礼物赠送方法、装置、系统、计算机设备和存储介质	2020-05-11	155
基于时间实现多设备同步显示的方法	2020-05-11	476
基站指纹库数据源补充方法、装置、服务器及存储介质	2020-05-08	548
直播服务系统及直播连接的建立方法	2020-05-11	932
管理基于区块链的中心化账本系统	2020-05-08	1016

基于改进YOLOv3的快速车辆检测方法

基于改进YOLOv3的快速车辆检测方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：