首页 / 专利库 / 电脑编程 / 算法 / 一种基于YOLO V3面向末端制导的热红外图像目标识别方法

一种基于YOLO V3面向末端制导的热红外图像目标识别方法

阅读:231发布:2021-06-06

专利汇可以提供一种基于YOLO V3面向末端制导的热红外图像目标识别方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于YOLO V3面向末端制导的热红外图像目标识别方法,包括如下步骤:获取红外数据集;制作类别标签;处理数据集;先验框聚类;训练网络;评估模型;结果处理。发明首次将YOLO V3模型应用在导弹末端制导中复杂场景下的目标检测。 卷积神经网络 可以很好地提取图像特征,避免了早先手工提取特征的缺点。不同于R-CNN目标检测模型在选择候选区域时所花费时间较多且 算法 复杂,本方法将特征提取和分类融合在一起,对红外目标检测的mAP值可以达到71.33%,检测速度达到了40 帧 每秒。,下面是一种基于YOLO V3面向末端制导的热红外图像目标识别方法专利的具体信息内容。

1.一种基于YOLO V3面向末端制导的热红外图像目标识别方法,其特征在于:包括如下步骤:
步骤1、获取红外数据集:通过截取试验阶段飞行载体的红外摄像头跟踪系统中不同场景、种类、姿态、大小的红外行人及车辆图像作为制作数据集的材料;
步骤2、制作类别标签:对红外行人及车辆图像进行裁剪,设定成固定大小,利用标注框标注训练集图像中每一个目标,得到训练集图像中每一个目标的位置信息与类别信息,位置信息为标注框中心点坐标和标注框宽、高,类别信息即为目标所属类别,以xml格式存储,最后,将标注完成的xml格式文件转换为txt格式文件;
步骤3、处理数据集:制作Pascal voc2007标准化数据集,将步骤(2)处理后的不同类型的原始红外图像数据存放于JPEGImages文件夹中;将步骤2中生成的模型可读的xml文件存放在Annotations文件夹中;在ImageSets文件夹下建立Main文件夹,并在该Main文件夹中新建test.txt、train.txt、trainval.txt、val.txt四个文件,即测试集、训练集、训练和验证集、验证集;
步骤4、先验框聚类:针对热红外图像相比于可见光图像纹理特征弱、边缘不清晰的特点,利用K-means算法进行先验框聚类,通过K-means算法对所述训练集中的图像进行聚类分析,得到新的先验框;
步骤5、训练网络:将训练集输入卷积神经网络,检测网络采用Darknet-53网络结构,采用多尺度预测方法,网格选取初始候选框,每个单元格预测“落入”其中物体的B个边界框及M的置信度,根据类别置信度设置卷积神经网络输出,将小于第一阈值的类别置信度confidence(M)置0,对剩余候选框进行非极大值抑制操作,得到最终预测框;
步骤6、评估模型:对上述设计的网络模型进行评估,以平均精度均值(Mean Average Precision,mAP)作为评估指标,当mAP值小于50%时,调整网络参数重新训练网络;
步骤7、当mAP值大于或等于50%时,保存结果,得到最终权值和训练完的卷积神经网络。
2.根据权利要求1所述的基于YOLO V3面向末端制导的热红外图像目标识别方法,其特征在于:利用所述的网络模型进行导弹末端制导中热红外图像的目标识别,识别步骤如下:
步骤10、导弹进入末端制导阶段后,搭载的光电台从预设好的位置开始转动,逐一遍历巡视下方场景,将所获得的信息以热红外视频的形式传入红外摄像头跟踪系统;
步骤11、导弹跟踪处理器获取热红外视频流,解码视频流为图片;
步骤12、利用训练完的卷积神经网络和最终权值对实时热红外图片进行检测,确定图片中物体类别;
步骤13、判断图片中物体是否为打击目标,若不是,则返回步骤10,光电云台继续转动,遍历下方场景;若该物体是打击目标,则云台定向定,持续跟踪目标,获取目标的位置参数,同时将处理信息送入导弹控制系统;
步骤14、导弹控制系统综合所得到的信息,判断是否对目标进行打击,若是,则发送飞行控制指令,调整导弹飞行轨迹,飞向打击目标;否则,云台继续保持定向锁定状态,红外摄像头跟踪系统不断对目标进行拍摄,重复步骤11至步骤13的操作。
3.根据权利要求2所述的基于YOLO V3面向末端制导的热红外图像目标识别方法,其特征在于:所述步骤13中获取目标的位置参数的方法为通过导弹携带的导航系统获取导弹当前的航向φ、俯仰角γ、横滚角θ,红外摄像头的方位角α和高低角β由光电云台输出,同时,导弹与目标的距离r由测距仪测出,在此条件下,目标在红外摄像头坐标系下的坐标为[xcm ycm zcm]T=[r 0 0]T,则目标在地理坐标系下的坐标可以通过坐标转换求解得出,如下式所示:
式中, 为导弹坐标系向地理坐标系转换的旋转矩阵, 为红外摄像头坐标系向导弹坐标系转换的旋转矩阵,s(·)为sin(·)的简写,c(·)为cos(·)的简写。
4.根据权利要求1所述的基于YOLO V3面向末端制导的热红外图像目标识别方法,其特征在于:所述步骤1中的红外数据集包括训练集和测试集,获取过程为:从红外摄像头跟踪系统中截取两万张图像作为数据集,数据集中一万五千张图像做训练集,剩余五千张图像做测试集。
5.根据权利要求1所述的基于YOLO V3面向末端制导的热红外图像目标识别方法,其特征在于:所述步骤2训练集图像图像大小调整为672×672;标注工具是labelimg;采用YOLO V3算法中voc_label.py文件进行格式转化。
6.根据权利要求1所述的基于YOLO V3面向末端制导的热红外图像目标识别方法,其特征在于:所述步骤4利用K-means算法进行先验框聚类是将每种采样尺度设定3种先验框,总共聚类出9种尺寸的先验框。
7.根据权利要求1所述的基于YOLO V3面向末端制导的热红外图像目标识别方法,其特征在于:所述步骤5中卷积神经网络训练参数设定:迭代次数Iters=50000,学习率变化迭代次数Step=200,400,600,20000,30000,初始学习率m=0.001,Batch=32,学习率变化比率Scales=2.5,2,2,0.1,0.1,权值衰减Decay=0.0003。
8.根据权利要求1所述的基于YOLO V3面向末端制导的热红外图像目标识别方法,其特征在于:所述步骤5中损失函数分为三个部分:目标定位偏移量损失Lloc(l,g),目标置信度损失Lconf(o,c),以及目标分类损失Lcla(O,C),其中λ1,λ2,λ3是平衡系数,即:
L(O,o,C,c,l,g)=λ1Lconf(o,c)+λ2Lcla(O,C)+λ3Lloc(l,g)。
9.根据权利要求1所述的基于YOLO V3面向末端制导的热红外图像目标识别方法,其特征在于:所述步骤5中每个候选框预测5个数据,5个数据包含归一化后的目标坐标x、y,归一化后的候选框的宽和高w、h,以及网格检测此类别目标的置信度confidence,置信度计算公式如下;
式中,Pr(object)为候选框是否存在目标,若一个网格中出现了目标,则Pr(object)的值为1;若没有出现目标,则Pr(object)的值为0;
为候选框与标注框的面积交并比,计算公式如下:
式中Detection Re sult为候选框,GroundTruth为标注框,测试时,网络直接输出目标类别M的类别置信度confidence(M),第一阈值为0.4。
10.根据权利要求1所述的基于YOLO V3面向末端制导的热红外图像目标识别方法,其特征在于:所述步骤5中卷积神经网络输出与最终预测框对应关系为:
bx=σ(tx)+cx;
by=σ(ty)+cy;
式中,bx,by,bw,bh分别是预测的中心坐标x,y,宽度和高度,tx,ty,tw,th是网络的输出,cx和cy是网格的左上角坐标。

说明书全文

一种基于YOLO V3面向末端制导的热红外图像目标识别方法

技术领域

[0001] 本发明涉及热红外图像目标识别方法,特别涉及一种基于YOLO V3面向末端制导的热红外图像目标识别方法。

背景技术

[0002] 导弹的智能化攻击面对复杂动态目标,要求导弹能自动跟踪并且命中目标。导弹制导过程中,导引系统不断测定飞行器与目标或预定轨道的相对位置关系,发出制导信息传递给飞行器控制系统,以控制飞行。末端制导是指飞行器在接近目标的最后阶段的制导过程。在飞行末端,根据目标的实时方位信息需要对导弹的攻击路线进行精密修正。末端制导的先进程度直接影响导弹命中率。在各种精确制导体系中,红外制导因其制导精度高、抗干扰能强、隐蔽性好、效费比高等优点,在现代武器装配发展中占据着重要的地位。任何绝对温度零度以上的物体,由于原子和分子结构内部的热运动,而向外界辐射包括红外波段在内的电磁波能量,红外成像制导是利用红外探测器探测目标的红外辐射,以捕获目标红外图像的制导技术,其图像质量与电视相近,但却可在电视制导系统难以工作的夜间和低能见度下作战。红外成像制导技术已成为制导技术的一个主要发展方向。其中,图像处理与识别即目标检测与识别作为系统的中前端处理环节,是红外成像制导系统的重要组成部分,也是其中的一个关键技术难点问题。只有及时地检测到场景中的目标,才能保证后继的目标跟踪、导弹飞行控制等一系列环节的顺利推进。因此,开展红外成像目标检测与识别中关键技术的研究对于提高武器精确打击能力具有重要意义。
[0003] 目前,红外目标检测识别主要有以下四种方法:第一,经典的统计模式识别方法;第二,基于知识的自动目标识别方法;第三,基于模型的自动目标识别方法;第四,基于多传感器信息融合的自动目标识别方法。
[0004] 第一种是经典的统计模式识别方法。该方法主要是利用目标特性的统计分布,依靠目标识别系统的大量训练和基于模式空间距离度量的特征匹配分类技术,可在较窄的场景定义域内获得较有效的识别。该方法是早期使用的方法,仅在很窄的场景定义域内,且在目标图像和周围背景变化不大的情况下才比较有效,难以解决姿态变化、目标污损变模糊、目标部分被遮蔽等问题。第二种是基于知识的自动目标识别方法。20世纪70年代末,人工智能专家系统开始应用到自动识别的研究,形成了基于知识的自动识别,即知识基(Knowledge Based,KB)系统。基于知识的自动识别算法在一定程度上克服了经典统计模式识别法的局限性和缺陷。该方法目前存在的主要问题是可供利用的知识源的辩识和知识的验证很困难,同时难以在适应新场景中有效地组织知识。第三种是基于模型的自动目标识别方法。模型基(MB)的方法首先是将复杂的目标识别的样本空间模型化,这些模型提供了一种描述样本空问各种重要变化特性的简便途径。典型的MB系统抽取一定的目标特性,并利用这些特性和一些辅助知识来标记目标的模型参数,从而选择一些初始假设,实现目标特性的预测。一个MB系统的最终目标是匹配实际的特性和预测后面的特性,若标记准确,匹配过程则会成功和有效。目前,基于模型的自动目标识别系统均需要采用一些大型数据库,称之为大型数据库是因为它包罗了针对可能出现的各种目标在其外形特征方面的大量信息,库容量相当大。倘若将这样的系统应用于实战中,需要识别的目标数目将是上不封顶的,这样就会导致数据库的规模变得越来越大,最终很难实现实时模型提取和目标图形的匹配比较。因此,MB方法目前尚限于实验室研究阶段。第四种是基于多传感器信息融合的自动目标识别方法。20世纪70年代兴起的基于多传感器信息融合(Multi Sensor 
Information Fusion Based,MIFB)的自动识别方法克服了单一传感器系统在复杂环境中目标搜索、知识识别和易受干扰的缺陷。MIFB的每个传感器将数据反馈入各自的信号处理机,先分别进行目标检测,得出有无目标的判决以及目标的位置信息或运动轨迹,然后将这些信息送入数据融合单元,对目标位置或运动轨迹进行关联后再做进一步的判决。该方法的主要缺点是设备较复杂,操作难度高,难以满足实时性的要求。
[0005] 实际使用中,这些方法往往无法平衡识别准确度与检测速度的关系,成为制约导弹末端制导技术发展的瓶颈。近年来快速发展的深度神经网络为我们提供了一种新的解决思路。最近,研究人员提出多种利用深度神经网络进行自动检测识别的方法,其中,YOLO(You Only Look Once)V3是一个基于Google Net的物体检测深度网络,以其高速和回调率正被运用于许多实时检测系统中。本发明基于YOLO V3设计实现了一种面向末端制导的热红外图像目标识别方法,为推动导弹末端制导发展提供技术支持。

发明内容

[0006] 发明目的:本发明目的是提供一种检测准确率高、检测速度快的基于YOLO V3面向末端制导的热红外图像目标识别方法。
[0007] 技术方案:本发明提供一种基于YOLO V3面向末端制导的热红外图像目标识别方法,包括如下步骤:
[0008] 阶段一:训练网络,保存模型结果
[0009] 步骤1、采集数据,获取完善的数据集。通过截取试验阶段飞行载体的红外摄像头跟踪系统中不同场景、种类、姿态、大小的红外行人及车辆图像作为制作数据集的材料。考虑到红外行人及车辆数据集的数量较少容易在训练时造成过拟合现象,本发明使用平翻转、旋转、亮度变换、放大缩小、添加高斯白噪声这5种图片增广的策略来扩充红外数据集。数据集分为训练集和测试集,为了规划自己的数据,减少出错的可能性,为图片编一个合理的序号,例如0001~0999;
[0010] 步骤2、制作类别标签。对从红外摄像头得到的行人和车辆照片进行裁剪,设定成固定大小。利用标注框标注训练集图像中每一个目标,得到训练集图像中每一个目标的位置信息与类别信息。位置信息为标注框中心点坐标和标注框宽、高,类别信息即为目标所属类别,以xml格式存储。最后,将标注完成的xml格式文件转换为txt格式文件。
[0011] 步骤3、处理数据集。下载Pascal voc2007标准化数据集,清空其原有数据,保留JPEGImages文件夹、Annotations文件夹和ImageSets文件夹。将步骤(2)处理后的不同类型的原始红外图像数据存放于JPEGImages文件夹中,包括训练图片和测试图片。将步骤2中生成的模型可读的xml文件存放在Annotations文件夹中,每一个xml文件都对应于JPEGImages文件夹中的一张图片。在ImageSets文件夹下建立Main文件夹,并在该Main文件夹中新建test.txt、train.txt、trainval.txt、val.txt四个文件,即测试集、训练集、训练和验证集、验证集,这四个文件夹中存储的是上一步中xml文件的文件名。trainval和test内容相加为所有xml文件,train和val内容相加为trainval。
[0012] 步骤4、针对热红外图像相比于可见光图像纹理特征弱、边缘不清晰的特点,利用K-means算法进行先验框聚类。先验框的作用是寻找图像里面可能存在目标的区域,设置合理的先验框能够使得预测结果与真实结果的交并比(Intersection over Union,以下简称IOU)表现更好。其中,IOU是衡量算法预测的目标输出框与人工标注的真实框之间差异的指标,其计算公式如下:
[0013]
[0014] 上式中,A表示算法预测的输出框,B表示标注原始框。
[0015] YOLO V3算法通过在COCO数据集(Microsoft Common Objects in Context,起源于微软于2014年出资标注的Microsoft COCO数据集)上进行聚类得到了9个不同维度的先验框。COCO为可见光数据集,包含了80类不同大小的目标,而本发明的检测目标是导弹红外摄像头所拍摄热红外图像中的行人与车辆,所以YOLO V3中原始的先验框数目与尺寸并不适用。本发明通过K-means算法对所述训练集中的图像进行聚类分析,得到新的先验框。聚类分析的具体过程为:首先,从输入的数据集合中随机选择一个点作为第一个聚类中心;接着,采用IOU得分评判标准,定义新的距离公式
[0016] d(box,centroid)=1-IOU(box,centroid)
[0017] 式中,centroid表示簇中心框,box表示聚类框;其次,对于每个点,我们都计算其和最近的一个种子点的距离,记作D(x);然后,选择一个新的数据点作为新的聚类中心,选择的原则为使D(x)数值越大的点,被选取作为聚类中心的概率越大;重复上述两个步骤直到K个聚类中心被选出来;最后,利用这K个初始的聚类中心来运行K-means算法,直到聚类中心的位置不变,以K值作为anchor的个数,其中位于聚类中心的边框为最终要求的先验框。
[0018] 步骤5、训练网络。将训练集输入卷积神经网络,通过不断迭代训练网络求取目标检测所需的权值。神经网络学习的本质,其实就是利用损失函数来调节网络中的权值。本发明检测网络采用Darknet-53网络结构,包括52个卷积层和1个全连接层,加入多个连续的3×3和1×1的卷积,每个卷积层均通过批归一化Batch Normalization和Leaky relu激活函数操作。同时,本发明在Darknet-53基础上借鉴了残差网络(residual network)的做法,在一些层之间设置了快捷链路(shortcut connections)。为了支持多标签对象,预测对象类别时不使用softmax,改成使用logistic的输出进行预测。
[0019] 步骤6、采用多尺度预测方法,实现过大目标与过小目标的高精度检测。传统的目标检测算法在一个固定的特征图上进行物体检测识别,往往不能平衡过大目标和过小目标的检测效果,造成漏检或误检情况的发生。例如,YOLO V1在7×7的特征图上进行物体类别和位置预测,虽然这足以胜任大尺度物体的检测,但当图像中物体过小时检测正确率大幅度下降,达不到所规定的要求标准。因此,本发明通过不同比例的下采样,将步骤4中输出的特征图分割成21×21,42×42和84×84三种不同网格,同时兼顾图像中不同尺寸的物体。网格中每个格子负责检测“落入”该格子的物体,即,若某个物体的中心位置的坐标落入到某个格子,那么这个格子就负责检测出这个物体。
[0020] 步骤7、网格选取初始候选框,每个单元格会预测B个边界框(bounding box)以及目标类别M的类别置信度。所谓置信度包含两个方面,一是这个边界框含有目标的可能性大小,二是这个边界框的准确度。根据类别置信度设置卷积神经网络输出,将小于第一阈值的类别置信度confidence(M)置0,对剩余候选框进行非极大值抑制操作,得到最终预测框。
[0021] 步骤8、对所设计的网络模型进行评估,以mAP值作为评估指标,当mAP值小于50%时,调整网络参数重新训练。
[0022] 步骤9、模型达到要求时,保存结果,得到最终权值和训练完的卷积神经网络,用于阶段二的检测。
[0023] 进一步地,阶段二:利用所得到的网络模型进行导弹末端制导中热红外图像的目标识别
[0024] 步骤10、导弹进入末端制导阶段后,搭载的光电台从预设好的位置开始转动,逐一遍历巡视下方场景,将所获得的信息以热红外视频的形式传入摄像头跟踪系统。
[0025] 步骤11、导弹跟踪处理器获取热红外视频流,解码视频流为图片。
[0026] 步骤12、利用阶段一中训练完的卷积神经网络和最终权值对实时热红外图片进行检测,确定图片中物体类别。
[0027] 步骤13、判断图片中物体是否为打击目标。若不是,则返回步骤10,光电云台继续转动,遍历下方场景。若该物体是打击目标,则云台定向定,持续跟踪目标,获取目标的位置参数,同时将处理信息送入导弹控制系统。
[0028] 步骤14、导弹控制系统综合所得到的信息,判断是否对目标进行打击。若是,则发送飞行控制指令,调整导弹飞行轨迹,飞向打击目标。否则,云台继续保持定向锁定状态,红外摄像头不断对目标进行拍摄,重复步骤11至步骤13的操作。
[0029] 进一步地,步骤13中获取目标位置参数的具体方法为:通过导弹携带的导航系统获取导弹当前的航向 俯仰角γ、横滚角θ,红外摄像头的方位角α和高低角β由光电云台输出,同时,导弹与目标的距离r由测距仪测出。在此条件下,目标在红外摄像头坐标系下的坐标为[xcmycmzcm]T=[r 0 0]T,则目标在地理坐标系下的坐标可以通过坐标转换求解得出,如下式所示:
[0030]
[0031] 式中, 为导弹坐标系向地理坐标系转换的旋转矩阵, 为红外摄像头坐标系向导弹坐标系转换的旋转矩阵,s(·)为sin(·)的简写,c(·)为cos(·)的简写。
[0032] 进一步地,步骤1中获取数据集,数据集分为训练集和测试集。具体过程为:从红外摄像头跟踪系统中截取两万张图像作为数据集,数据集中一万五千张图像做训练集,剩余五千张图像做测试集。数据集中图像为导弹前方视野状况,图像包括行人和车辆两类目标。步骤2中对训练集图像进行预处理具体方法为将训练集图像大小调整为672×672,使得模型对小目标的敏感度更高。步骤2中使用的标注工具是labelimg。步骤2中采用YOLO V3算法中voc_label.py文件进行格式转化。步骤4中采用K-means聚类得到先验框的尺寸,为每种下采样尺度设定3种先验框,总共聚类出9种尺寸的先验框。本发明使用的9个先验框是:(15×27),(25×39),(47×66),(72×53),(81×155),(154×188),(211×276),(398×501),(563×640)。分配上,在最小的21×21特征图上(有最大的感受野)应用较大的先验框(211×276),(398×501),(563×640),适合检测较大的对象。中等的42×42特征图上(中等感受野)应用中等的先验框(72×53),(81×155),(154×188),适合检测中等大小的对象。较大的84×84特征图上(较小的感受野)应用较小的先验框(15×27),(25×39),(47×66),适合检测较小的对象。步骤5中初始化卷积神经网络训练参数设定:迭代次数Iters=50000,学习率变化迭代次数Step=200,400,600,20000,30000,初始学习率m=0.001,Batch=32,学习率变化比率Scales=2.5,2,2,0.1,0.1,权值衰减Decay=0.0003。步骤5中损失函数主要分为三个部分:目标定位偏移量损失Lloc(l,g),目标置信度损失Lconf(o,c),以及目标分类损失Lcla(O,C),其中λ1,λ2,λ3是平衡系数,即:
[0033] L(O,o,C,c,l,g)=λ1Lconf(o,c)+λ2Lcla(O,C)+λ3Lloc(l,g)。
[0034] 步骤7中网格进行目标检测,每一个候选框预测5个数据。5个数据包含归一化后的目标坐标x、y,归一化后的候选框的宽和高w、h,以及网格检测此类别目标的置信度confidence。置信度计算公式如下;
[0035]
[0036] 式中Pr(object)为候选框是否存在目标,若一个网格中出现了目标,则Pr(object)的值为1;若没有出现目标,则Pr(object)的值为0。
[0037] 为候选框与标注框的面积交并比,计算公式如下:
[0038]
[0039] 式中Detection Re sult为候选框,GroundTruth为标注框。测试时,网络直接输出目标类别M的类别置信度confidence(M)。第一阈值为0.4。
[0040] 步骤7中卷积神经网络输出与最终预测框对应关系为:
[0041] bx=σ(tx)+cx;
[0042] by=σ(ty)+cy;
[0043]
[0044]
[0045] bx,by,bw,bh分别是预测的中心坐标x,y,宽度和高度。tx,ty,tw,th是网络的输出。cx和cy是网格的左上角坐标。
[0046] 有益效果:本发明首次将YOLO V3模型应用在导弹末端制导中复杂场景下的目标检测。YOLO V3模型结构简单,检测准确率高,检测速度快。实验结果表明,使用本发明模型对红外目标检测的mAP值可以达到71.33%,检测速度达到了40帧每秒,可满足目标检测要求。附图说明
[0047] 图1为热红外成像制导系统组成;
[0048] 图2为本发明阶段一流程图
[0049] 图3为本发明阶段二流程图;
[0050] 图4为本发明所使用的网络结构模型;
[0051] 图5为本发明部分红外数据集图像;
[0052] 图6为原始热红外图像与使用本发明所设计算法进行检测的结果。

具体实施方式

[0053] 如图1-6,本实施例的检测方法,包括如下步骤:
[0054] 阶段一:训练网络,保存模型结果
[0055] 步骤1、采集数据,获取完善的数据集。通过截取试验阶段飞行载体的红外摄像头跟踪系统中不同场景、种类、姿态、大小的红外行人及车辆图像作为制作数据集的材料。考虑到红外行人及车辆数据集的数量较少容易在训练时造成过拟合现象,本发明使用水平翻转、旋转、亮度变换、放大缩小、添加高斯白噪声这5种图片增广的策略来扩充红外数据集。数据集分为训练集和测试集,为了规划自己的数据,减少出错的可能性,为图片编一个合理的序号,例如0001~0999;步骤1中获取数据集,数据集分为训练集和测试集。具体过程为:
从红外摄像头跟踪系统中截取两万张图像作为数据集,数据集中一万五千张图像做训练集,剩余五千张图像做测试集。数据集中图像为导弹前方视野状况,图像包括行人和车辆两类目标。
[0056] 步骤2、制作类别标签。对从红外摄像头得到的行人和车辆照片进行裁剪,设定成固定大小。利用标注框标注训练集图像中每一个目标,得到训练集图像中每一个目标的位置信息与类别信息。位置信息为标注框中心点坐标和标注框宽、高,类别信息即为目标所属类别,以xml格式存储。最后,将标注完成的xml格式文件转换为txt格式文件。步骤2中对训练集图像进行预处理具体方法为将训练集图像大小调整为672×672,使得模型对小目标的敏感度更高。使用的标注工具是labelimg。采用YOLO V3算法中voc_label.py文件进行格式转化。
[0057] 步骤3、处理数据集。下载Pascal voc2007标准化数据集,清空其原有数据,保留JPEGImages文件夹、Annotations文件夹和ImageSets文件夹。将收集到的不同类型的原始红外图像数据存放于JPEGImages文件夹中,包括训练图片和测试图片。将步骤2中生成的模型可读的xml文件存放在Annotations文件夹中,每一个xml文件都对应于JPEGImages文件夹中的一张图片。在ImageSets文件夹下建立Main文件夹,并在该Main文件夹中新建test.txt、train.txt、trainval.txt、val.txt四个文件,即测试集、训练集、训练和验证集、验证集,这四个文件夹中存储的是上一步中xml文件的文件名。trainval和test内容相加为所有xml文件,train和val内容相加为trainval。
[0058] 步骤4、针对热红外图像相比于可见光图像纹理特征弱、边缘不清晰的特点,利用K-means算法进行先验框聚类。先验框的作用是寻找图像里面可能存在目标的区域,设置合理的先验框能够使得预测结果与真实结果的交并比(Intersection over Union,以下简称IOU)表现更好。其中,IOU是衡量算法预测的目标输出框与人工标注的真实框之间差异的指标,其计算公式如下:
[0059]
[0060] 上式中,A表示算法预测的输出框,B表示标注原始框。
[0061] YOLO V3算法通过在COCO数据集(Microsoft Common Objects in Context,起源于微软于2014年出资标注的Microsoft COCO数据集)上进行聚类得到了9个不同维度的先验框。COCO为可见光数据集,包含了80类不同大小的目标,而本发明的检测目标是导弹红外摄像头所拍摄热红外图像中的行人与车辆,所以YOLO V3中原始的先验框数目与尺寸并不适用。本发明通过K-means算法对所述训练集中的图像进行聚类分析,得到新的先验框。聚类分析的具体过程为:首先,从输入的数据集合中随机选择一个点作为第一个聚类中心;接着,采用IOU得分评判标准,定义新的距离公式
[0062] d(box,centroid)=1-IOU(box,centroid)
[0063] 式中,centroid表示簇中心框,box表示聚类框;其次,对于每个点,我们都计算其和最近的一个种子点的距离,记作D(x);然后,选择一个新的数据点作为新的聚类中心,选择的原则为使D(x)数值越大的点,被选取作为聚类中心的概率越大;重复上述两个步骤直到K个聚类中心被选出来;最后,利用这K个初始的聚类中心来运行K-means算法,直到聚类中心的位置不变,以K值作为anchor的个数,其中位于聚类中心的边框为最终要求的先验框。
[0064] 步骤4中采用K-means聚类得到先验框的尺寸,为每种下采样尺度设定3种先验框,总共聚类出9种尺寸的先验框。本发明使用的9个先验框是:(15×27),(25×39),(47×66),(72×53),(81×155),(154×188),(211×276),(398×501),(563×640)。分配上,在最小的21×21特征图上(有最大的感受野)应用较大的先验框(211×276),(398×501),(563×640),适合检测较大的对象。中等的42×42特征图上(中等感受野)应用中等的先验框(72×
53),(81×155),(154×188),适合检测中等大小的对象。较大的84×84特征图上(较小的感受野)应用较小的先验框(15×27),(25×39),(47×66),适合检测较小的对象。
[0065] 步骤5、训练网络。将训练集输入卷积神经网络,通过不断迭代训练网络求取目标检测所需的权值。神经网络学习的本质,其实就是利用损失函数来调节网络中的权值。本发明检测网络采用Darknet-53网络结构,包括52个卷积层和1个全连接层,加入多个连续的3×3和1×1的卷积,每个卷积层均通过批归一化Batch Normalization和Leaky relu激活函数操作。同时,本发明在Darknet-53基础上借鉴了残差网络(residual network)的做法,在一些层之间设置了快捷链路(shortcut connections)。为了支持多标签对象,预测对象类别时不使用softmax,改成使用logistic的输出进行预测。步骤5中初始化卷积神经网络训练参数设定:迭代次数Iters=50000,学习率变化迭代次数Step=200,400,600,20000,30000,初始学习率m=0.001,Batch=32,学习率变化比率Scales=2.5,2,2,0.1,0.1,权值衰减Decay=0.0003。步骤5中损失函数主要分为三个部分:目标定位偏移量损失Lloc(l,g),目标置信度损失Lconf(o,c),以及目标分类损失Lcla(O,C),其中λ1,λ2,λ3是平衡系数,即:
[0066] L(O,o,C,c,l,g)=λ1Lconf(o,c)+λ2Lcla(O,C)+λ3Lloc(l,g)。
[0067] 步骤6、采用多尺度预测方法,实现过大目标与过小目标的高精度检测。传统的目标检测算法在一个固定的特征图上进行物体检测识别,往往不能平衡过大目标和过小目标的检测效果,造成漏检或误检情况的发生。例如,YOLO V1在7×7的特征图上进行物体类别和位置预测,虽然这足以胜任大尺度物体的检测,但当图像中物体过小时检测正确率大幅度下降,达不到所规定的要求标准。因此,本发明通过不同比例的下采样,将步骤4中输出的特征图分割成21×21,42×42和84×84三种不同网格,同时兼顾图像中不同尺寸的物体。网格中每个格子负责检测“落入”该格子的物体,即,若某个物体的中心位置的坐标落入到某个格子,那么这个格子就负责检测出这个物体。
[0068] 步骤7、网格选取初始候选框,每个单元格会预测B个边界框(bounding box)以及目标类别M的类别置信度。所谓置信度包含两个方面,一是这个边界框含有目标的可能性大小,二是这个边界框的准确度。根据类别置信度设置卷积神经网络输出,将小于第一阈值的类别置信度confidence(M)置0,对剩余候选框进行非极大值抑制操作,得到最终预测框。
[0069] 步骤7中网格进行目标检测,每一个候选框预测5个数据。5个数据包含归一化后的目标坐标x、y,归一化后的候选框的宽和高w、h,以及网格检测此类别目标的置信度confidence。置信度计算公式如下;
[0070]
[0071] 式中Pr(object)为候选框是否存在目标,若一个网格中出现了目标,则Pr(object)的值为1;若没有出现目标,则Pr(object)的值为0。
[0072] 为候选框与标注框的面积交并比,计算公式如下:
[0073]
[0074] 式中Detection Re sult为候选框,GroundTruth为标注框。测试时,网络直接输出目标类别M的类别置信度confidence(M)。第一阈值为0.4。
[0075] 步骤7中卷积神经网络输出与最终预测框对应关系为:
[0076] bx=σ(tx)+cx
[0077] by=σ(ty)+cy
[0078]
[0079]
[0080] bx,by,bw,bh分别是预测的中心坐标x,y,宽度和高度。tx,ty,tw,th是网络的输出。cx和cy是网格的左上角坐标。
[0081] 步骤8、对所设计的网络模型进行评估,以mAP值作为评估指标,当mAP值小于50%时,调整网络参数重新训练。
[0082] 步骤9、模型达到要求时,保存结果,得到最终权值和训练完的卷积神经网络,用于阶段二的检测。
[0083] 阶段二:利用所得到的网络模型进行导弹末端制导中热红外图像的目标识别[0084] 步骤10、导弹进入末端制导阶段后,搭载的光电云台从预设好的位置开始转动,逐一遍历巡视下方场景,将所获得的信息以热红外视频的形式传入摄像头跟踪系统。
[0085] 步骤11、导弹跟踪处理器获取热红外视频流,解码视频流为图片。
[0086] 步骤12、利用阶段一中训练完的卷积神经网络和最终权值对实时热红外图片进行检测,确定图片中物体类别。
[0087] 步骤13、判断图片中物体是否为打击目标。若不是,则返回步骤10,光电云台继续转动,遍历下方场景。若该物体是打击目标,则云台定向锁定,持续跟踪目标,获取目标的位置参数,同时将处理信息送入导弹控制系统。
[0088] 其中,获取目标位置参数的具体方法为:通过导弹携带的导航系统获取导弹当前的航向角 俯仰角γ、横滚角θ,红外摄像头的方位角α和高低角β由光电云台输出,同时,导弹与目标的距离r由测距仪测出。在此条件下,目标在红外摄像头坐标系下的坐标为[xcmycmzcm]T=[r 0 0]T,则目标在地理坐标系下的坐标可以通过坐标转换求解得出,如下式所示:
[0089]
[0090] 式中, 为导弹坐标系向地理坐标系转换的旋转矩阵, 为红外摄像头坐标系向导弹坐标系转换的旋转矩阵,s(·)为sin(·)的简写,c(·)为cos(·)的简写。
[0091] 步骤14、导弹控制系统综合所得到的信息,判断是否对目标进行打击。若是,则发送飞行控制指令,调整导弹飞行轨迹,飞向打击目标。否则,云台继续保持定向锁定状态,红外摄像头不断对目标进行拍摄,重复步骤11至步骤13的操作。
[0092] 热红外成像制导系统组成及工作原理如图1所示,包括红外摄像头、摄像头跟踪系统、跟踪处理器、图像处理、图像识别、导弹控制系统。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈