一种面向航拍影像的目标跟踪方法专利检索-共中心点道集自然灾害的预防与保护专利检索查询-专利查询网

一种面向航拍影像的目标跟踪方法

阅读：754发布：2020-05-16

专利汇可以提供一种面向航拍影像的目标跟踪方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种面向航拍影像的目标跟踪方法，包括：S100在上一帧的目标位置周围，执行增量式的搜索策略；S200 采样的样本经过孪生网络和区域推荐网络，得到预测位置的目标；S300通过计算预测位置的目标与目标模板的相似度判断预测是否成功；若预测成功，则保存具体的目标位置并用于下一次预测；预测失败时，若系统在连续的N帧内有n帧预测失败，则判断为目标丢失，进入步骤S400，否则判断为误检测；S400将检测框初始化，并置于当前帧图像的中心点，执行增量式的搜索策略，重新检测和跟踪，直到重新定位到目标。本发明对于目标被遮挡后的重新检测速度有明显的提升，减少了检测框的误采样计算，能够快速的重新定位。，下面是一种面向航拍影像的目标跟踪方法专利的具体信息内容。

权利要求

1.一种面向航拍影像的目标跟踪方法，其特征在于，包括如下步骤：
S100在上一帧的目标位置周围，执行增量式的搜索策略；
S200采样的样本经过孪生网络和区域推荐网络，得到预测位置的目标；
S300通过计算预测位置的目标与目标模板的相似度判断预测是否成功；
若预测成功，则保存目标位置并用于下一次预测；
若系统在连续的N帧内有n帧预测失败，则判断为目标丢失，进入步骤S400；其中，1≤n≤N；
S400将检测框初始化，并置于当前帧图像的中心点，执行增量式的搜索策略，重新检测和跟踪，直到重新定位到目标。
2.根据权利要求1所述的一种面向航拍影像的目标跟踪方法，其特征在于，所述步骤S100，包括：
目标在上一帧中的位置记为Pt-1，当前帧以上一帧目标位置Pt-1为初始点在周围进行采样，设置一个模板尺寸大小的初始采样框，增量式地增长采样框的大小，扩大检测的覆盖区域，直至确定出目标的位置；
其中，base_w、base_h分别表示采样框的初始宽高，α1、α2表示增长系数，取值范围为[0.1,1]，w、h分别表示当前采样框的宽高。
3.根据权利要求2所述的一种面向航拍影像的目标跟踪方法，其特征在于，所述步骤S200，包括：
采样框当前的宽高记为w×h，采样的样本经过孪生网络NS和区域推荐网络NR，得到预测位置的目标。
4.根据权利要求3所述的一种面向航拍影像的目标跟踪方法，其特征在于，所述步骤S300，包括：
计算预测位置的目标与目标模板的相似度S，计算目标的具体位置Pt，相似度S的取值范围为[0,1]，s为阈值；S∈[0，s)为预测失败，S∈[s，1]为预测成功；
当系统在连续的N帧内有n帧预测失败时，则判断为目标丢失，启动检测功能，重新寻找目标并设置为模板帧Ft；
其中，T表示阈值，flag表示重新检测开始的标志位。
5.根据权利要求4所述的一种面向航拍影像的目标跟踪方法，其特征在于，所述步骤S400，包括：
当系统判断检测框连续n帧预测失败后，启动检测框初始化，将检测框置于当前帧图像的中心点Pt，执行增量式的搜索策略，重新检测和跟踪；
当系统从目标丢失状态重新定位到目标时，从步骤S100继续顺序执行，完成持续跟踪，否则继续执行步骤S400，直到重新定位出目标。
6.根据权利要求1所述的一种面向航拍影像的目标跟踪方法，其特征在于，所述的孪生网络和区域推荐网络的训练方法：
对目标跟踪数据集和目标检测数据集进行数据增强；
从视频序列中设定模板帧Ft和待跟踪帧Fc并进行预处理；模板帧Ft的宽高设为wt、ht，待跟踪帧Fc的宽高设为wc、hc；
孪生网络NS由两个并行的ResNet网络分支N1、N2，通过权值共享构成；模板帧Ft和待跟踪帧Fc分别输入N1、N2，依次经过卷积、池化和ReLU进行特征提取，Conv(Ft)和Conv(Fc)表示特征提取后输出的特征图；
区域推荐网络NR，网络内部存在两个分支Bcls、Breg，一个用于前景和背景的分类分支Bcls，另一个用于推荐框的回归分支Breg；每个分支中各包含一个特征图互相关操作用于生成相应结果；
将特征图Conv(Ft)和Conv(Fc)送入区域推荐网络NR，通过并行的两个卷积层将Conv(Ft)增加为含有不同通道数目的两个分支[Conv(Ft)]cls和[Conv(Ft)]reg；通过并行的两个卷积层将Conv(Fc)增加为含有相同特征图尺寸的两个分支[Conv(Fc)]cls和[Conv(Fc)]reg；k为特征图上设置的参考框数，k的取值范围为[1，10]；
分类分支Bcls和回归分支Breg分别计算互相关，互相关的定义是令模板帧的特征图Conv(Ft)和待跟踪帧的特征图Conv(Fc)进行卷积运算，得到目标的响应特征图Acls和Areg，网络输出2k个通道用于目标分类，4k个通道用于目标框回归；表示卷积符号；
训练网络时的分类损失Lcls使用交叉熵损失，回归损失Lreg使用具有标准化坐标的平滑L1损失；
归一化后的误差为：
其中，y为标签值，为实际分类值；Ax，Ay表示参考框的中心点，Aw，Ah表示参考框的宽高，Tx，Ty，Tw，Th表示ground truth框，σ表示方差值；
λ是一个超参数，用于平衡两类损失，优化损失函数为：
loss＝Lcls+λLreg
孪生网络NS和区域推荐网络NR联合训练，利用随机梯度下降对误差求偏导，共训练m个周期,初始学习率为ε1，参考框的比率设置为[r1,r2,r3,…,rp]。

说明书全文

一种面向航拍影像的目标跟踪方法

技术领域

[0001] 本发明属于图像处理和计算机视觉技术领域，特别涉及一种面向航拍影像的目标跟踪方法。

背景技术

[0002] 目标跟踪是计算机视觉中的一个重要研究方向，作为视频信息分析的重要研究内容，其主要目的是在视频序列中对人们感兴趣的目标进行运动轨迹估计，自动地获得目标物体在整个视频序列中的运动信息和位置信息，从而为场景识别、动作识别、无人驾驶等更高级的计算机视觉任务提供重要的研究基础。

[0003] 现代的目标跟踪大致可以分为两个分支。第一个分支是基于相关滤波器，利用循环性质训练回归器，在频域中进行相关运算。它可以进行在线跟踪，同时有效地更新滤波器的权重。对比文件1(Danelljan M,Bhat G,Shahbaz Khan F,et al.Eco:Efficient convolution operators for tracking[C].Proceedings of the IEEE conference on computer vision and pattern recognition.2017:6638-6646.)中Martin Danelljan等人提出的ECO 算法属于相关滤波分支，对于目标的运动模糊、变形和背景的光照变化等不利因素，有着很强的适应能力。当系统进入在线跟踪阶段，每间隔6 帧更新一次网络参数，有效地提高了跟踪算法的速度；同时为了保证跟踪的准确性，对在线跟踪中的样本集进行每帧更新，这样间隔帧更新的方式不会错过间隔期的样本变化信息，因此提高了模型对遮挡，目标突变等情况的稳定性。但是当目标被长时间遮挡后，在线更新的模型将会采用遮挡的背景作为采样样本，则模型变得不再可靠，难以继续跟踪原目标。对比文件2(上海交通大学.基于相关滤波的抗遮挡目标跟踪方法:中国，201811071458.0[P].2019-02-01.)中提出一种基于相关滤波的抗遮挡目标跟踪方法。在手动选择跟踪目标之后，先使用LCT跟踪器中的运动相关滤波器和外观相关滤波器，分别对目标的平移及目标的尺度进行估计并得到目标跟踪结果，并在丢失目标时采用在线分类器的检测结果作为跟踪结果以恢复准确目标跟踪。另一个分支是以深度学习为代表的目标跟踪方法。对比文件3(山东大学.基于分层卷积特征的长时间目标跟踪方法及系统:中国，201811318709.0[P].2018-12-25.)中提出了基于分层卷积特征的长时间目标跟踪方法及系统，采用预训练好的深度卷积神经网络对每一帧视频数据提取各层的卷积特征；在逐帧更新的过程中设定阈值，只有当跟踪响应值大于阈值时进行更新相关滤波器模型，否则采用上一帧的相关滤波器模型，同时，跟踪响应值低于设定的阈值时，采用随机算法进行目标的重新检测。对比文件4(Zhu Z,Wang Q,Li B,et al.Distractor-aware siamese networks for visual object tracking[C].Proceedings of the European Conference on Computer Vision(ECCV).2018:101-117.)中Zheng Zhu提出的DaSiamRPN，通过一系列数据增强手段扩充样本以提高跟踪器的泛化能力，可以很好地应对长时跟踪问题。但是，由于深度学习用到了大量的模型参数，在跟踪速度上很难应用于实际。

发明内容

[0004] 针对现有目标跟踪算法难以应用于实际的不足，提出了一种面向航拍影像的目标跟踪方法，通过提高深度学习方法的检测和跟踪速度，使其应用于实际工程。

[0005] 一种面向航拍影像的目标跟踪方法，包括如下步骤：

[0006] S100在上一帧的目标位置周围，执行增量式的搜索策略；

[0007] S200采样的样本经过孪生网络和区域推荐网络，得到预测位置的目标；

[0008] S300通过计算预测位置的目标与目标模板的相似度判断预测是否成功；

[0009] 若预测成功，则保存目标位置并用于下一次预测；

[0010] 若系统在连续的N帧内有n帧预测失败，则判断为目标丢失，进入步骤S400；其中，1≤n≤N；

[0011] S400将检测框初始化，并置于当前帧图像的中心点，执行增量式的搜索策略，重新检测和跟踪，直到重新定位到目标。

[0012] 优选的，所述步骤S100，包括：

[0013] 目标在上一帧中的位置记为Pt-1，当前帧以上一帧目标位置Pt-1为初始点在周围进行采样，设置一个模板尺寸大小的初始采样框，增量式地增长采样框的大小，扩大检测的覆盖区域，直至确定出目标的位置；

[0014]

[0015] 其中，base_w、base_h分别表示采样框的初始宽高，α1、α2表示增长系数，取值范围为[0.1,1]，w、h分别表示当前采样框的宽高。

[0016] 优选的，所述步骤S200，包括：

[0017] 采样框当前的宽高记为w×h，采样的样本经过孪生网络NS和区域推荐网络NR，得到预测位置的目标。

[0018] 优选的，所述步骤S300，包括：

[0019] 计算预测位置的目标与目标模板的相似度S，计算目标的具体位置Pt，相似度S的取值范围为[0,1]，s为阈值；S∈[0，s)为预测失败，S∈[s，1]为预测成功；

[0020] 当系统在连续的N帧内有n帧预测失败时，则判断为目标丢失，启动检测功能，重新寻找目标并设置为模板帧Ft；

[0021]

[0022] 其中，T表示阈值，flag表示重新检测开始的标志位。

[0023] 优选的，所述步骤S400，包括：

[0024] 当系统判断检测框连续n帧预测失败后，启动检测框初始化，将检测框置于当前帧图像的中心点Pt，执行增量式的搜索策略，重新检测和跟踪；

[0025]

[0026] 当系统从目标丢失状态重新定位到目标时，从步骤S100继续顺序执行，完成持续跟踪，否则继续执行步骤S400，直到重新定位出目标。

[0027] 优选的，所述的孪生网络和区域推荐网络的训练方法：

[0028] 对目标跟踪数据集和目标检测数据集进行数据增强；

[0029] 从视频序列中设定模板帧Ft和待跟踪帧Fc并进行预处理；模板帧Ft的宽高设为wt、ht，待跟踪帧Fc的宽高设为wc、hc；

[0030] 孪生网络NS由两个并行的ResNet网络分支N1、N2，通过权值共享构成；模板帧Ft和待跟踪帧Fc分别输入N1、N2，依次经过卷积、池化和ReLU进行特征提取，Conv(Ft)和Conv(Fc)表示特征提取后输出的特征图；

[0031] 区域推荐网络NR，网络内部存在两个分支Bcls、Breg，一个用于前景和背景的分类分支Bcls，另一个用于推荐框的回归分支Breg；每个分支中各包含一个特征图互相关操作用于生成相应结果；

[0032] 将特征图Conv(Ft)和Conv(Fc)送入区域推荐网络NR，通过并行的两个卷积层将Conv(Ft)增加为含有不同通道数目的两个分支[Conv(Ft)]cls和[Conv(Ft)]reg；通过并行的两个卷积层将Conv(Fc)增加为含有相同特征图尺寸的两个分支[Conv(Fc)]cls和[Conv(Fc)]reg；k为特征图上设置的参考框数，k的取值范围为[1，10]；

[0033] 分类分支Bcls和回归分支Breg分别计算互相关，互相关的定义是令模板帧的特征图Conv(Ft)和待跟踪帧的特征图Conv(Fc)进行卷积运算，得到目标的响应特征图Acls和Areg，网络输出2k个通道用于目标分类，4k个通道用于目标框回归；表示卷积符号；

[0034]

[0035] 训练网络时的分类损失Lcls使用交叉熵损失，回归损失Lreg使用具有标准化坐标的平滑L1损失；

[0036] 归一化后的误差为：

[0037]

[0038]

[0039]

[0040] 其中，y为标签值，为实际分类值；Ax，Ay表示参考框的中心点，Aw，Ah表示参考框的宽高，Tx，Ty，Tw，Th表示ground truth框，σ表示方差值；

[0041] λ是一个超参数，用于平衡两类损失，优化损失函数为：

[0042] loss＝Lcls+λLreg

[0043] 孪生网络NS和区域推荐网络NR联合训练，利用随机梯度下降对误差求偏导，共训练m个周期,初始学习率为ε1，参考框的比率设置为[r1,r2,r3,…,rp]。

[0044] 与现有技术相比，本发明的有益效果：

[0045] 1.本发明提出了一种新的搜索触发方式。当系统判断目标丢失时，不立即触发全局的目标检测功能，而是以当前帧开始计数，若连续的N帧有n帧目标丢失，本发明认为目标的确丢失，开启目标的重新检测功能，否则认为是系统的误检测。避免系统的额外操作，减少运算量。

[0046] 2.当系统确定目标丢失后，本发明启用一种增量搜索模型。由于目标在连续帧间隔内，运动状态差别小，本发明在当前帧以上一帧目标位置为初始点在周围进行采样，增量式地增长检测框的大小，逐渐扩大检测框的覆盖区域。相比于在整张图像上进行检测，本发明方法显著减少了系统的运算量，提升了重新检测速度。

[0047] 3.提出了一种检测框的重新初始化机制，当系统判断检测框连续n帧预测失败后，将检测框强行置于图像的中心点，再执行增量式的搜索策略。避免检测框因检测错误导致长时间停留在图像边缘，陷入图像的局部，无法检测到图像中央区域等其它部分。

[0048] 4.本发明将检测和跟踪进行有效结合，通过对检测和跟踪判决机制的改进和优化，减小了系统的运算量，提升了系统的处理速度，对于航拍影像具有更长时间的稳定跟踪，更适用于实际应用。附图说明：

[0049] 图1为本发明的测试流程图示意图。

[0050] 图2为本发明的训练流程图示意图。

[0051] 图3为本实施例中的模板帧示意图。

[0052] 图4为本实施例中的待跟踪帧示意图。

[0053] 图5为本实施例中的孪生网络示意图。

[0054] 图6为本实施例中的通道扩充示意图。

[0055] 图7为本实施例中的互相关操作示意图。

[0056] 图8为本实施例中的网络总框架图示意图。

具体实施方式

[0057] 下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

[0058] 一种面向航拍影像的目标跟踪方法，如图1所示，通过提高深度学习方法的检测和跟踪速度，使其应用于实际工程。通过在目标跟踪中设计一种新的目标搜索触发方式，降低系统误检率；通过在待检测位置设计一种增量式的检测框，避免了全域检测带来的计算量过大问题；通过设计一种检测框的重新初始化方法，避免系统在跟踪失败后使目标框陷入局部。经过上述创新方法的组合，本发明显著减少了跟踪过程中的冗余计算，加快了系统的处理速度，在目标丢失后，能够快速重新定位目标并对目标进行长时有效跟踪。具体的步骤如下：

[0059] (1)在训练阶段，对目标跟踪数据集(采用OTB、VOT)和目标检测数据集(COCO)进行数据增强(图像平移、旋转、缩放、裁减、颜色变化)。从视频序列中设定模板帧Ft和待跟踪帧Fc并进行预处理，如图3、图4。模板帧Ft的宽高设为wt、ht，其大小设置为127×127，待跟踪帧Fc的宽高设为wc、hc，其大小设置为255×255。

[0060] (2)设计两个并行的ResNet网络分支N1、N2，通过权值共享构成孪生网络NS。模板帧Ft和待跟踪帧Fc分别输入N1、N2，依次经过卷积、池化和ReLU进行特征提取，Conv(Ft)和Conv(Fc)表示特征提取后输出的特征图，如图5。

[0061] (3)设计区域推荐网络NR，网络内部存在两个分支Bcls、Breg，一个用于前景和背景的分类分支Bcls，另一个用于推荐框的回归分支Breg。每个分支中各包含一个特征图互相关操作用于生成相应结果。

[0062] (4)将特征图Conv(Ft)和Conv(Fc)送入区域推荐网络NR，通过并行的两个卷积层将Conv(Ft)增加为含有不同通道数目的两个分支[Conv(Ft)]cls和[Conv(Ft)]reg；通过并行的两个卷积层将Conv(Fc)增加为含有相同特征图尺寸的两个分支[Conv(Fc)]cls和[Conv(Fc)]reg，如图6。k为特征图上设置的参考框数，k的取值范围为[1，10]，本实施例设置为5。

[0063] (5)分类分支Bcls和回归分支Breg分别计算互相关，互相关的定义是令模板帧的特征图Conv(Ft)和待跟踪帧的特征图Conv(Fc)进行卷积运算(见公式(1))，得到目标的响应特征图Acls和Areg，如图7，网络输出2k个通道用于目标分类，4k个通道用于目标框回归。表示卷积符号。

[0064]

[0065] (6)训练网络时的分类损失Lcls使用交叉熵损失，回归损失Lreg使用具有标准化坐标的平滑L1损失。令y表示标签值，表示实际分类值。令Ax，Ay表示参考框的中心点，Aw，Ah表示参考框的宽高，令Tx，Ty，Tw，Th表示ground truth框，归一化后的误差为：

[0066]

[0067]

[0068]

[0069] 最后，优化损失函数，λ是一个超参数，用于平衡两类损失。

[0070] loss＝Lcls+λLreg (5)

[0071] (7)孪生网络NS和区域推荐网络NR联合训练，如图8，利用随机梯度下降对误差求偏导，共训练m个epoch(周期)，初始学习率为ε1，参考框的比率设置为[r1,r2,r3,…,rp]。

[0072] 本实施例中m设置为50，初始学习率ε1设置为10-3，学习率每隔10个epoch降低10倍，参考框的比率设置为[0.33，0.5，1，2，3]，训练流程如图2。

[0073] (8)跟踪过程中，目标在上一帧中的位置记为Pt-1，当前帧以上一帧目标位置Pt-1为初始点在周围进行采样，采样框当前的宽高记为w×h。采样的样本经过孪生网络NS和区域推荐网络NR，计算与目标模板的相似度S，计算目标的具体位置Pt，相似度S的取值范围为[0,1]，s为阈值；S∈[0，s)为预测失败，S∈[s，1]为预测成功，本实施例s为0.8；。

[0074] (9)为了更快地预测出目标，且使用最少的运算量，设置一个模板尺寸大小的初始采样框，增量式地增长采样框的大小，扩大检测的覆盖区域，直至确定出目标的位置(见公式(6))。base_w、base_h分别表示采样框的初始宽高(本实施例中设置为127、127)，α1、α2表示增长系数(本实施例都设置为0.5)，取值范围为[0.1,1]，w、h分别表示当前采样框的宽高。

[0075]

[0076] (10)当系统在连续的N帧内有n帧预测(本实施例N设置为30，n设置为20)失败时，则判断为目标丢失，启动检测功能，重新寻找目标并设置为模板帧Ft；否则判断为误检测，不开启检测功能。T表示阈值，flag表示重新检测开始的标志位。

[0077]

[0078] (11)当系统判断检测框连续n帧预测失败后，启动检测框初始化，将检测框置于当前帧图像的中心点Pt，执行增量式的搜索策略(公式(6))，重新检测和跟踪。

[0079]

[0080] (12)当系统从目标丢失状态重新定位到目标时，从步骤(8)继续顺序执行，完成持续跟踪，否则继续执行步骤(11)，直到重新定位出目标。

[0081] 采用本发明方法与采用现有技术SiamRPN++(SiamRPN++算法于2018年提出，属于孪生网络算法的改进。在OTB、VOT等数据集上的测试精度位列前茅，综合其跟踪精度和速度来看，是目前最先进的目标跟踪算法)进行对比，如表1所示：

[0082] 表1在无人机航拍影像上的性能对比

[0083]

[0084] 航拍影像中的目标容易被背景遮挡，目标丢失频繁。FPS表示每秒的帧数，FPS数值越高，表示系统的运行速度越快。从表格结果可知，本发明改进的方法对于目标被遮挡后的重新检测速度有明显的提升，减少了检测框的误采样计算，具有快速的重新定位能力。

[0085] 以上所述，仅为本发明具体实施方式的详细说明，而非对本发明的限制。相关技术领域的技术人员在不脱离本发明的原则和范围的情况下，做出的各种替换、变型以及改进均应包含在本发明的保护范围之内。

标题	发布/更新时间	阅读量
超市停车引导反向寻车和出场引导的系统和方法	2020-05-08	354
一种基于量化和事件的集值卡尔曼滤波方法	2020-05-18	757
一种自然场景文字检测的方法	2020-05-13	579
基于旋翼飞行机器人的动态更新视觉跟踪航拍方法及系统	2020-05-12	491
一种基于5G的椎体强化遥操作系统	2020-05-17	544
一种视觉传感网络的快速通用标定方法	2020-05-17	849
一种基于图像处理的梨果实横纵径测量方法	2020-05-18	646
一种基于目标感知相关滤波的目标跟踪方法	2020-05-14	630
一种智慧景区实景语义地图的生成与辅助定位方法	2020-05-14	954
基于YOLO和LSTM的地震速度谱智能拾取方法	2020-05-16	857

一种面向航拍影像的目标跟踪方法

一种面向航拍影像的目标跟踪方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：