首页 / 专利库 / 电脑编程 / 算法 / 一种基于持续学习的长时视觉目标跟踪方法

一种基于持续学习的长时视觉目标跟踪方法

阅读:413发布:2024-02-17

专利汇可以提供一种基于持续学习的长时视觉目标跟踪方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种基于持续学习的长时视觉目标 跟踪 方法,该方法包括网络模型设计、模型初始化、在线跟踪和模型更新。针对长时视觉目标跟踪设计了 深度神经网络 结构,经过模型初始化获得初始化网络模型,然后利用初始化网络模型进行在线跟踪,在跟踪过程中利用持续学习的方法进行长时或短时模型更新,适应目标在跟踪过程中的各种变化。本发明把传统视觉目标跟踪的模型在线更新过程转换为持续学习的过程,从视频的所有历史数据整体建立目标的完整外观描述,有效提升了长时视觉跟踪的鲁棒性。本发明所述的方法可为智能视频监控、 人机交互 、视觉导航等应用需求提供长时视觉目标跟踪的有效解决方案。,下面是一种基于持续学习的长时视觉目标跟踪方法专利的具体信息内容。

1.一种基于持续学习的长时视觉目标跟踪方法,其特征在于:包括网络模型设计、模型初始化、在线跟踪和模型更新四部分;
网络模型设计:针对长时视觉目标跟踪设计的深度神经网络结构;
模型初始化:包括3个步骤:初始分割图像获取;模型初始化训练样本库生成;模型初始化训练及模型获取;其中,模型初始化训练及模型获取阶段包括损失函数、梯度下降法的选取;
在线跟踪:包括3个步骤:生成候选样本;获取最佳候选样本;使用目标框回归定位目标区域;
模型更新:包括3个步骤:更新方式选择;模型更新样本库的生成与更新;持续学习方式模型训练及模型获取;其中,样本库生成中包括在线样本集和记忆感知样本集获取;样本库更新中包括在线样本集和记忆感知样本集更新;持续学习方式模型训练及模型获取阶段包括损失函数、梯度下降法的选取。
2.根据权利要求1所述的方法,其特征在于,所述的网络模型设计,具体步骤如下:
针对长时视觉目标跟踪设计的深度神经网络结构:网络结构由共享层和分类层组成;
其中,共享层包括3个卷积层、2个最大值池化层、2个全连接层和5个非线性激活ReLU层;卷积层与通用VGG-M网络的相应部分相同;接下来的两个完全连接的层各有512个输出单元,并结合了ReLU和Dropouts模;分类层是包含了Dropouts模块和具有softmax损失的二值分类层,负责区分目标和背景;
卷积神经网络CNN的图像处理过程中,卷积层之间需要通过卷积滤波器联系,卷积滤波器的定义表示为N×C×W×H,其中N代表卷积滤波器的种类,C代表被滤波通道的通道数;
W、H分别代表滤波范围的宽、高。
3.根据权利要求1所述的方法,其特征在于,所述的模型初始化,具体步骤如下:
(1)初始帧分割图像获取:初始帧模板的质量对当前的跟踪结果有着重要的影响;为了增加被跟踪目标的详细表示,通过超像素级分割,使得分割后的图像不仅在颜色和纹理上与目标一致,而且还保留了目标的结构信息;
(2)训练样本库的生成:分别在第一帧原始图像和分割图像的初始目标位置周围随机采样抽取N1个样本;这些样本根据它们与真实标注框的交并比分数被标记为正样本和负样本;
(3)模型初始化训练及模型获取:在跟踪序列的初始帧,对网络最后输出的分类得分,采用二分类交叉熵损失作为损失函数求其损失,然后使用梯度下降法对网络全连接层参数进行更新;其中,训练全连接层进行H1迭代,全连接FC4-5层的学习率设置为0.0005,分类层FC6层的学习率设置为0.005;动量和权重衰减分别设置为0.9和0.0005;最后,经过反复迭代,当达到H1即50次以上迭代时停止训练,获得网络初始化模型。
4.根据权利要求1所述的方法,其特征在于,所述的在线跟踪,具体步骤如下:
(1)目标候选样本生成:给定视频序列中的每一帧,首先围绕前一帧中目标的预测位置绘制N2个候选样本;
(2)获取最佳候选样本:将步骤(1)获取的N2个候选样本送入当前的网络模型中计算分类得分,取分类得分最高的候选样本作为估计的目标位置;
(3)目标框回归:步骤(2)获得估计的目标位置后,使用目标框回归方法定位目标区域获得跟踪结果。
5.根据权利要求1所述的方法,其特征在于,所述的模型更新,具体步骤如下:
(1)更新方式选择:综合考虑目标跟踪中的两个互补方面:鲁棒性和自适应性;采用长时更新和短时更新两种模型更新方式;在跟踪过程中,每隔f=8~10帧执行一次长时更新,当模型将估计的目标位置分类为背景时执行一次短时更新;
(2)模型更新样本库的生成与更新:模型更新样本库包括在线样本集 和记忆感知样本集 两部分,其中fl=80~100和fs=20~30分别表示长时收集样本设定帧数和短时收集样本设定帧数; 和 分别表示在线样本集中的在线正样本集和在线负样本集, 和 分别表示记忆感知样本集中的记忆感知正样本集和记忆感知负样本集;
(3)对在线跟踪中的每一帧,当模型将估计的目标位置分类为前景时表明跟踪成功,就在估计的目标位置周围随机采样,分别收集 个正样本和 个负样本添加到和 样本集中,其中t表示在线跟踪视频序列的第t帧;对在线正样本集 当跟踪成功超过fl帧时删除在最早帧中收集的正样本,然后把删除的正样本添加到记忆感知正样本集中,即在线正样本集只收集最新跟踪成功的fl帧样本;对在线负样本集 当跟踪成功超过fs帧时删除在最早帧中收集的负样本,然后把删除的负样本添加到记忆感知负样本集中,即在线负样本集只收集最新跟踪成功的fs帧样本;对记忆感知正样本集 当其收集超过fl帧时,使用K均值聚类算法将样本集聚成NC=10个类,当有新样本时,分别计算新样本的特征均值向量与NC个聚类中心的欧式距离,并将新样本添加到与其欧式距离最小的类中,同时删除此类中最早的与新样本数量相同的样本,确保记忆感知正样本集 在更前后样本集总数不变;对记忆感知负样本集 当收集超过fs帧时删除在最早帧中收集的样本,即记忆感知负样本集只收集最新的fs帧样本;
(4)持续学习方式模型训练及模型获取:持续学习方式模型训练包括预热训练和联合优化训练两阶段;
在模型长时更新或短时跟新时,若记忆感知样本集还没有收集到样本,利用步骤(2)中收集的在线样本集 对模型进行训练,对网络最后输出的分类得分,采用二分类交叉熵损失函数计算其分类损失;最后根据当前的分类损失,使用梯度下降法对网络全连接层参数进行更新,训练全连接层进行H2=15次迭代;当记忆感知样本集有样本时,首先,利用步骤(2)中收集的在线样本集 对模型进行预热训练,采用二分类交叉熵损失函数计算其分类损失,然后使用梯度下降法对网络全连接层参数进行更新,训练全连接层进行H3=10次迭代;当模型预热训练结束后,利用步骤(2)中收集的在线样本集 和记忆感知样本集 对模型进行联合优化训练,对在线样本集利用二分类交叉熵损失函数计算其分类损失,对记忆感知样本集利用知识蒸馏损失函数计算其知识蒸馏损失,最后的总损失为分类损失加上λ=0.7倍的知识蒸馏损失;计算出总损失后,使用梯度下降法对网络全连接层参数进行更新,训练全连接层进行H4=15次迭代;其中在各训练阶段,全连接FC4-5层的学习率都设置为0.001,分类层FC6层的学习率都设置为0.01,动量和权重衰减都是分别设置为0.9和0.0005。

说明书全文

一种基于持续学习的长时视觉目标跟踪方法

技术领域

[0001] 本发明属于计算机视觉和图像视频处理领域,特别涉及一种基于持续学习的长时视觉目标跟踪方法。

背景技术

[0002] 视觉目标跟踪是计算机视觉、图像视频处理中的一个基础问题,在监控视频自动分析、人机交互、视觉导航等领域有着广泛的应用。按照视频序列的长度,跟踪方法大致可分为两大类:短时目标跟踪和长时目标跟踪。一般当被跟踪的视频序列帧长度大于1000帧时,我们称之为长时目标跟踪。目前短时跟踪算法在相对较短的视频数据上已经取得了较好的性能,但是将其直接应用到现实长时视频序列的处理上,跟踪的精度和鲁棒性都还远达不到实际场景的指标需求。
[0003] 在长时跟踪任务中,除了要面对短时场景中如目标尺度变化、光照变化、目标变形等常见挑战外,还需要解决频繁的“消失后再现”目标的稳健定难题。因此,与传统的短时跟踪相比,长时跟踪具有更大的挑战性,更符合各种应用场景的实际需求。然而,目前面向这类长时数据的跟踪技术较为欠缺,已有方法的性能也十分有限。一种现有的长时跟踪思路是将传统跟踪和传统目标检测方法相结合,来解决跟踪中目标发生形变、部分遮挡等问题。同时,通过在线学习机制不断更新跟踪模的“显著特征点”和检测模块的目标模型及相关参数,从而使得跟踪效果更加鲁棒、可靠。此外,也有方法利用关键点匹配跟踪和鲁棒估计技术,能够把长时记忆给集成起来,并且可以为输出控制提供额外的信息。上述跟踪方法可以在整帧图像中搜索目标,但由于仅采用了手工设计的简单特征,其性能并不理想。最近,一些基于相关滤波和深度学习的跟踪方法被提出,虽然有用于长时跟踪的重新检测方案,但都局限于仅在图像局部范围内进行搜索,因此在目标出视野后无法再次捕获它,并不能胜任长时跟踪任务需求。
[0004] 从技术发展的现状看,基于深度卷积神经网络图像分类的视觉目标跟踪方法具有将目标与杂乱的背景有效区分的巨大潜,基于此类框架的跟踪方法有着广阔的发展前景。但是,仅采用离线训练的跟踪模型通常难以适应视频的在线变化,而简单地用新数据频繁更新模型又会加速跟踪漂移,导致其在处理长时跟踪问题时很容易失败。本发明则通过持续学习方法平衡模型的历史记忆与在线更新,提出了一种基于持续学习的长时视觉目标跟踪方法。

发明内容

[0005] 本发明利用持续学习理论,将视觉目标跟踪方法的模型在线更新转换为一个持续学习过程,在整个视频序列中学习时序图像的有效抽象与表征,建立目标的完整画像。最终适应跟踪过程中目标变形、背景干扰、遮挡和光照变化等情况,达到提升现有跟踪方法在线更新时的适应性与可靠性,降低模型对目标变形、遮挡等噪声的敏感度,达到长时稳健跟踪目标的目的。
[0006] 本发明是采用以下技术手段实现的:一种基于持续学习的长时视觉目标跟踪方法,主要包括网络模型设计、模型初始化、在线跟踪和模型更新四部分。
[0007] 网络模型设计:首先根据附图1所示的整体流程设计了深度神经网络结构;然后将该网络各阶段特征图调整成自适应尺寸。
[0008] 模型初始化:主要包括3个步骤:初始帧分割图像获取;模型初始化训练样本库生成;模型初始化训练及模型获取。其中,模型初始化训练及模型获取阶段包括损失函数、梯度下降法的选取。
[0009] 在线跟踪:主要包括3个步骤:生成候选样本;获取最佳候选样本;使用目标框回归定位目标区域。
[0010] 模型更新:主要包括3个步骤:更新方式选择;模型更新样本库的生成与更新;持续学习方式模型训练及模型获取。其中,样本库生成中包括在线样本集和记忆感知样本集获取;样本库更新中包括在线样本集和记忆感知样本集更新;持续学习方式模型训练及模型获取阶段包括损失函数、梯度下降法的选取。
[0011] 所述的网络模型设计,具体步骤如下:
[0012] (1)本发明设计的深度神经网络结构:如附图2所示,本发明的网络结构由共享层和分类层组成。其中,共享层包括3个卷积层、2个最大值池化层、2个全连接层和5个非线性激活ReLU层。卷积层与通用VGG-M网络的相应部分相同。接下来的两个完全连接的层各有512个输出单元,并结合了ReLU和Dropouts模块。分类层是包含了Dropouts模块和具有softmax损失的二值分类层,负责区分目标和背景。
[0013] 在卷积神经网络CNN的图像处理过程中,卷积层之间需要通过卷积滤波器联系,卷积滤波器的定义表示为N×C×W×H,其中N代表卷积滤波器的种类,C代表被滤波通道的通道数;W、H分别代表滤波范围的宽、高。
[0014] (2)本发明在持续学习的长时目标跟踪过程中,各卷积层输入和输出特征图的变化如下:
[0015] 本发明在跟踪过程中,将不同尺寸的图像统一成3×107×107的图像后输入网络,在第一个卷积层中,先经过96个7×7的卷积核后,再经过非线性激活层ReLU和局部响应归一化层输出通道数为96,最后经过最大值池化层得到96×25×25的特征图;在第二卷积层中,输入大小为96×25×25的特征图,先经过256个5×5的卷积核后,再经过非线性激活层ReLU和局部响应归一化层输出通道数为256,最后经过最大值池化层得到256×5×5的特征图;在第三卷积层中,输入大小为256×5×5的特征图,先经过512个3×3的卷积核后,再经过非线性激活层ReLU得到512×3×3的特征图;在第四个全连接层中,输入大小为512×3×3的特征图,先经过512神经单元,再经过非线性激活层ReLU得到512维的特征向量;在第五个全连接层中,输入大小为512维的特征向量,先经过512神经单元,再经过Dropouts层,最后通过非线性激活层ReLU得到512维的特征向量;在分类层中,将大小为512为特征向量,先经过Dropouts层,再输入一个具有softmax损失的二值分类层,最后输出大小为2维的分类得分。
[0016] 所述的模型初始化,具体步骤如下:
[0017] (1)初始帧分割图像获取:初始帧模板的质量对当前的跟踪结果有着重要的影响。为了增加被跟踪目标的详细表示,通过Simple Linear Iterative Clustering(SLIC)超像素分割方法来应用超像素级分割,使得分割后的图像不仅在颜色和纹理上与目标一致,而且还保留了目标的结构信息,如附图3所示。
[0018] (2)训练样本库的生成:分别在第一帧原始图像和分割图像的初始目标位置周围随机采样抽取N1个样本。这些样本根据它们与真实标注框(ground truth)的交并比分数被标记为正样本(0.7~1.0之间)和负样本(0~0.5之间)。
[0019] (3)模型初始化训练及模型获取:在跟踪序列的初始帧,对网络最后输出的分类得分,采用二分类交叉熵损失作为损失函数求其损失,然后使用梯度下降法对网络全连接层参数进行更新。其中,训练全连接层进行H1(50次)迭代,全连接FC4-5层的学习率设置为0.0005,分类层FC6层的学习率设置为0.005;动量和权重衰减分别设置为0.9和0.0005;每小批由M+(32)个正样本和从M-(1024)个负样本中选出的 (96)个难分负样本组成;最后,经过反复迭代,当达到H1(50次)迭代时停止训练,获得网络初始化模型。
[0020] 所述的在线跟踪,具体步骤如下:
[0021] (1)目标候选样本生成:给定视频序列中的每一帧,首先围绕前一帧中目标的预测位置绘制N2个候选样本。
[0022] (2)获取最佳候选样本:将步骤(1)获取的N2个候选样本送入当前的网络模型中计算分类得分,取分类得分最高的候选样本作为估计的目标位置。
[0023] (3)目标框回归:步骤(2)获得估计的目标位置后,使用目标框回归方法定位目标区域获得跟踪结果。
[0024] 所述的模型更新,具体步骤如下:
[0025] (1)更新方式选择:综合考虑目标跟踪中的两个互补方面:鲁棒性和自适应性。采用长时更新和短时更新两种模型更新方式。在跟踪过程中,每隔f(8~10)帧执行一次长时更新,当模型将估计的目标位置分类为背景时执行一次短时更新。
[0026] (2)模型更新样本库的生成与更新:模型更新样本库包括在线样本集 和记忆感知样本集 两部分,其中fl(80~100)和fs(20~30)分别表示长时收集样本设定帧数和短时收集样本设定帧数。 和 分别表示在线样本集中的在线正样本集和在线负样本集, 和 分别表示记忆感知样本集中的记忆感知正样本集和记忆感知负样本集。特别地,在线正负样本集中的 (500)个和 (5000)个是在初始帧目标位置随机采样产生的正负样本。对在线跟踪中的每一帧,当模型将估计的目标位置分类为前景时表明跟踪成功,就在估计的目标位置周围随机采样,分别收集 (50)个正样本和 (200)个负样本添加到 和 样本集中,其中t表示在线跟踪视频序列的第t帧。对在线正样本集 当跟踪成功超过fl(80~100)帧时删除在最早帧中收集的正样本,然后把删除的正样本添加到记忆感知正样本集 中,即在线正样本集只收集最新跟踪成功的fl(80~100)帧样本;对在线负样本集 当跟踪成功超过fs(20~30)帧时删除在最早帧中收集的负样本,然后把删除的负样本添加到记忆感知负样本集 中,即在线负样本集只收集最新跟踪成功的fs(20~30)帧样本。对记忆感知正样本集 当其收集超过fl(80~100)帧时,使用K均值聚类算法将样本集聚成NC(10~15)个类,当有新样本时,分别计算新样本的特征均值向量与NC个聚类中心的欧式距离,并将新样本添加到与其欧式距离最小的类中,同时删除此类中最早的与新样本数量相同的样本,确保记忆感知正样本集 在更前后样本集总数不变;
对记忆感知负样本集 当收集超过fs(20~30)帧时删除在最早帧中收集的样本,即记忆感知负样本集只收集最新的fs(20~30)帧样本。
[0027] (3)持续学习方式模型训练及模型获取:持续学习方式模型训练包括预热训练和联合优化训练两阶段。预热训练的目的是为了使模型学会适应当前的目标变化,联合优化训练的目的是为了使模型能记住历史的目标变化,从而在长时目标跟踪过程中建立目标的完整描述,当被跟踪目标出视野后再出现时便可以利用模型的历史记忆迅速找回目标,实现长时稳健的跟踪。在模型长时更新或短时跟新时,若记忆感知样本集还没有收集到样本,利用步骤(2)中收集的在线样本集 对模型进行训练,对网络最后输出的分类得分,采用二分类交叉熵损失函数计算其分类损失。最后根据当前的分类损失,使用梯度下降法对网络全连接层参数进行更新,训练全连接层进行H2(15次)迭代;当记忆感知样本集有样本时,首先,利用步骤(2)中收集的在线样本集 对模型进行预热训练,采用二分类交叉熵损失函数计算其分类损失,然后使用梯度下降法对网络全连接层参数进行更新,训练全连接层进行H3(10次)迭代;当模型预热训练结束后,利用步骤(2)中收集的在线样本集和记忆感知样本集 对模型进行联合优化训练,对在线样本集利用二分类交叉熵损失函数计算其分类损失,对记忆感知样本集利用知识蒸馏损失函数计算其知识蒸馏损失,最后的总损失为分类损失加上λ倍的知识蒸馏损失。计算出总损失后,使用梯度下降法对网络全连接层参数进行更新,训练全连接层进行H4(15次)迭代。其中在各训练阶段,全连接FC4-5层的学习率都设置为0.001,分类层FC6层的学习率都设置为0.01,动量和权重衰减都是分别设置为0.9和0.0005,训练时,每小批由M+(32)个正样本和从M-(1024)个负样本中选出的 (96)个难分负样本组成。
[0028] 本发明的特点:
[0029] 本发明提出了一种基于持续学习的长时视觉目标跟踪方法。该方法把传统视觉目标跟踪的模型在线更新转换为持续学习的过程,结合动态构建的在线样本集和记忆感知样本集,在长期时间维度内学习目标的遮挡、形态、尺度和光照等变化,从而在整个视频序列,对时序数据进行有效地抽象和表征,建立目标的完整画像。实现在目标长时间被遮挡或出视野后,仍可依据持续学习学到的历史模型,迅速找回重现于视野内的目标。相较于已有视觉目标跟踪技术,该方法通过持续学习方法平衡了模型的历史记忆与在线更新,克服了传统的使用新数据频繁更新所导致的模型“灾难性遗忘”问题,从视频的所有历史数据整体建立目标的完整画像描述,获得对噪声不敏感的目标模型,提升视觉跟踪的鲁棒性,达到长时跟踪的目的。本发明所述的方法可为智能视频监控、人机交互、视觉导航等应用需求提供长时视觉目标跟踪的有效解决方案。附图说明:
[0030] 图1.整体流程图
[0031] 图2.网络结构
[0032] 图3.初始帧分割图像具体实施方式:
[0033] 以下结合说明书附图,对本发明的实施实例加以详细说明:
[0034] 一种基于持续学习的长时目标跟踪方法,整体流程如附图1所示;算法分为模型初始化、在线跟踪和模型更新部分。模型初始化部分:对初始帧处理,首先利用超像素分割方法获得只有前景的初始帧分割图像,然后输入初始帧原图像和初始帧分割图像分别提取卷积层特征,再融合两部分特征,即将两部分特征相加,接着通过全连接层和分类层获取分类得分并计算分类损失,然后通过反向传播梯度损失项,优化求解最优初始化模型。在线跟踪部分:在后续帧处理过程中,首先利用前一帧中目标的预测位置产生候选样本,然后将每个候选样本输入网络中计算其分类得分,选择分类得分最高的候选样本,最后使用目标框回归定位目标区域获得跟踪结果。模型更新部分:在跟踪过程中,每隔10帧或模型将估计的目标被分类为背景时,利用持续学习的方法进行长时或短时模型更新,适应目标在跟踪过程中的各种变化。
[0035] 所述的模型初始化部分,具体步骤如下:
[0036] (1)初始帧分割图像获取:初始帧由超像素集 组成,其中N是图像中的超像素数,Οi表示超像素集中第i个超像素的像素值。完全位于边界框外部的超像素被视为背景,其余超像素未知(背景或前景)。用超像素随机采样的P个像素值xv,将超像素建模为其中P是随机采样的超像素个数,xv表示超像素模型m中第v个超像素的像素值。这可以看作是超混合体颜色分布的经验直方图。对于任何已知的超混合模型mb,如果相似度得分S(ma,mb)>η,η=0.5,则对应于未知超混合模型ma的超混合模型标记为背景,其中:
[0037]
[0038] 其中xk是未知超像素模型ma中第k个超像素的像素值,score(xk,mb)定义为:
[0039]
[0040] 其中xj是已知超像素模型mb中第j个超像素的像素值。将参数R设置为0.5,它控制以每个模型像素为中心的球体的半径,允许有轻微的误差。附图3展示了分割结果。
[0041] (2)模型初始化训练样本库的生成:分别在第一帧原始图像和分割图像的初始目标位置周围随机采样抽取500个正样本,只在第一帧原始图像抽取5000个负样本。这些样本根据它们与真实标注框的交并比分数,分数在[0.7,1]之间的样本标记为正样本,分数在[0,0.5]之间的样本标记为负样本。
[0042] (3)模型初始化训练及模型获取:对网络最后输出的分类得分,采用二分类交叉熵损失作为损失函数求其损失项,公式为:
[0043]
[0044] 其中,Xn/Yn表示初始化训练样本库的训练样本和训练样本标签,Nn是从Xn抽取的一批样本, 是Nn中第i样本对应的标签, 是Nn中第i个样本 相应的softmax输出。然后,通过随机梯度下降法求解最优化网络参数,在测试序列的初始帧,训练全连接层进行50次迭代,全连接FC4-5层的学习率设置为0.0005,分类层FC6层的学习率设置为0.005;动量和权重衰减分别设置为0.9和0.0005;每小批由M+=32个正样本和从M-=1024个负样本中选出的 个负难分样本组成。
[0045] 所述的在线跟踪部分,具体步骤如下:
[0046] (1)对在线跟踪中的每一帧,根据前一帧估计的目标位置利用高斯分布产生256个候选样本 xu表示候选样本中的第u个候选样本。高斯分布的均值为r,协方差为对矩阵diag(0.09r2,0.09r2,0.25),其中r是前一帧估计的目标位置宽度和高度的平均值。
[0047] (2)网络函数的输出是一个二维向量,分别表示输入的候选样本对应目标和背景的分数。选择分类得分最高的那个候选样本作为估计的目标位置:
[0048]
[0049] 其中,u是候选样本下标,f+(·)表示当前网络函数,x*表示网络计算出的分类得分最高的候选样本,即估计的目标位置。
[0050] (3)最后对得到目标位置进行目标框回归定位目标区域。目标框回归采用了岭回归方法,岭回归中的参数α设置为1000。
[0051] 所述的模型更新部分,具体步骤如下:
[0052] (1)更新方式选择:采用长时更新和短时更新两种模型更新方式。在跟踪过程中,每隔f=10帧执行一次长时更新,当模型将估计的目标位置分类为背景时执行一次短时更新。
[0053] (2)模型更新样本库的生成与更新:模型更新样本库包括在线样本集 和记忆感知样本集 两部分,下标fl和fs分别表示长时收集样本设定帧数和短时收集样本设定帧数。 和 分别表示在线样本集中的在线正样本集和在线负样本集, 和分别表示记忆感知样本集中的记忆感知正样本集和记忆感知负样本集。特别地,在线正负样本集中的 个和 个是在初始帧目标位置随机采样产生的正负样本。对在线跟踪中的每一帧,当模型将估计的目标位置分类为前景时表明跟踪成功,就在估计的目标位置周围随机采样,分别收集50个正样本和200个负样本添加到 和 样本集中。对在线正样本集 当跟踪成功超过100帧时删除在最早帧中收集的正样本,然后把删除的正样本添加到记忆感知正样本集 中,即在线正样本集只收集最新跟踪成功的100帧样本;对在线负样本集 当跟踪成功超过30帧时删除在最早帧中收集的负样本,然后把删除的负样本添加到记忆感知负样本集 中,即在线负样本集只收集最新跟踪成功的30帧样本。
[0054] 对记忆感知正样本集 当收集的样本超过长时收集样本设定帧100帧时,使用K均值聚类算法将样本集聚成10类:
[0055]
[0056] 其中τ表示聚类簇的簇标记下标, 表示聚类结果, 是特征向量计算函数:
[0057]
[0058] 式中,W和b分别表示网络全连接FC5层之前网络权重和偏置,x表示输入样本, 表示卷积运算。当有新的记忆感知样本 时,分别计算新样本的特征均值向量与10个聚类中心的欧式距离,欧式距离计算公式为:
[0059] dτ(μnew-μτ)=||μnew-μτ||,τ=1,...,10  (7)
[0060] 式中,μnew表示新样本特征均值向量,μτ表示10个聚类簇中第τ类的特征均值向量。根据与之距离最近的均值向量确定新样本的簇标记:
[0061]
[0062] 并将新样本划入相应的簇: 同时删除此类中最早的与新样本数量相同的样本,确保记忆感知正样本集 在更前后样本集总数不变;对记忆感知负样本集当收集超过30帧样本时删除最早收集的样本,即记忆感知负样本集只收集最新的30帧样本。
[0063] (3)持续学习方式训练及模型获取:在模型长时更新或短时跟新时,若记忆感知样本集还没有样本,利用步骤(2)中收集的在线样本集 对模型进行训练,对网络最后输出的分类得分,采用二分类交叉熵损失函数公式(3),计算其分类损失。最后根据当前的分类损失,使用梯度下降法对网络全连接层参数进行更新,梯度下降法公式:
[0064]
[0065] 式中,θn表示网络参数,η是学习率,l(·)表示损失函数。训练全连接层进行15次迭代。当记忆感知样本集有样本时,首先,利用步骤(2)中收集的在线样本集 对模型进行预热训练,采用二分类交叉熵损失函数公式(3),计算其分类损失,然后使用梯度下降法公式(9)对网络全连接层参数进行更新,训练全连接层进行10次迭代;当模型预热训练结束后,利用步骤(2)中收集的在线样本集 和记忆感知样本集 对模型进行联合优化训练,对在线样本集采用二分类交叉熵损失函数公式(3)计算其分类损失LC,对记忆感知样本集采用知识蒸馏损失函数计算其蒸馏损失LD,知识蒸馏损失函数公式为:
[0066]
[0067] 式中, 表示记忆感知样本集训练样本和样本标签,与公式(3)不同, 是由旧网络输出的软标签,Nm是从Xm抽取的一批样本, 是Nm中的第i样本对应的标签, 是第i个样本 相应的softmax输出。最后,总的损失函数为:
[0068] Lsum=LC+λ·LD  (11)
[0069] 式中,参数λ设置为0.7。计算出总损失后,使用梯度下降法公式(9)对网络全连接层参数进行更新,训练全连接层进行15次迭代。其中在各个训练阶段,全连接FC4-5层的学习率都设置为0.001,分类层FC6层的学习率都设置为0.01,动量和权重衰减都是分别设置为0.9和0.0005,训练时,每小批由32个正样本和从1024个负样本中选出的96个难分负样本组成。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈