目标跟踪方法、装置、计算机设备和存储介质专利检索-峰值信噪比信噪比信号处理专利检索查询-专利查询网

目标跟踪方法、装置、计算机设备和存储介质

阅读：179发布：2020-05-11

专利汇可以提供目标跟踪方法、装置、计算机设备和存储介质专利检索，专利查询，专利分析的服务。并且本申请涉及计算机技术领域，特别涉及一种目标跟踪方法、装置、计算机设备和存储介质。所述方法包括：获取历史图像以及当前图像；提取各所述历史图像的外观特征以及各所述历史图像与所述当前图像之间的运动矢量特征；利用所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征；提取所述当前图像对应的外观特征；计算所述当前图像的外观特征与所述融合特征之间的相关度，将所述相关度的数值最大的位置提取为目标位置，根据所述目标位置对目标进行跟踪。采用本方法能够提高对目标识别的能力以及对目标跟踪的准确性。，下面是目标跟踪方法、装置、计算机设备和存储介质专利的具体信息内容。

权利要求

1.一种目标跟踪方法，所述方法包括：
获取历史图像以及当前图像；
提取各所述历史图像的外观特征以及各所述历史图像与所述当前图像之间的运动矢量特征；
利用所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征；
提取所述当前图像对应的外观特征；
计算所述当前图像的外观特征与所述融合特征之间的相关度，将所述相关度的数值最大的位置提取为目标位置，根据所述目标位置对目标进行跟踪。
2.根据权利要求1所述的方法，其特征在于，所述利用所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征，包括：
计算各所述历史图像与所述当前图像的前一帧图像之间的翘曲特征；
获取所述当前图像前一帧图像对应的外观特征；
计算所述翘曲特征与所述当前图像前一帧图像的外观特征的第一相似度；
根据所述第一相似度的数值得到各位置对应的位置权重；
利用所述位置权重以及所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征。
3.根据权利要求2所述的方法，其特征在于，所述计算所述翘曲特征与所述当前图像前一帧图像的外观特征的第一相似度，包括：
计算所述翘曲特征与所述当前图像前一帧图像的外观特征的余弦距离；
根据所述余弦距离的数值大小，得到所述翘曲特征与所述当前图像前一帧图像的外观特征的第一相似度。
4.根据权利要求2所述的方法，其特征在于，所述利用所述位置权重以及所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征，包括：
计算所述当前图像与各所述历史图像的第二相似度；
根据所述第二相似度的数值得到各所述历史图像对应的时间权重；
利用所述位置权重、所述时间权重以及所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征。
5.根据权利要求2或4所述的方法，其特征在于，所述利用所述位置权重以及所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征，包括：
计算各所述历史图像的图像质量；
按照图像质量的高低对各所述历史图像进行排序；
根据排序结果对各所述历史图像分配时间权重；
利用所述位置权重、所述时间权重以及所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征。
6.根据权利要求1所述的方法，其特征在于，所述计算所述外观特征与所述融合特征之间的相关度，将所述相关度的数值最大的位置提取为目标位置，根据所述目标位置对目标进行跟踪，包括：
对所述外观特征以及所述融合特征进行相关滤波处理，得到所述外观特征与所述融合特征之间的相关度；
将所述相关度的数值最大的位置提取为目标位置；
获取目标区域的尺寸信息，根据所述尺寸信息以及所述目标位置对所述目标进行跟踪。
7.根据权利要求1所述的方法，其特征在于，所述将所述相关度的数值最大的位置提取为目标位置，根据所述目标位置对目标进行跟踪，包括：
计算所述外观特征与所述融合特征之间的峰值信噪比值；
当所述峰值信噪比值和所述相关度的数值同时满足预设阈值时，将所述相关度的数值最大的位置提取为目标位置；
根据所述目标位置对目标跟踪网络进行更新，根据更新后的所述目标跟踪网络对目标进行跟踪。
8.一种目标跟踪装置，其特征在于，所述装置包括：
图像获取模块，用于获取历史图像以及当前图像；
矢量特征提取模块，用于提取各所述历史图像的外观特征以及各所述历史图像与所述当前图像之间的运动矢量特征；
融合特征获取模块，用于利用所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征；
外观特征提取模块，用于提取所述当前图像对应的外观特征；
跟踪模块，用于计算所述当前图像的外观特征与所述融合特征之间的相关度，将所述相关度的数值最大的位置提取为目标位置，根据所述目标位置对目标进行跟踪。
9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

说明书全文

目标跟踪方法、装置、计算机设备和存储介质

技术领域

[0001] 本申请涉及计算机技术领域，特别是涉及一种目标跟踪方法、装置、计算机设备和存储介质。

背景技术

[0002] 视觉目标跟踪是在连续的视频帧中自动定位某一目标物体，是视觉分析、自动驾驶和姿态估计等领域的一个基本问题。跟踪的核心难点是如何在变化的场景中(比如存在遮挡、形变和光照变化)准确地检测和定位到目标物体。

[0003] 传统技术中的目标跟踪算法主要分为两类：生成模型方法和判别模型方法。但是上述方法都仅考虑了当前帧图像的静态的外观特征，使得跟踪方法的识别能力显著降低。发明内容

[0004] 基于此，有必要针对上述技术问题，提供一种能够提高目标跟踪识别能力的目标跟踪方法、装置、计算机设备和存储介质。

[0005] 一种目标跟踪方法，所述方法包括：

[0006] 获取历史图像以及当前图像；

[0007] 提取各所述历史图像的外观特征以及各所述历史图像与所述当前图像之间的运动矢量特征；

[0008] 利用所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征；

[0009] 提取所述当前图像对应的外观特征；

[0010] 计算所述当前图像的外观特征与所述融合特征之间的相关度，将所述相关度的数值最大的位置提取为目标位置，根据所述目标位置对目标进行跟踪。

[0011] 在一个实施例中，所述利用所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征，包括：

[0012] 计算各所述历史图像与所述当前图像的前一帧图像之间的翘曲特征；

[0013] 获取所述当前图像的前一帧图像对应的外观特征；

[0014] 计算所述翘曲特征与所述当前图像的前一帧图像的外观特征的第一相似度；

[0015] 根据所述第一相似度的数值得到各位置对应的位置权重；

[0016] 利用所述位置权重以及所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征。

[0017] 在一个实施例中，所述计算所述翘曲特征与所述当前图像的前一帧图像的外观特征的第一相似度，包括：

[0018] 计算所述翘曲特征与所述当前图像前一帧图像的外观特征的余弦距离；

[0019] 根据所述余弦距离的数值大小得到所述翘曲特征与所述当前图像前一帧图像的外观特征的第一相似度。

[0020] 在一个实施例中，所述利用所述位置权重以及所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征，包括：

[0021] 计算所述当前图像与各所述历史图像的第二相似度；

[0022] 根据所述第二相似度的数值得到各所述历史图像对应的时间权重；

[0023] 利用所述位置权重、所述时间权重以及所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征。

[0024] 在一个实施例中，所述利用所述位置权重以及所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征，包括：

[0025] 计算各所述历史图像的图像质量；

[0026] 按照图像质量的高低对各所述历史图像进行排序；

[0027] 根据排序结果对各所述历史图像分配时间权重；

[0028] 利用所述位置权重、所述时间权重以及所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征。

[0029] 在一个实施例中，所述计算所述外观特征与所述融合特征之间的相关度，将所述相关度的数值最大的位置提取为目标位置，根据所述目标位置对目标进行跟踪，包括：

[0030] 对所述外观特征以及所述融合特征进行相关滤波处理，得到所述外观特征与所述融合特征之间的相关度；

[0031] 将所述相关度的数值最大的位置提取为目标位置；

[0032] 获取目标区域的尺寸信息，根据所述尺寸信息以及所述目标位置对所述目标进行跟踪。

[0033] 在一个实施例中，所述将所述相关度的数值最大的位置提取为目标位置，根据所述目标位置对目标进行跟踪，包括：

[0034] 计算所述外观特征与所述融合特征之间的峰值信噪比值；

[0035] 当所述峰值信噪比值和所述相关度的数值同时满足预设阈值时，将所述相关度的数值最大的位置提取为目标位置；

[0036] 根据所述目标位置对目标进行跟踪。

[0037] 一种目标跟踪装置，其特征在于，所述装置包括：

[0038] 图像获取模块，用于获取历史图像以及当前图像；

[0039] 矢量特征提取模块，用于提取各所述历史图像的外观特征以及各所述历史图像与所述当前图像之间的运动矢量特征；

[0040] 融合特征获取模块，用于利用所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征；

[0041] 外观特征提取模块，用于提取所述当前图像对应的外观特征；

[0042] 跟踪模块，用于计算所述当前图像的外观特征与所述融合特征之间的相关度，将所述相关度的数值最大的位置提取为目标位置，根据所述目标位置对目标进行跟踪。

[0043] 一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

[0044] 一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

[0045] 上述目标跟踪方法、装置、计算机设备和存储介质，获取历史图像以及当前图像；提取各历史图像的外观特征以及各历史图像与当前图像之间的运动矢量特征；利用运动矢量特征对各历史图像对应的外观特征进行融合得到融合特征，由于融合特征中考虑了目标物体的动态的运动矢量特征，提高了对目标的识别能力；提取当前图像对应的外观特征；计算当前图像的外观特征与融合特征之间的相关度，将相关度的数值最大的位置提取为目标位置，根据目标位置对目标进行跟踪。利用当前图像的外观特征与融合了运动矢量特征的融合特征进行匹配，利用更多的动态特征而非仅仅是静态的外观特征进行目标跟踪，提高了对目标识别的能力以及对目标跟踪的准确性。
附图说明

[0046] 图1为一个实施例中目标跟踪方法的应用场景图；

[0047] 图2为一个实施例中目标跟踪方法的流程示意图；

[0048] 图3为一个实施例中的光流网络的光流提取模型；

[0049] 图4为一个实施例中融合特征获取方法流程示意图；

[0050] 图5为一个实施例中多信息融合跟踪网络结构图；

[0051] 图6为一个实施例中目标跟踪装置的结构框图；

[0052] 图7为一个实施例中计算机设备的内部结构图。

具体实施方式

[0053] 为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

[0054] 本申请提供的目标跟踪方法，可以应用于如图1所示的应用环境中。其中，用户终端102通过网络与服务器104进行通信。服务器104获取历史图像以及当前图像；服务器104提取各所述历史图像的外观特征以及各所述历史图像与所述当前图像之间的运动矢量特征；服务器104利用所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征；提取所述当前图像对应的外观特征；计算所述当前图像的外观特征与所述融合特征之间的相关度，将所述相关度的数值最大的位置提取为目标位置，根据所述目标位置对目标进行跟踪。进一步地，服务器104将目标跟踪结果推送至用户终端102。

[0055] 其中，用户终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。当服务器104为独立的服务器时，服务器104中可以部署多个数据库，每个数据库中可以存储特定的视频流或者待跟踪的图像帧数据；当服务器104为多个服务器组成的服务器集群时，每个服务器中部署的数据库中可以存储特定的视频流或者待跟踪的图像帧数据。

[0056] 在一个实施例中，如图2所示，提供了一种目标跟踪方法，以该方法应用于图1中的服务器104为例进行说明，在其他实施例中，该方法也可以应用于终端，方法包括以下步骤：

[0057] 步骤210，获取历史图像以及当前图像。

[0058] 历史图像以及当前图像是按照时间顺序进行划分的，对于一个视频流来说，当前时间对应的视频帧图像为当前图像，其他时间对应的视频帧图像为历史图像。具体地，服务器按照预设的频率从视频流中读取视频帧图像，然后按照时间顺序从视频帧图像中读取历史图像以及当前图像。

[0059] 步骤220，提取各历史图像的外观特征以及各历史图像与当前图像之间的运动矢量特征。

[0060] 外观特征可以外观纹理特征、外观颜色特征或者外观边缘特征等。具体地，服务器可以利用深度学习网络中的特征网络提取各历史图像对应的外观特征，如特征网络选择卷积神经网络如CNN网络，更加具体地，CNN网络由三个卷积层构成(3×3×128，3×3×128，3×3×96)。在其他实施例中，服务器还可以利用VGG网络、Alexnet网络等进行图像特征的提取，并且对于特征提取网络的参数设置在本申请中不做限制。

[0061] 运动矢量特征是具有方向和大小的矢量数据，可用于表征目标物体的运动情况。具体地，服务器可利用深度学习网络中的光流网络提取各历史图像与当前图像之间的运动矢量特征，进而得到目标物体在预设时间内的运动参数，更加具体地，光流网络可以选用FlowNet提取光流场，如图3所示提供了一种光流网络的光流提取模型，具体地，共包含9层卷积，为FlowNet的9层光流提取模型。

[0062] 步骤230，利用运动矢量特征对各历史图像对应的外观特征进行融合得到融合特征。

[0063] 具体地，服务器不是将获取的各历史图像对应的外观特征进行简单的叠加得到融合特征，而是利用获取的运动矢量特征指导各历史图像对应的外观特征进行特征融合，得到融合特征。融合特征中即包含了目标物体的外观特征又包含了运动特征，并且融合特征为多个历史图像共同得到的，故而融合特征还可以理解为目标物体在一定时间内的运动轨迹。

[0064] 步骤240，提取当前图像对应的外观特征。

[0065] 具体地，服务器利用特征提取网络提取当前图像对应的外观特征。

[0066] 步骤250，计算当前图像的外观特征与融合特征之间的相关度，将相关度的数值最大的位置提取为目标位置，根据目标位置对目标进行跟踪。

[0067] 服务器可利用相关滤波(Discrimitive Correlation Filters-DCF)网络层对融合特征与当前图像的外观特征进行相关性分析，得到各位置对应的相关度数值。其中相关度数值可以以得分形式进行衡量，分数越高说明该位置的相关度越大，并且得分最高的位置是目标跟踪过程中的目标位置。然后根据获取的目标位置对目标进行跟踪，如目标位置可为待跟踪目标区域的中心位置，根据中心位置获取目标区域，在当前图像中实现对目标的跟踪。

[0068] 具体地，DCF网络中，目标是从训练样本(xk,yk)k＝1:t中学习一系列卷积滤波器f，并且每个训练样本是通过特征网络从一个图像区域中提取的。假设样本的空间尺寸为M×N，输出的空间尺寸为m×n(m＝M/strideM,n＝N/strideN)，其中strideM以及strideN为预设步长，期望的输出是一个响应图，包括样本xk中每一个位置的分数。样本x的滤波器相应为如公式(1)所示：

[0069]

[0070] 其中是通过CNN网络提取的图像的外观特征的第l个通道，fl是期望的滤波器，*表示圆相关操作。滤波器可以通过最小化样本xk和对应Gaussian标签yk间的误差来训练得到，如公式(2)：

[0071]

[0072] 公式(2)中的第二项是带权重参数λ的正则项，解为如公式(3)所示：

[0073]

[0074] 其中，帽符号表示对应变量的离散傅里叶变换F，*表示对应变量的复共轭，⊙表示Hadamard乘积。

[0075] 在测试阶段，训练的滤波器评估一个中心环绕预测目标位置的图像块：

[0076]

[0077] 其中，表示从前一帧跟踪目标位置提取的包含上下文的特征图。

[0078] 为了统一端到端网络中的相关滤波器，将上面的解构造成相关滤波器层，给定搜索块的特征图，损失函数为：

[0079]

[0080]

[0081]

[0082] 其中，是期望响应，它是以真实目标位置为中心的高斯分布。损失函数关于和的反向传播公式为：

[0083]

[0084]

[0085] 一旦反向传播可以得到，相关滤波器可以表示为网络中的一层，称为CF层。

[0086] 本申请提出的目标跟踪方法是一种基于多信息融合深度神经网络的目标跟踪方法，将光流网络估计到的运动矢量特征、特征网络提取到的外观特征和计算相关性的相关滤波DCF跟踪都设计成深度神经网络的特定层，有机结合目标光流信息的外观特征信息，实现了端到端的学习，有效提升了目标跟踪方法在目标遇到运动模糊或者部分遮挡时的鲁棒性。

[0087] 如图4所示，为一个实施例中融合特征获取方法流程示意图。在一个实施例中，利用运动矢量特征对各历史图像对应的外观特征进行融合得到融合特征，包括：

[0088] 步骤410，计算各历史图像与当前图像的前一帧图像之间的翘曲特征。

[0089] 具体地，服务器利用光流网络提取的光流特征如运动矢量特征编码了两个输入图像间的对应运动关系。服务器利用光流特征将相邻帧的外观特征图翘曲到特定帧得到翘曲特征，具体如公式(10)所示：

[0090]

[0091] 其中，表示从当前帧i翘曲到特定t-1帧的翘曲特征图。Flow(Ii,It-1)是通过光流网络估计的光流场，将当前帧i的位置p投影到特定帧t-1的位置p+δp。翘曲操作通过对特征图中每个通道所有位置使用双线性函数实现。特定通道的翘曲操作为如公式(11)：

[0092]

[0093] 其中，p＝(px,py)表示2D位置，δp＝Flow(Ii,It-1)(p)表示对应位置的光流，m表示外观特征图的一个通道，q＝(qx,qy)列举了外观特征图中所有的空间位置，K表示双线性插值核。

[0094] 由于采用了端到端的训练，关于的反向传播和光流δp推导公式为：

[0095]

[0096]

[0097] 一旦当前帧的特征图翘曲到特定帧，就提供了相同目标实例的多样信息，例如不同的视角、变形和变化的光照。所以用于跟踪目标的外观特征可以通过融合这些特征图来增强，得到的融合特征的结果为：

[0098]

[0099] 其中，T是预定义间隔，wi→t-1是自适应权重。自适应权重由提出的时空注意机制来决定，时空注意机制为自适应权重算法，表示在每个空间位置或者时间通道上融合帧的重要性。

[0100] 具体地，时空注意机制的获取方法包括：

[0101] 步骤420，获取当前图像的前一帧图像对应的外观特征。

[0102] 具体地，服务器利用特征网络获取当前图像的前一帧图像对应的外观特征。

[0103] 步骤430，计算翘曲特征与当前图像的前一帧图像的外观特征的第一相似度。

[0104] 服务器利用相关度算法计算翘曲特征与当前图像的前一帧图像的外观特征第一相似度。

[0105] 步骤440，根据第一相似度的数值得到各位置对应的位置权重。

[0106] 具体地，相似度对应的数值越大，位置权重也越大。

[0107] 步骤450，利用位置权重以及运动矢量特征对各历史图像对应的外观特征进行融合得到融合特征。

[0108] 在一个实施例中，计算翘曲特征与外观特征的第一相似度，包括：计算翘曲特征与当前图像前一帧图像的外观特征的余弦距离；根据余弦距离的数值大小得到翘曲特征与当前图像前一帧图像的外观特征的第一相似度。

[0109] 对于空间位置，服务器利用余弦相似度指标来度量翘曲特征和从特定t-1帧提取的外观特征之间的相似度。具体地，从t-1到t-n帧的特征融合阶段，设计了一种空间注意机制，空间注意表示在不同空间位置的不同权重。首先，服务器利用瓶颈子网络将映射到新的嵌入然后采用余弦相似度指标来度量翘曲特征和从特定t-1帧提取的外观特征之间的相似度，对空间位置上每一个待融合的点分配权重，如公式(15)所示：

[0110]

[0111] 其中SoftMax操作用于相邻帧每个空间位置p的通道上来归一化权重wi→t-1。直观地说，在空间注意力中，如果翘曲特征和特征很接近，那么它将被分配一个大权重，否则分配一个小权重。

[0112] 在一个实施例中，利用位置权重以及运动矢量特征对各外观特征进行融合得到融合特征，包括：计算当前图像与各历史图像的第二相似度；根据第二相似度的数值得到各历史图像对应的时间权重；利用位置权重、时间权重以及运动矢量特征对各历史图像对应的外观特征进行融合得到融合特征。

[0113] 具体地，在时空注意机制中还设计一种时间注意机制，即把每一帧看做一个通道，设计一个质量判断网络。具体来说，空间注意力模块的输出首先通过一个全局池化层来产生一个通道描述子，然后加上三个全连接(FC)层，用来通过基于通道依赖性的自动门控机制学习每个通道，通过神经网络算法计算图像之间的第二相似性。然后重新加权原始特征图来生成时间注意力模块的输出。

[0114] 在本实施例中，时空注意机制中的自适应权重表示在每个空间位置和时间通道上融合帧的重要性。对于空间位置，采用余弦相似度指标来度量翘曲特征和从特定t-1帧提取的图像特征之间的相似度。对于不同的通道，进一步引入时间注意来自适应校准时间通道。结合空间和时间两种特征设计权重因子，提高了对目标跟踪的准确性。

[0115] 在一个实施例中，利用位置权重以及运动矢量特征对各历史图像对应的外观特征进行融合得到融合特征，包括：计算各历史图像的图像质量；按照图像质量的高低对各历史图像进行排序；根据排序结果对各历史图像分配时间权重；利用位置权重、时间权重以及运动矢量特征对各历史图像对应的外观特征进行融合得到融合特征。

[0116] 时域帧(通道)中的权重被可视化来展示时间注意的结果。在本实施例中的场景中，服务器计算图像的质量，当图像为模糊或者被遮挡时，计算得到的图像得分较低，表明图像质量较差，设置权重在低质量帧中更小，在高质量帧中更大，在时间注意模块中扮演了重新校准的角色。

[0117] 如图5所示，提供了一种多信息融合跟踪网络结构图。多信息融合跟踪网络结构是一个基于孪生神经网络(Siamese Net)的双流训练网络，网络分为历史分支510和当前分支520，在历史分支510中，利用特征网络540提取历史图像的外观特征，利用光流网络550进行光流特征如运动矢量特征的提取，利用翘曲模块560以及时空注意570进行特征的融合，得到融合特征。如利用运动矢量特征指导外观特征图的融合阶段，需要说明的是，翘曲是指一种点到点的映射关系，实现光流网络出来的光流图到高阶特征的映射。在当前分支520中，利用特征网络530提取当前图像对应的外观特征。然后将Siamese结构两支出来的融合特征图以及外观特征图一起送进相关滤波580中，得到进行相关性分析后的得分情况，实现端到端的训练过程。

[0118] 在本实施例中，特别是利用当前图像的外观特征与融合了运动矢量特征的融合特征进行匹配，利用更多的动态特征而非仅仅是静态的外观特征进行目标跟踪，提高了对目标识别的能力以及对目标跟踪的准确性。

[0119] 在一个实施例中，服务器利用训练集对目标跟踪模型离线训练之后，利用训练好的目标跟踪网络进行在线跟踪。首先，服务器从视频流中获取的图像通过训练过的特征网络FeatueNet和光流网络FlowNet，得到外观特征和光流特征如运动矢量特征。然后，服务器利用光流网络提取到的光流特征信息，将历史帧图像的外观特征图翘曲到当前帧图像中，得到翘曲特征图。翘曲特征图和当前帧图像特征图被嵌入，同时在特征融合的过程中使用时空注意进行融合的加权。最后利用相关滤波算法计算特征图之间的相关度分数图，找到分数图中的最大响应来得到当前目标状态的估计。

[0120] 在一个实施中，计算外观特征与融合特征之间的相关度，将相关度的数值最大的位置提取为目标位置，根据目标位置对目标进行跟踪，包括：对外观特征以及融合特征进行相关滤波处理，得到外观特征与融合特征之间的相关度；将相关度的数值最大的位置提取为目标位置；获取目标区域的尺寸信息，根据尺寸信息以及目标位置对目标进行跟踪。

[0121] 融合特征中融合目标物体的外观特征以及运动矢量特征，计算融合特征与外观特征的相关度。充分利用图像帧间的运动信息，使得即使目标跟踪方法在目标有部分遮挡和变形的场景中仍然能够实现准确的跟踪。具体地，提取到相关度得分最高的位置可能为待跟踪目标的中心位置，获取待跟踪目标的尺寸信息，根据中心位置以及尺寸位置可以在当前图像中获取待跟踪目标的区域，在当前图像中实现对目标区域的跟踪。

[0122] 在一个实施例中，将相关度的数值最大的位置提取为目标位置，根据目标位置对目标进行跟踪，包括：计算外观特征与融合特征之间的峰值信噪比值；当峰值信噪比值和相关度的数值同时满足预设阈值时，将相关度的数值最大的位置提取为目标位置；根据目标位置对目标跟踪网络进行更新，根据更新后的目标跟踪网络对目标进行跟踪。

[0123] 服务器利用峰值信噪比算法计算外观特征与融合特征之间的峰值信噪比值，峰值信噪比值越大说明图像之间的相似度越高。服务器利用DCF网络计算外观特征与融合特征之间的相关度，相关度数值越大说明图像之间的相似度越大。当峰值信噪比值和相关度的数值都满足预设阈值时，如峰值信噪比值和相关度的数值在同一个位置同时满足最大值时，表明此时获取的目标位置为真正的目标位置，将相关度的数值最大的位置提取为目标位置，然后根据获取的目标位置对目标跟踪网络进行更新，以根据更新后的目标跟踪网络实现对目标的跟踪。

[0124] 传统技术中的目标跟踪方法在每一帧或一个固定间隔更新跟踪模型，具体地，服务器进行相关滤波计算，提取得分最大的位置为目标位置，然而，当待跟踪目标被遮挡或到视野外时，利用每一帧或一个固定间隔更新跟踪模型的策略会引入错误的背景信息，如获取的相关度数值最大的位置可能为假目标位置，因为此时的峰值信噪比很低的，此时进行目标跟踪导致出现跟踪错误，使得目标跟踪不准确。在本实施例中的跟踪网络中，同时计算峰值信息噪比与相关滤波，当峰噪比和相关度响应图的数值同时满足预设阈值时，如最大值在相同时间满足时，才说明找到了真正的目标点，此时模型才进行更新，进而实现准确的目标跟踪。

[0125] 在本实施例中，提出了一种基于多信息融合深度神经网络的目标跟踪方法，该方法有机结合了跟踪目标的光流信息和外观信息，使用时空注意机制自适应融合多特征图，实现了端到端的学习，有效提升了跟踪方法在目标遇到运动模糊或者部分遮挡时的鲁棒性。

[0126] 应该理解的是，虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-5中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

[0127] 在一个实施例中，如图6所示，一种目标跟踪装置，其特征在于，所述装置包括：

[0128] 图像获取模块610，用于获取历史图像以及当前图像。

[0129] 矢量特征提取模块620，用于提取各所述历史图像的外观特征以及各所述历史图像与所述当前图像之间的运动矢量特征。

[0130] 融合特征获取模块630，用于利用所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征。

[0131] 外观特征提取模块640，用于提取所述当前图像对应的外观特征。

[0132] 跟踪模块650，用于计算所述当前图像的外观特征与所述融合特征之间的相关度，将所述相关度的数值最大的位置提取为目标位置，根据所述目标位置对目标进行跟踪。

[0133] 在一个实施例中，所述融合特征获取模块630，包括：

[0134] 翘曲特征计算单元，用于计算各所述历史图像与所述当前图像的前一帧图像之间的翘曲特征。

[0135] 外观特征提取单元，用于获取所述当前图像的前一帧图像对应的外观特征。

[0136] 第一相似度计算单元，用于计算所述翘曲特征与所述当前图像的前一帧图像的外观特征的第一相似度。

[0137] 位置权重计算单元，用于根据所述第一相似度的数值得到各位置对应的位置权重。

[0138] 融合特征计算单元，用于利用所述位置权重以及所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征。

[0139] 在一个实施例中，所述第一相似度计算单元，包括：

[0140] 距离计算单元，用于计算所述翘曲特征与所述当前图像的前一帧图像的外观特征的余弦距离。

[0141] 第一相似度计算子单元，用于根据所述余弦距离的数值大小得到所述翘曲特征与所述当前图像的前一帧图像的外观特征的第一相似度。

[0142] 在一个实施例中，所述融合特征计算单元，包括：

[0143] 第二相似度计算子单元，用于计算所述当前图像与各所述历史图像的第二相似度。

[0144] 时间权重计算子单元，用于根据所述第二相似度的数值得到各所述历史图像对应的时间权重。

[0145] 融合特征计算子单元，用于利用所述位置权重、所述时间权重以及所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征。

[0146] 在一个实施例中，所述融合特征计算单元，包括：

[0147] 质量计算子单元，用于计算各所述历史图像的图像质量。

[0148] 排序子单元，用于按照图像质量的高低对各所述历史图像进行排序。

[0149] 权重分配子单元，用于根据排序结果对各所述历史图像分配时间权重。

[0150] 特征融合子单元，用于利用所述位置权重、所述时间权重以及所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征。

[0151] 在一个实施例中，所述跟踪模块650，包括：

[0152] 分值计算单元，用于对所述外观特征以及所述融合特征进行相关滤波处理，得到所述外观特征与所述融合特征之间的相关度。

[0153] 目标提取单元，用于将所述相关度的数值最大的位置提取为目标位置。

[0154] 跟踪单元，用于获取目标区域的尺寸信息，根据所述尺寸信息以及所述目标位置对所述目标进行跟踪。

[0155] 在一个实施例中，所述跟踪模块650，包括：

[0156] 峰值计算单元，用于计算所述外观特征与所述融合特征之间的峰值信噪比值。

[0157] 提取单元，用于当所述峰值信噪比值和所述相关度的数值同时满足预设阈值时，将所述相关度的数值最大的位置提取为目标位置。

[0158] 更新跟踪单元，用于根据所述目标位置对目标跟踪网络进行更新，根据更新后的所述目标跟踪网络对目标进行跟踪。

[0159] 在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于处理待跟踪视频相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种目标跟踪方法。

[0160] 本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

[0161] 在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取历史图像以及当前图像；提取各所述历史图像的外观特征以及各所述历史图像与所述当前图像之间的运动矢量特征；利用所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征；提取所述当前图像对应的外观特征；计算所述当前图像的外观特征与所述融合特征之间的相关度，将所述相关度的数值最大的位置提取为目标位置，根据所述目标位置对目标进行跟踪。

[0162] 在一个实施例中，处理器执行计算机程序时实现所述利用所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征的步骤时还用于：计算各所述历史图像与所述当前图像的前一帧图像之间的翘曲特征；获取所述当前图像的前一帧图像对应的外观特征；计算所述翘曲特征与所述当前图像的前一帧图像的外观特征的第一相似度；根据所述第一相似度的数值得到各位置对应的位置权重；利用所述位置权重以及所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征。

[0163] 在一个实施例中，处理器执行计算机程序时实现所述计算所述翘曲特征与所述当前图像的前一帧图像的外观特征的第一相似度的步骤时还用于：计算所述翘曲特征与所述当前图像前一帧图像的外观特征的余弦距离；根据所述余弦距离的数值大小得到所述翘曲特征与所述当前图像前一帧图像的外观特征的第一相似度。

[0164] 在一个实施例中，处理器执行计算机程序时实现所述利用所述位置权重以及所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征，的步骤时还用于：计算所述当前图像与各所述历史图像的第二相似度；根据所述第二相似度的数值得到各所述历史图像对应的时间权重；利用所述位置权重、所述时间权重以及所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征。

[0165] 在一个实施例中，处理器执行计算机程序时实现所述利用所述位置权重以及所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征的步骤时还用于：计算各所述历史图像的图像质量；按照图像质量的高低对各所述历史图像进行排序；根据排序结果对各所述历史图像分配时间权重；利用所述位置权重、所述时间权重以及所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征。

[0166] 在一个实施例中，处理器执行计算机程序时实现所述计算所述外观特征与所述融合特征之间的相关度，将所述相关度的数值最大的位置提取为目标位置，根据所述目标位置对目标进行跟踪的步骤时还用于：对所述外观特征以及所述融合特征进行相关滤波处理，得到所述外观特征与所述融合特征之间的相关度；将所述相关度的数值最大的位置提取为目标位置；获取目标区域的尺寸信息，根据所述尺寸信息以及所述目标位置对所述目标进行跟踪。

[0167] 在一个实施例中，处理器执行计算机程序时实现所述将所述相关度的数值最大的位置提取为目标位置，根据所述目标位置对目标进行跟踪的步骤时还用于：计算所述外观特征与所述融合特征之间的峰值信噪比值；当所述峰值信噪比值和所述相关度的数值同时满足预设阈值时，将所述相关度的数值最大的位置提取为目标位置；根据所述目标位置对目标进行跟踪。

[0168] 在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取历史图像以及当前图像；提取各所述历史图像的外观特征以及各所述历史图像与所述当前图像之间的运动矢量特征；利用所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征；提取所述当前图像对应的外观特征；计算所述当前图像的外观特征与所述融合特征之间的相关度，将所述相关度的数值最大的位置提取为目标位置，根据所述目标位置对目标进行跟踪。

[0169] 在一个实施例中，计算机程序被处理器执行时实现所述利用所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征的步骤时还用于：计算各所述历史图像与所述当前图像的前一帧图像之间的翘曲特征；获取所述当前图像的前一帧图像对应的外观特征；计算所述翘曲特征与所述当前图像的前一帧图像的外观特征的第一相似度；根据所述第一相似度的数值得到各位置对应的位置权重；利用所述位置权重以及所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征。

[0170] 在一个实施例中，计算机程序被处理器执行时实现所述计算所述翘曲特征与所述当前图像的前一帧图像的外观特征的第一相似度的步骤时还用于：计算所述翘曲特征与所述当前图像前一帧图像的外观特征的余弦距离；根据所述余弦距离的数值大小得到所述翘曲特征与所述当前图像前一帧图像的外观特征的第一相似度。

[0171] 在一个实施例中，计算机程序被处理器执行时实现所述利用所述位置权重以及所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征，的步骤时还用于：计算所述当前图像与各所述历史图像的第二相似度；根据所述第二相似度的数值得到各所述历史图像对应的时间权重；利用所述位置权重、所述时间权重以及所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征。

[0172] 在一个实施例中，计算机程序被处理器执行时实现所述利用所述位置权重以及所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征的步骤时还用于：计算各所述历史图像的图像质量；按照图像质量的高低对各所述历史图像进行排序；根据排序结果对各所述历史图像分配时间权重；利用所述位置权重、所述时间权重以及所述运动矢量特征对各所述历史图像对应的外观特征进行融合得到融合特征。

[0173] 在一个实施例中，计算机程序被处理器执行时实现所述计算所述外观特征与所述融合特征之间的相关度，将所述相关度的数值最大的位置提取为目标位置，根据所述目标位置对目标进行跟踪的步骤时还用于：对所述外观特征以及所述融合特征进行相关滤波处理，得到所述外观特征与所述融合特征之间的相关度；将所述相关度的数值最大的位置提取为目标位置；获取目标区域的尺寸信息，根据所述尺寸信息以及所述目标位置对所述目标进行跟踪。

[0174] 在一个实施例中，计算机程序被处理器执行时实现所述将所述相关度的数值最大的位置提取为目标位置，根据所述目标位置对目标进行跟踪的步骤时还用于：计算所述外观特征与所述融合特征之间的峰值信噪比值；当所述峰值信噪比值和所述相关度的数值同时满足预设阈值时，将所述相关度的数值最大的位置提取为目标位置；根据所述目标位置对目标进行跟踪。

[0175] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

[0176] 以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

[0177] 以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

标题	发布/更新时间	阅读量
一种NBIOT的频域时频同步方法	2020-05-08	599
一种基于压缩感知的视频序列重构方法	2020-05-11	378
自学习多路图像融合的实时矫正方法及系统	2020-05-11	121
一种基于噪声方差分段估计的图像去噪方法	2020-05-12	859
一种基于可调狭缝的波长可调谐掺铒光纤锁模激光振荡器	2020-05-08	973
一种Gm-APD激光雷达最远探测距离的计算方法	2020-05-08	647
单字符文本归一化模型训练方法、文本识别方法及装置	2020-05-12	914
操作助听器系统的方法以及助听器系统	2020-05-11	575
一种基于图像质量的人脸防伪方法	2020-05-08	518
质谱检测乳制品中A1、A2型β酪蛋白的质谱模型及其构建方法	2020-05-08	215

目标跟踪方法、装置、计算机设备和存储介质

目标跟踪方法、装置、计算机设备和存储介质

技术领域

背景技术

具体实施方式

该功能需要专业版企业版VIP权限，您可以：