首页 / 专利库 / 视听技术与设备 / 帧间位移误差 / 一种使用运动信息与时序信息的改进CFNet视频目标追踪方法

一种使用运动信息与时序信息的改进CFNet视频目标追踪方法

阅读:447发布:2020-05-17

专利汇可以提供一种使用运动信息与时序信息的改进CFNet视频目标追踪方法专利检索,专利查询,专利分析的服务。并且本 发明 提供一种使用运动信息与时序信息的改进CFNet视频目标追踪方法,属于目标追踪、 深度学习 领域。为了使模型有更强的鲁棒性,首先,要能够更好的提取 视频 帧 中的图像特征,在CFNet模型的 基础 上,引入了SE-ResNext-50作为本模型的特征提取网络,其次,通过前后帧的信息,计算物体的位移、速度、 加速 度特征,作为 跟踪 目标的运动信息特征输入模型中。同时,模型还使用二维ConvLSTM循环神经网络,提取视频帧内的时序信息,两种信息的加入使得模型具有了较强的鲁棒性,在遇到遮挡,形变,目标快速运动等问题时较之前模型有较好的表现。,下面是一种使用运动信息与时序信息的改进CFNet视频目标追踪方法专利的具体信息内容。

1.一种使用运动信息与时序信息的改进CFNet视频目标追踪方法,其特征在于,包括如下步骤:
步骤1,选取训练视频数据集,并进行预处理,得到网络模型需要的训练数据集;
步骤2,将步骤1预处理后的数据输入到构建好的网络模型中,初始化历史信息特征图,使用训练好的CFNet或SiameseFC对目标下一位置进行估计,用估计结果计算初始化运动状态特征图;
步骤3,使用Se-ResNext-50对模板帧图像特征进行提取,与步骤2中得到的当前时刻状态特征Ht一起,作为相关滤波层的输入,通过相关滤波层进行匹配识别,输出匹配度最高的结果作为模型预估的跟踪目标位置;
步骤4,跟踪过程中通过步骤2与步骤3中的公式不断维护历史状态特征图与运动状态特征图,通过多尺度输入不断修正跟踪目标边界框大小,并根据模型的损失函数,采用反向传播方法,对整个网络的参数进行微调,重复步骤4,得到最后的网络模型;
步骤5,将测试视频数据集输入到步骤4得到的模型中,输出结果。
2.根据权利要求1所述的一种使用运动信息与时序信息的改进CFNet视频目标追踪方法,其特征在于,所述步骤2具体为:
步骤2.1,以Se-ResNext-50作为特征提取网络,构建网络模型,使用ImageNet预训练权重初始化特征提取网络权重,初始化网络模型中特征提取网络以外部分的权重,使用0对历史信息特征图进行初始化,设置模型最大训练轮数;
步骤2.2,将当前帧图片输入到网络模型中,使用CFNet或SiameseFC对目标下一帧位置进行估计,再计算获取物体的运动信息以此初始化运动状态特征图;
(1)设物体当前的位置为Pt,目标在历史帧当中的位置分别为,Pt-T,Pt-2T,则当前帧目标的速度vt与加速度at可分别通过与相应历史值做一阶和二阶近似得到,T表示当前帧与所观察的下一帧的时间差;
vt=(Pt-Pt-T)
at=(vt-vt-T)
(2)利用运动信息对视频下一帧目标位置进行推断,得到位移、速度、加速度的特征图;
具体过程为:将下一帧图像的每个像素所在位置pi,j与预估的物体当前的位置Pt相减,得到与Pt预估位置相关的位移特征图Mp,同理获得速度与加速度状态差的特征图Mv,Ma;
Mp(i,j)=pi,j-Pt
Mv(i,j)=Mp(i,j)-vt
Ma(i,j)=Mv(i,j)-at
(3)将得到的跟踪物体位移、速度、加速度特征图在通道轴进行拼接,得到运动状态特征图M=[Mp,Mv,Ma],同时对过去的状态进行平滑处理:
其中, 为在t时刻跟踪物体的速度, 为在t时刻跟踪物体的加速度,vj为位置为j的像素的速度,aj为位置为j的像素的加速度;
步骤2.3,将运动状态特征图M与当前帧进行拼接,作为图像特征提取网络Se-ResNext-
50的输入,得到当前帧特征图It;
步骤2.4,将当前帧特征图It,与在T时刻之前得到的历史状态特征Ht-1,同时输入到时序特征状态提取网络ConvLSTM中,得到当前时刻的状态特征Ht,ConvLSTM在接收上一状态特征Ht-1与当前帧特征图It后获取当前时刻状态特征Ht的方式如下:
其中,it为t时刻输入特征,ft为t时刻遗忘门特征,Ct为t时刻细胞特征,ot为t时刻输出门特征,*表示卷积操作,°表示Hadamard积,σ为Sigmoid激活函数,W(*)为卷积核权重,Wi为输入门权重,Wci为细胞输入门权重,Wf为遗忘门权重,Wcf为细胞遗忘门权重,Wc为细胞权重,Wxo为输出权重,Who为隐藏状态输出门权重,Wco为细胞输出门权重,b(*)为偏置项,bi为输入门偏置,bf为遗忘门偏置,bc为细胞偏置,bo为输出门偏置,tanh(·)表示双曲正切函数。
3.根据权利要求1或2所述的一种使用运动信息与时序信息的改进CFNet视频目标追踪方法,其特征在于,所述步骤3具体为:
步骤3.1,再次使用在步骤2出现过的SE-ResNext-50特征提取网络,对模板帧进行特征提取,得到模板帧的特征向量
步骤3.2,将模板帧特征信息与当前帧状态特征,同时输入到相关滤波层中,得到两个状态下两特征的匹配度,相关滤波的具体操作为:
hρ,s,b(x,z)=sω(fρ(x))*fρ(z)+b
其中,ω指代CFNet里面所指的相关滤波层,s,b是为了使响应值更适用于Logistics回归的而引入的参数,fρ(x)表示当前帧搜索区域的特征,fρ(z)表示上一帧目标的特征;
步骤3.3,根据模型输出相应值的高低,作为模型在该位置的得分,相应值最大的位置作为当前帧中目标的预估位置。
4.根据权利要求1或2所述的一种使用运动信息与时序信息的改进CFNet视频目标追踪方法,其特征在于,所述步骤4具体为:
步骤4.1,将步骤2得到的Ht作为下一帧的历史状态信息,将步骤3中得到的当前帧模型预估的跟踪目标位置通过步骤2的方式计算获得运动状态特征图;
步骤4.2,放大和缩小边界框,再通过双线性插值将模版帧缩放至模型要求输入的大小后输入模型;
步骤4.3,将响应值最大的尺寸与位置作为下一帧目标模版帧的边界框尺寸与预估位置;
步骤4.4,通过损失函数计算目标位置与实际位置之间的误差,并通过反向传播方法不断调整训练参数。
5.根据权利要求3所述的一种使用运动信息与时序信息的改进CFNet视频目标追踪方法,其特征在于,所述步骤4具体为:
步骤4.1,将步骤2得到的Ht作为下一帧的历史状态信息,将步骤3中得到的当前帧模型预估的跟踪目标位置通过步骤2的方式计算获得运动状态特征图;
步骤4.2,放大和缩小边界框,再通过双线性插值将模版帧缩放至模型要求输入的大小后输入模型;
步骤4.3,将响应值最大的尺寸与位置作为下一帧目标模版帧的边界框尺寸与预估位置;
步骤4.4,通过损失函数计算目标位置与实际位置之间的误差,并通过反向传播方法不断调整训练参数。
6.根据权利要求1、2或5所述的一种使用运动信息与时序信息的改进CFNet视频目标追踪方法,其特征在于,所述步骤5具体为:
步骤5.1,将预处理好的测试视频数据集输入到步骤4训练好的、参数确定的网络模型中,经过步骤2中各隐藏层网络的处理,提取视频帧中的当前状态特征信息;
步骤5.2,将得到的模板帧特征信息与当前帧状态特征信息,通过相关滤波层进行对比,确定当前帧各部分与模板帧的响应值,得到模型推断的跟踪目标位置。
7.根据权利要求3所述的一种使用运动信息与时序信息的改进CFNet视频目标追踪方法,其特征在于,所述步骤5具体为:
步骤5.1,将预处理好的测试视频数据集输入到步骤4训练好的、参数确定的网络模型中,经过步骤2中各隐藏层网络的处理,提取视频帧中的当前状态特征信息;
步骤5.2,将得到的模板帧特征信息与当前帧状态特征信息,通过相关滤波层进行对比,确定当前帧各部分与模板帧的响应值,得到模型推断的跟踪目标位置。
8.根据权利要求4所述的一种使用运动信息与时序信息的改进CFNet视频目标追踪方法,其特征在于,所述步骤5具体为:
步骤5.1,将预处理好的测试视频数据集输入到步骤4训练好的、参数确定的网络模型中,经过步骤2中各隐藏层网络的处理,提取视频帧中的当前状态特征信息;
步骤5.2,将得到的模板帧特征信息与当前帧状态特征信息,通过相关滤波层进行对比,确定当前帧各部分与模板帧的响应值,得到模型推断的跟踪目标位置。
9.根据权利要求1、2、5、7或8所述的一种使用运动信息与时序信息的改进CFNet视频目标追踪方法,其特征在于,步骤1中所述的预处理的过程包括:对视频中的单帧图像进行亮度对比度、色相的增广,对视频进行空域上的裁剪,在时域上对视频的时长使用双线性插值的方法进行缩放。
10.根据权利要求6所述的一种使用运动信息与时序信息的改进CFNet视频目标追踪方法,其特征在于,步骤1中所述的预处理的过程包括:对视频中的单帧图像进行亮度、对比度、色相的增广,对视频进行空域上的裁剪,在时域上对视频的时长使用双线性插值的方法进行缩放。

说明书全文

一种使用运动信息与时序信息的改进CFNet视频目标追踪

方法

技术领域

[0001] 本发明属于目标追踪、深度学习领域,是一种基于孪生全卷积跟踪模型CFNet(Correlation Filter Network),综合使用时序信息与运动信息的改进CFNet跟踪方法。

背景技术

[0002] 现有的目标跟踪方法,一部分是利用现有的目标跟踪深度学习网络框架,并且主要使用 当前的表征信息,作为模型训练的数据来源。这样传统的模型存在一定的局限性,信息来 源比较单一,只能利用当前帧中的RGB信息。这使得这些模型在跟踪物体发生形变、快速移 动、遮挡时,表现出了较差的跟踪效果,限制了视频跟踪技术在真实场景中的使用。
[0003] 相关滤波最早应用于信号处理中,用以描述两个信号之间的相关性,近年来被应用与传 统的视频目标跟踪任务中,借助傅立叶变换展现出了较优的实时性与跟踪效果。近年来来, 随着深度学习的快速发展,各类卷积神经网络计算机视觉中表现突出,一系列基于卷积网 络的视频跟踪方法和模型框架也被提出。全卷积孪生网络SiameseFC于2016年被Bertinetto 提出。在2017年,Valmadre等人在SiameseFC架构的基础上,提出来改进的基于深度卷积跟 踪模型CFNet,将相关滤波融入到深度神经网络的架构里实现了端到端训练。在不牺牲精度 的同时,保证了方法计算处理的帧率,做到了较高的方法实时性,成为了当前在视频跟踪领 域中,被广泛应用的深度学习网络结构。
[0004] 传统的相关滤波通常是对傅里叶变换后的图像进行处理,CFNet模型在SiameseFC模型 的基础上,首次在卷积神经网络中将相关滤波层加入模型,使得相关滤波层可以进行端到端 的优化。网络模型层数更少,模型训练难度更低。尽管CFNet方法在模型训练过程和训练结 果上较之前模型取得了不小的提升,但方法在进行推断处理时,只考虑到了当前帧的表层特 征,不能很好的利用到视频帧内以及帧与帧之间的关系。而这些信息的缺失,使得模型在遇 到诸如遮挡,形变等问题时表现出较差的性能。因此,在训练模型的特征选择上,还存在有 提升的空间。

发明内容

[0005] 为了解决现有技术、模型存在的问题,本发明提出一种综合使用运动信息和时序信息的 改进CFNet视频跟踪方法。
[0006] 本发明的技术方案:
[0008] 步骤1,选取训练视频数据集,并进行预处理,得到网络模型需要的训练数据集。所述 的预处理的过程包括:对视频中的单帧图像进行亮度对比度、色相的增广,对视频进行空 域上的裁剪,在时域上对视频的时长使用双线性插值的方法进行缩放。
[0009] 步骤2,将步骤1预处理后的数据输入到构建好的网络模型中,初始化历史信息特征图, 使用训练好的CFNet或SiameseFC对目标下一帧位置进行估计,用估计结果计算初始化运动 状态特征图;
[0010] 所述步骤2具体为:
[0011] 步骤2.1,以Se-ResNext-50作为特征提取网络,构建网络模型,使用ImageNet预训练权 重初始化特征提取网络权重,初始化网络模型中特征提取网络以外部分的权重,使用0对历 史信息特征图进行初始化,设置模型最大训练轮数。
[0012] 步骤2.2,将当前帧图片输入到网络模型中,使用CFNet或SiameseFC对目标下一帧位 置进行估计,再计算获取物体的运动信息以此初始化运动状态特征图;
[0013] (1)设物体当前的位置为Pt,目标在历史帧当中的位置分别为,Pt-T,Pt-2T,则当前帧 目标的速度vt与加速度at可分别通过与相应历史值做一阶和二阶近似得到,T表示当前帧与 所观察的下一帧的时间差。
[0014] vt=(Pt-Pt-T)
[0015] at=(vt-vt-T)
[0016]
[0017] (2)利用运动信息对视频下一帧目标位置进行推断,得到位移、速度、加速度的特征图。 具体过程为:将下一帧图像的每个像素所在位置pi,j与预估的物体当前的位置Pt相减,得到与 Pt预估位置相关的位移特征图Mp,同理获得速度与加速度状态差的特征图Mv,Ma。
[0018] Mp(i,j)=pi,j-Pt
[0019] Mv(i,j)=Mp(i,j)-vt
[0020] Ma(i,j)=Mv(i,j)-at
[0021] (3)将得到的跟踪物体位移、速度、加速度特征图在通道轴进行拼接,得到运动状态特 征图M=[Mp,Mv,Ma],同时对过去的状态进行平滑处理:
[0022]
[0023]
[0024] 其中, 为在t时刻跟踪物体的速度, 为在t时刻跟踪物体的加速度,vj为位置为 j的像素的速度,aj为位置为j的像素的加速度;
[0025] 步骤2.3,将运动状态特征图M与当前帧进行拼接,作为图像特征提取网络Se-ResNext-50 的输入,得到当前帧特征图It。
[0026] 步骤2.4,将当前帧特征图It,与在T时刻之前得到的历史状态特征Ht-1,同时输入到时 序特征状态提取网络ConvLSTM中,得到当前时刻的状态特征Ht,ConvLSTM在接收上一状 态特征Ht-1与当前帧特征图It后获取当前时刻状态特征Ht的方式如下:
[0027]
[0028]
[0029]
[0030]
[0031]
[0032] 其中,it为t时刻输入特征,ft为t时刻遗忘门特征,Ct为t时刻细胞特征,ot为t时刻输出 门特征,*表示卷积操作,°表示Hadamard积,σ为Sigmoid激活函数,W(*)为卷积核权重,Wi为输 入门权重,Wci为细胞输入门权重,Wf为遗忘门权重,Wcf为细胞遗忘门权重,Wc为细胞权重, Wxo为输出权重,Who为隐藏状态输出门权重,Wco为细胞输出门权重,b(*)为偏置项,bi为输 入门偏置,bf为遗忘门偏置,bc为细胞偏置,bo为输出门偏置,tanh(·)表示双曲正切函数。
[0033] 步骤3,使用Se-ResNext-50对模板帧图像特征进行提取,与步骤2中得到的当前时刻状 态特征Ht一起,作为相关滤波层的输入,通过相关滤波层进行匹配识别,输出匹配度最高的 结果作为模型预估的跟踪目标位置。
[0034] 所述步骤3具体为:
[0035] 步骤3.1,再次使用在步骤2出现过的SE-ResNext-50特征提取网络,对模板帧进行特征 提取,得到模板帧的特征向量
[0036] 步骤3.2,将模板帧特征信息与当前帧状态特征,同时输入到相关滤波层中,得到两个状 态下两特征的匹配度,相关滤波的具体操作为:
[0037] hρ,s,b(x,z)=sω(fρ(x))*fρ(z)+b
[0038] 其中,ω指代CFNet里面所指的相关滤波层,s,b是为了使响应值更适用于Logistics回归的而 引入的参数,fρ(x)表示当前帧搜索区域的特征,fρ(z)表示上一帧目标的特征。
[0039] 步骤3.3,根据模型输出相应值的高低,作为模型在该位置的得分,相应值最大的位置作 为当前帧中目标的预估位置。
[0040] 步骤4,跟踪过程中通过步骤2与步骤3中的公式不断维护历史状态特征图与运动状态 特征图,通过多尺度输入不断修正跟踪目标边界框大小,并根据模型的损失函数,采用反向 传播方法,对整个网络的参数进行微调,重复步骤4,得到最后的网络模型;
[0041] 所述步骤4具体为:
[0042] 步骤4.1,将步骤2得到的Ht作为下一帧的历史状态信息,将步骤3中得到的当前帧模型 预估的跟踪目标位置通过步骤2的方式计算获得运动状态特征图;
[0043] 步骤4.2,放大和缩小边界框,再通过双线性插值将模版帧缩放至模型要求输入的大小后 输入模型;
[0044] 步骤4.3,将响应值最大的尺寸与位置作为下一帧目标模版帧的边界框尺寸与预估位置;
[0045] 步骤4.4,通过损失函数计算目标位置与实际位置之间的误差,并通过反向传播方法不断 调整训练参数;
[0046] 步骤5,将测试视频数据集输入到步骤4得到的模型中,输出结果,[0047] 所述步骤5具体为:
[0048] 步骤5.1,将预处理好的测试视频数据集输入到步骤4训练好的、参数确定的网络模型中, 经过步骤2中各隐藏层网络的处理,提取视频帧中的当前状态特征信息;
[0049] 步骤5.2,将得到的模板帧特征信息与当前帧状态特征信息,通过相关滤波层进行对比, 确定当前帧各部分与模板帧的响应值,得到模型推断的跟踪目标位置。
[0050] 本发明的有益效果:为了使模型有更强的鲁棒性,首先,要能够更好的提取视频帧中的 图像特征,在CFNet模型的基础上,引入了SE-ResNext-50作为本模型的特征提取网络,其 次,通过前后帧的信息,计算物体的位移、速度、加速度特征,作为跟踪目标的运动信息特 征输入模型中。同时,模型还使用二维ConvLSTM循环神经网络,提取视频帧内的时序信息, 两种信息的加入使得模型具有了较强的鲁棒性,在遇到遮挡,形变,目标快速运动等问题时 较之前模型有较好的表现。附图说明
[0051] 图1为本发明中方法的模型的网络结构图。
[0052] 图2为本发明中方法的训练流程图

具体实施方式

[0053] 以下结合附图和技术方案,进一步说明本发明的具体实施方式。
[0054] 步骤1选取训练视频数据集,并进行预处理,得到模型需要的训练数据集。
[0055] 步骤2将步骤1预处理后的数据输入到构建好的模型中,初始化历史信息特征图,使用 训练好的CFNet或SiameseFC对目标下一帧位置进行估计,以此计算初始化运动状态特征图;
[0056] 所述步骤2具体为:
[0057] 步骤2.1,以Se-ResNext-50作为特征提取网络,构建网络模型,使用ImageNet预训练权 重初始化特征提取网络权重,初始化模型其他部分权重,使用0对历史信息特征图进行初始 化,设置模型最大训练轮数。
[0058] 步骤2.2,将当前帧图片输入到网络中,使用CFNet或SiameseFC对目标下一帧位置进 行估计,再计算获取物体的运动信息以此初始化运动状态特征图;
[0059] (1)假设物体当前的位置为Pt,目标在历史帧当中的位置分别为,Pt-T,Pt-2T,则当 前帧目标的速度vt与加速度at可分别通过与与相应历史值做一阶和二阶近似得到, T表示当前帧与所观察的下一帧的时间差。
[0060] vt=(Pt-Pt-T)
[0061] at=(vt-vt-T)
[0062]
[0063] (2)利用运动信息对视频下一帧目标位置进行推断,得到位移、速度、加速度的特征图。 具体的,我们将下一帧图像的每个像素所在位置pi,j与预估位置Pt相减,得到与预估位置相关 的位移特征图Mp,同理可得速度与加速度状态差的特征图Mv,Ma。
[0064] Mp(i,j)=pi,j-Pt
[0065] Mv(i,j)=Mp(i,j)-vt
[0066] Ma(i,j)=Mv(i,j)-at
[0067] (3)将得到的跟踪物体位移、速度、加速度特征图在通道轴进行拼接,得到运动状态特 征图M=[Mp,Mv,Ma],同时对过去个状态进行平滑处理:
[0068]
[0069]
[0070] 其中, 为在t时刻跟踪物体的速度, 为在t时刻跟踪物体的加速度,vj为位置为 j的像素的速度,aj为位置为j的像素的加速度;
[0071] 步骤2.3将运动状态特征图M与当前帧进行拼接,作为图像特征提取网络Se-ResNext-50 的输入,得到当前帧特征图It。
[0072] 步骤2.4将当前帧特征矩阵It,与在T时刻之前得到的历史状态Ht-1,同时输入到时序 特征状态提取网络ConvLSTM中,得到当前的时刻的特征Ht,ConvLSTM在接收上一状态Ht-1与当前输入状态It后获取下一状态Ht的方式如下:
[0073]
[0074]
[0075]
[0076]
[0077]
[0078] 其中,it为t时刻输入门特征,ft为t时刻遗忘门特征,Ct为t时刻细胞特征,ot为t时刻输出 门特征,*表示卷积操作,°表示Hadamard积,σ为Sigmoid激活函数,W(*)为卷积核权重,Wi为输 入门权重,Wci为细胞输入门权重,Wf为遗忘门权重,Wcf为细胞遗忘门权重,Wc为细胞权重, Wxo为输出权重,Who为隐藏状态输出门权重,Wco为细胞输出门权重,b(*)为偏置项,bi为输 入门偏置,bf为遗忘门偏置,bc为细胞偏置,bo为输出门偏置,tanh(·)表示双曲正切函数。
[0079] 步骤3、使用Se-ResNext-50对模板帧图像特征进行提取,与步骤2中得到的当前时刻特 征Ht一起,作为相关滤波层的输入,通过相关滤波层进行匹配识别,输出匹配度最高的结果 最为模型判断的跟踪目标位置。
[0080] 所述步骤3具体为:
[0081] 步骤3.1再次使用在步骤2出现过的SE-ResNext-50特征提取网络,对模板帧进行特征 提取,得到模板帧的特征向量。
[0082] 步骤3.2将模板帧特征信息与当前帧状态特征,同时输入到相关滤波层中,得到两个状 态下两特征的匹配度,相关滤波的具体操作为:
[0083] hρ,s,b(x,z)=sω(fρ(x))*fρ(z)+b
[0084] 其中ω指代CFNet里面所指的相关滤波层,s,b是为了使响应值更适用于Logistics回归的而引 入的参数,fρ(x)表示当前帧搜索区域的特征,fρ(z)表示上一帧目标的特征。
[0085] 步骤3.3根据模型输出相应值的高低,作为模型在该位置的得分,相应值最大的位置作 为当前帧中目标的预估位置。
[0086] 步骤4、跟踪过程中通过步骤2与步骤3中的公式不断维护历史状态特征图与运动状态 特征图,通过多尺度输入不断修正跟踪目标边界框大小,并根据模型的损失函数,采用反向 传播方法,对整个网络的参数进行微调,重复此步骤,得到最后的网络模型;
[0087] 所述步骤4具体为:
[0088] 步骤4.1,将步骤2得到的Ht作为下一帧的历史状态信息,将步骤3中得到的模型当前帧 的预估位置通过步骤2的方式计算获得运动状态特征图;
[0089] 步骤4.2,以一定比例放大和缩小边界框,再通过双线性插值将模版帧缩放至模型要求输 入大小输入模型;
[0090] 步骤4.3,将响应值最大的尺寸与位置作为下一帧目标模版帧的边界框尺寸与预估位置;
[0091] 步骤4.4,通过损失函数计算目标位置与实际位置之间的误差,并通过反向传播方法不断 调整训练参数;
[0092] 步骤5、将测试视频数据集输入到步骤4得到的模型中,并将输出结果,[0093] 所述步骤5具体为:
[0094] 步骤5.1将预处理好的测试视频数据集输入到步骤4训练好的,参数确定的网络模型中, 经过步骤2中各隐藏层网络的处理,提取视频帧中的当前特征状态信息;
[0095] 步骤5.2将得到的模板帧特征信息与当前帧状态特征信息,通过相关滤波层进行对比, 确定当前帧各部分与模板帧的响应值,得到模型推断的跟踪目标位置;
[0096] 本发明的有益效果:为了使模型有更强的鲁棒性,首先,要能够更好的提取视频帧中的 图像特征,在CFNet模型的基础上,引入了SE-ResNext-50作为本模型的特征提取网络,
[0097] 其次,通过前后帧的信息,计算物体的位移、速度、加速度特征,作为跟踪目标的运动 信息特征输入模型中。同时,模型还使用二维ConvLSTM循环神经网络,提取视频帧内的时 序信息,两种信息的加入使得模型具有了较强的鲁棒性,在遇到遮挡,形变,目标快速运动 等问题时较之前模型有较好的表现。
[0098] 实施例2:在OTB-50和OTB-100数据集上的实验
[0099] OTB-50和OTB-100数据集包括了目标任务常见的典型问题场景,如目标快速移动、目 标遮挡等。其中实验在Linux系统下搭建的pytorch环境下进行,评价指标采用交并比 (Intersection over Union,IoU)与距离精度(Distance Precision,DP),并使用OPE(One-Pass Evaluation)与TRE(Temporal Robustness Evaluation)评估方式。
[0100] 交并比指标定义为:
[0101]
[0102] 其中Bg为标准目标框,Bt为方法预测所得目标框,area为区域面积计算函数。
[0103] 距离精度指标定义为:
[0104]
[0105] 其中m表示目标的预测中心与标准中心位置的欧式距离小于一定阈值的帧数(文本阈值设为 20像素),n表示总帧数。
[0106] OPE评估方式指根据第一帧中的标准中心位置进行初始化,然后在测试序列中运行方法, 最后计算指标得分。TRE评估方式指在不同帧上进行初始化,再在序列中运行方法得到结果, 再对这些结果的指标得分取平均值。
[0107] 本次实验中,将CFNet中综合性能最优的CFNet-conv3和SiameseFC中综合性能最优的 Siamese-3s进行对比,表1给出了方法在数据上对应指标得分。
[0108] 表1各方法性能评估/%
[0109] Table 1 Comparison between algorithms performance
[0110]
[0111]
[0112] 从表1中可以看出,通过一系列对比实验,本发明提出的跟踪方法各项指标相对于 Siamese-3s和CFNet-conv3有较为显著的提升。在场景干扰或目标快速移动的情况下,CFNet 容易受到周围物体干扰导致目标脱框,而本方法在这种情况下仍可通过目标的运动信息来判 断目标的预估方向与位置,使得不会受到场景影响导致过分偏离原运动方向。而ConvLSTM 通过拟合帧中场景的时序变化,使得在场景变化较大的情况下,方法可以依据历史帧中的信 息去辨别目标。
[0113] 表2各部分收益评价/%
[0114] Table 2 Gainsofeachpart
[0115] 数据集 评价指标 运动信息 时序信息 综合  OPE IoU 54.5 54.7 55.2
OTB-50 OPE DP 72.8 73.0 73.5
  TRE IoU 58.6 58.8 59.2
  TRE DP 77.2 77.8 78.4
  OPE IoU 59.2 59.6 60.2
OTB-100 OPE DP 78.5 78.7 79.2
  TRE IoU 62.0 61.9 62.6
[0116] 同表1的实验,采用同样的评估方式,为本方法中提出的各个部分设计了对模型性能上 的增益的对比实验,结果如表2所示。从中我们可以看出与基础模型相比,改进方法中无论 是运动信息的使用还是ConvLSTM模去获取历史帧中的时序信息都给模型带来了一定的提 升。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈