首页 / 专利库 / 电脑编程 / 算法 / 一种基于复合循环神经网络系统的多目标跟踪模型

一种基于复合循环神经网络系统的多目标跟踪模型

阅读:82发布:2024-02-24

专利汇可以提供一种基于复合循环神经网络系统的多目标跟踪模型专利检索,专利查询,专利分析的服务。并且本 发明 公开基于复合循环神经网络系统的多目标 跟踪 模型,是基于RNN和GRU构成的复合循环神经网络系统的多目标跟踪网络模型,采用边界框标注被跟踪对象,所述复合循环神经网络系统包括基于RNN的目标检测单元、基于GRU的跟踪管理单元以及基于GRU的数据关联单元。本发明提出的基于RNN与GRU的多目标跟踪网络模型是一种端对端的多目标跟踪架构,相对于传统方法,简化了参数调整过程及要求,本发明在不同光照条件,频繁遮挡,目标间相互影响及表观相似等复杂环境条件下,均有较好的跟踪效果。,下面是一种基于复合循环神经网络系统的多目标跟踪模型专利的具体信息内容。

1.一种基于复合循环神经网络系统的多目标跟踪模型,其特征在于,是基于RNN和GRU构成的复合循环神经网络系统的多目标跟踪网络模型,采用边界框标注被跟踪对象,所述复合循环神经网络系统包括基于RNN的目标检测单元、基于GRU的跟踪管理单元以及基于GRU的数据关联单元,所述多目标跟踪网络模型采用以下步骤处理待测视频数据:
基于RNN的目标检测单元,输出t时刻对待测视频数据集vt的图像的检测结果集αt={ait}A,ait为t时刻视频中检测到的第i个对象,A为至t时刻累计检测到的对象集;
基于GRU的跟踪管理单元,输出t时刻对视频帧中各目标的跟踪结果集βt={bjt}B,bjt为t时刻相应视频帧中被跟踪的第j个对象,B为t时刻相应视频帧中对象的合集;以及,根据上述检测结果集以及跟踪结果集,计算数据关联的相似矩阵Ct=[c(ij)t]A×B,其中c(ij)t是ait与bjt间的欧式距离,c(ij)t=||ait-bjt||2;
基于GRU的数据关联单元,以t时刻的相似矩阵Ct中的子元素c(ij)t为输入,输出结果为t时刻相应图像帧中第j个跟踪结果与当前任一检测结果i间的匹配概率向量a(ij)t,表示t时刻第j个跟踪目标和第i个检测结果间的匹配概率,且Σa(ij)t=1并构成概率向量At,匹配概率最大的目标检测结果视为t时刻相应目标的跟踪结果。
2.根据权利要求1所述基于复合循环神经网络系统的多目标跟踪模型,其特征在于,所述基于RNN和GRU构成的复合循环神经网络系统的多目标跟踪网络模型的损失函数如下:
其中ht=∑hlt,
分别为复合循环网络系统t时刻的隐藏层状态和t-1预算的t时刻的隐藏层状态,x1,x2,x3,x4为权重值,在网络训练过程中的每次迭代过程进行更新,以使损失最小,N为t时刻检测到的目标总数,M为t时刻跟踪结果数目,D为目标的位置种类信息,D=4。
3.根据权利要求1所述基于复合循环神经网络系统的多目标跟踪模型,其特征在于,RNN与GRU网络的每一网络层均有一个相应的隐藏层状态h,t-1时刻预算的t时刻的第l层隐藏层状态 的前向传播算法如式所示:
其中,φ()为激活函数,xlt为当前隐藏层的输入,Ul、Wl
为权值,bl为偏置。
4.根据权利要求1所述基于复合循环神经网络系统的多目标跟踪模型,其特征在于,将训练集数据输入模型进行网络训练,训练过程视为以下两步骤的迭代过程:步骤一是基于预设鉴别网络学习率超参数值,利用梯度下降法更新鉴别网络结点参数值,生成网络结点参数值保持不变;步骤二是基于预设生成网络学习率超参数值,利用梯度下降法更新生成网络结点参数值,鉴别网络结点参数值保持不变;训练迭代过程为:执行步骤1多次后,执行步骤2一次,重复该迭代过程,直至损失最小,训练完毕。
5.根据权利要求1所述基于复合循环神经网络系统的多目标跟踪模型,其特征在于,模型的训练集数据通过对来自网络公共数据库的数据进行人工扩充和标注,以得到足够的训练样本集;其中标注过程为通过计算机脚本对视频帧中每个目标对象进行框选,并对不同目标加以编号。
6.根据权利要求5所述基于复合循环神经网络系统的多目标跟踪模型,其特征在于,扩充数据集的方法包含以下两种方式:
(1)对来自网络公共数据库的视频数据集进行人工处理,人工处理的方法包括对视频图像的亮度对比度进行调节,对行人对象及其运动轨迹进行镜像翻转、对视频图像进行随机平移、随机旋转;
(2)通过物理建模,建立基于网络公共视频数据集中行人对象的轨迹运动模型,即通过对所述视频数据集中行人运动轨迹的初始位置、平均运动速度、加速度三个变量估计其概率分布,然后通过对所述概率分布进行采样并模拟生成多个虚拟运动轨迹。

说明书全文

一种基于复合循环神经网络系统的多目标跟踪模型

技术领域

[0001] 本发明涉及计算机视觉技术领域,特别是涉及一种基于复合循环神经网络系统的多目标跟踪模型。

背景技术

[0002] 多目标跟踪,即Multiple Object Tracking(MOT),是给定一个图像序列,找到图像序列中运动的物体,并将不同中的运动物体一一对应(Identity),然后给出不同物体的运动轨迹。多目标跟踪的理想的评价指标需满足下述要求:所有出现的目标都要能够及时找到,找到目标位置要尽可能可真实目标位置一致,保持追踪一致性,避免跟踪目标的跳变。目前的多目标跟踪技术的跟踪结果的准确度尚需要进一步的提升。

发明内容

[0003] 本发明的目的是而提供一种基于复合循环神经网络系统的多目标跟踪模型,是一种行人多目标跟踪方法,以克服现有技术中和多目标跟踪算法或模型复杂度高,需要频繁参数调整,跟踪结果不够准确的等技术缺点,以实现在线的端到端的多目标跟踪过程。
[0004] 为实现本发明的目的所采用的技术方案是:
[0005] 一种基于复合循环神经网络系统的多目标跟踪模型,是基于RNN和GRU构成的复合循环神经网络系统的多目标跟踪网络模型,采用边界框标注被跟踪对象,所述复合循环神经网络系统包括基于RNN的目标检测单元、基于GRU的跟踪管理单元以及基于GRU的数据关联单元,所述多目标跟踪网络模型采用以下步骤处理待测视频数据:
[0006] 基于RNN的目标检测单元,输出t时刻对待测视频数据集vt的图像的检测结果集αt={ait}A,ait为t时刻视频帧中检测到的第i个对象,A为至t时刻累计检测到的对象集;
[0007] 基于GRU的跟踪管理单元,输出t时刻对视频帧中各目标的跟踪结果集βt={bjt}B,bjt为t时刻相应视频帧中被跟踪的第j个对象,B为t时刻相应视频帧中对象的合集;以及,根据上述检测结果集以及跟踪结果集,计算数据关联的相似矩阵Ct=[c(ij)t]A×B,其中c(ij)t是ait与bjt间的欧式距离,c(ij)t=||ait-bjt||2;
[0008] 基于GRU的数据关联单元,以t时刻的相似矩阵Ct中的子元素c(ij)t为输入,输出结果为t时刻相应图像帧中第j个跟踪结果与当前任一检测结果i间的匹配概率向量a(ij)t,表示t时刻第j个跟踪目标和第i个检测结果间的匹配概率,且∑a(ij)t=1并构成概率向量At,匹配概率最大的目标检测结果视为t时刻相应目标的跟踪结果。
[0009] 其中,所述基于RNN和GRU构成的复合循环神经网络系统的多目标跟踪网络模型的损失函数如下:
[0010]
[0011] 其中ht=∑hlt, 分别为复合循环网络系统t时刻的隐藏层状态和t-1预算的t时刻的隐藏层状态,X1,x2,x3,x4为权重值,在网络训练过程中的每次迭代过程进行更新,以使损失最小,N为t时刻检测到的目标总数,M为t时刻跟踪结果数目,D为目标的位置种类信息,D=4。
[0012] 其中,RNN与GRU网络的每一网络层均有一个相应的隐藏层状态h,t-1时刻预算的t时刻的第l层隐藏层状态 的前向传播算法如式所示:
[0013] 其中,φ()为激活函数,xlt为当前隐藏层的输入,Ul、Wl为权值,bl为偏置。
[0014] 其中,将训练集数据输入模型进行网络训练,训练过程视为以下两步骤的迭代过程:步骤一是基于预设鉴别网络学习率超参数值,利用梯度下降法更新鉴别网络结点参数值,生成网络结点参数值保持不变;步骤二是基于预设生成网络学习率超参数值,利用梯度下降法更新生成网络结点参数值,鉴别网络结点参数值保持不变;训练迭代过程为:执行步骤1多次后,执行步骤2一次,重复该迭代过程,直至损失最小,训练完毕。
[0015] 其中,模型的训练集数据通过对来自网络公共数据库的数据进行人工扩充和标注,以得到足够的训练样本集;其中标注过程为通过计算机脚本对视频帧中每个目标对象进行框选,并对不同目标加以编号。
[0016] 其中,扩充数据集的方法包含以下两种方式:
[0017] (1)对来自网络公共数据库的视频数据集进行人工处理,人工处理的方法包括对视频图像的亮度对比度进行调节,对行人对象及其运动轨迹进行镜像翻转、对视频图像进行随机平移、随机旋转;
[0018] (2)通过物理建模,建立基于网络公共视频数据集中行人对象的轨迹运动模型,即通过对所述视频数据集中行人运动轨迹的初始位置、平均运动速度、加速度三个变量估计其概率分布,然后通过对所述概率分布进行采样并模拟生成多个虚拟运动轨迹。
[0019] 本发明提出的基于RNN与GRU的多目标跟踪网络模型是一种端对端的多目标跟踪架构,相对于传统方法,简化了参数调整过程及要求。附图说明
[0020] 图1为本发明的基于复合循环神经网络系统的多目标跟踪模型的跟踪信息处理的流程图
[0021] 图2为本发明的基于复合循环神经网络系统的多目标跟踪模型的网络结构图。

具体实施方式

[0022] 以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0023] 如图1所示,本发明基于复合循环神经网络系统的多目标跟踪模型,通过以下的步骤予以实现:
[0024] 步骤1:构建基于RNN和GRU的复合循环神经网络系统的多目标跟踪网络模型:所述复合循环神经网络系统包括基于m层(初始值设为300)RNN网络的目标检测单元,基于1层GRU网络的跟踪管理单元,基于n层(初始值设为400)GRU网络的数据关联单元。具体结构如图2所示,所述RNN与GRU网络每一网络层均有一个相应的隐藏层状态,t-1时刻预算的t时刻的第l层隐藏层状态 的前向传播算法如式(1)所示:
[0025]
[0026] 其中φ()为激活函数,xlt为当前隐藏层的输入,Ul、Wl为权值,bl为偏置。
[0027] 具体的,所述多目标跟踪网络的跟踪信息处理过程包含以下步骤:
[0028] (1)所述目标检测单元,在t时刻对待测视频数据集的图像的检测结果集为αt={ait}A,ait为t时刻相应视频帧中检测到的第i个对象,A为至t时刻累计检测到的对象集;
[0029] (2)所述跟踪管理单元在t时刻对视频帧中各目标的跟踪结果集为βt={bjt}B,bjt为t时刻相应视频帧中被跟踪的第j个对象,B为t时刻相应视频帧中对象的合集;
[0030] (3)所述跟踪管理单元,根据上述检测结果及跟踪结果,计算数据关联的相似矩阵Ct,=[c(ij)t]A×B其中c(ij)t是ait与bjt间的欧式距离,其由公式(2)计算得来,[0031] c(ij)t=||ait-bjt||2,(2)
[0032] (4)所述数据关联单元,以t时刻的相似矩阵G中的子元素c(ij)t为输入,输出结果为t时刻相应图像帧中第j个跟踪结果与当前所有检测结果间的匹配概率向量Ajt,其中A(ij)t是t时刻第j个跟踪目标和第i个检测结果间的匹配概率,且∑A(ij)t=1概率向量,匹配概率最大的目标检测结果视为t时刻相应目标的跟踪结果。
[0033] 其中,所述基于RNN与GRU的多目标跟踪网络损失函数,由式(3)得到:
[0034]
[0035] 其中,ht=∑hlt, 分别为复合循环网络系统t时刻的隐藏层状态和t-1预算的t时刻的隐藏层状态,x1,x2,x3,x4为权重值,在网络训练过程中的每次迭代过程进行更新,以使损失最小,N为t时刻检测到的目标总数,M为t时刻跟踪结果数目,D为目标的位置种类信息,所述多目标跟踪网络模型采用边界框标注被跟踪对象,故D取4。
[0036] 步骤2:将训练集数据输入模型进行网络训练
[0037] 训练过程视为以下两步骤的迭代过程:步骤一是基于预设鉴别网络学习率超参数值,利用梯度下降法更新鉴别网络结点参数值,生成网络结点参数值保持不变;步骤二是基于预设生成网络学习率超参数值,利用梯度下降法更新生成网络结点参数值,鉴别网络结点参数值保持不变。训练迭代过程为:执行步骤1多次后,执行步骤2一次,重复该迭代过程,直至损失最小,训练完毕。
[0038] 其中,所述训练集数据需要对来自网络公共数据库的数据进行人工扩充和标注,以得到足够的训练样本集。标注过程为通过计算机脚本对视频帧中每个目标对象进行框选,并对不同目标加以编号;扩充数据集的方法包含以下两种方式:
[0039] (1)对来自网络公共数据库的视频数据集进行人工处理,人工处理的方法包括对视频图像的亮度及对比度进行调节,对行人对象及其运动轨迹进行镜像翻转、对视频图像进行随机平移、随机旋转等。
[0040] (2)通过物理建模,建立基于网络公共视频数据集中行人对象的轨迹运动模型,具体的,通过对所述视频数据集中行人运动轨迹的初始位置(在视频帧中首次出现的位置)、平均运动速度、加速度等三个变量估计其概率分布,然后通过对所述概率分布进行采样并模拟生成多个虚拟运动轨迹。
[0041] 步骤3:网络性能评估:
[0042] 将验证样本集输入步骤2中训练完成的网络模型中,测试评估网络性能,如果反馈的性能指标不佳,则调整超参数与各权重初始值,重复步骤2,重新训练网络及评估过程;
[0043] 步骤4:将待测视频数据输入上述训练并评估后的多目标跟踪网络,进行前向传播,得到多个目标的运动轨迹及跟踪状态信息。
[0044] 实施例:
[0045] 步骤1:视频数据集构建及标注:
[0046] 通过网络公共数据库获取包含大量行人内容的视频数据集,并以此为基础扩充并标注数据集,最终得到包含50,000个24帧的标注了所有行人位置的视频序列。具体地,扩充数据集的方法包含以下两种方式:
[0047] (1)对来自网络公共数据库的视频数据集进行人工处理,人工处理的方法包括对视频图像的亮度及对比度进行调节,对行人对象及其运动轨迹进行镜像翻转、对视频图像进行随机平移、随机旋转等。
[0048] (2)通过物理建模,建立基于网络公共视频数据集中行人对象的轨迹运动模型,具体的,通过对所述视频数据集中行人运动轨迹的初始位置(在视频帧中首次出现的位置)、平均运动速度、加速度等三个变量估计其概率分布,然后通过对所述概率分布进行采样并模拟生成多个虚拟运动轨迹。
[0049] 进一步的,步骤1中所述的对视频数据集的标注是将监控视频数据中的每个行人对象在每帧中的位置标注出来。具体地,对每个行人对象进行框选,并对不同目标加以编号,以实现对视频数据集的标注过程。
[0050] 步骤2:建立训练集与测试集:
[0051] 具体的,将步骤2所述的人工扩充后的数据集按比例随机划分为两部分,其中一部分作为训练样本集(训练集),用于模型训练,另一部分作为验证样本集(测试集),用于模型评估。将分好类的训练集和测试集;优选的,训练集和测试集均划分为10个样本组的视频序列。
[0052] 步骤3:构建基于RNN和GRU的复合循环神经网络系统的多目标跟踪网络模型所述网络由基于m层RNN的目标检测,基于1层GRU的跟踪管理模和和基于n层GRU的数据关联模块组成,其结构如图2所示。具体的,构建所述目标检测模块的RNN网络初始状态包含300个隐藏状态,构建所述跟踪管理模块的GRU网络包含1个隐藏状态,构建所述数据关联模块的GRU网络初始状态包含400个隐藏状态;
[0053] 步骤4:多目标跟踪网络模型训练:将训练集数据输入模型进行网络训练。具体的,基于预设多目标评价指标阈值(MOTA=27%,MOTP=25%),网络学习率(初始学习率为0.0003)等超参数值和各权值系数(x1=0.40,x2=0.30,x3=0.15,x4=0.15,Ul=0.5,Wl=
0.5,bl=0.0002),进行基于以下两步阶段的迭代的网络训练过程:利用梯度下降法更新优化权重及超参数,RNN与GRU网络的隐藏层参数保持不变;网络的各权重及超参数保持不变,调整RNN与GRU的隐藏层参数。重复上述迭代过程,最终实现损失函数的最小化,训练完毕。
优选的,所述网络的超参数及各权值每2,000次迭代后调整5%,隐藏层±10,预设的最大迭代次数设置为200,000次;
[0054] 步骤5:网络性能评估:将测试集输入步骤4中训练完成的网络模型中,测试评估网络性能,如果反馈的性能指标不佳,如果反馈的性能指标不佳,则调整步骤3、4中预设的初始值(性能评估指标阈值不变),重复步骤4,重新训练网络及评估过程;
[0055] 步骤6:将待测视频数据输入训练后的多目标跟踪网络,进行前向传播,得到多个目标的运动轨迹及跟踪状态信息。
[0056] 循环神经网络(RNN)是时序化运行的网络结构,在目标运动预测和状态更新等任务中有不俗的表现,核心是大小为h的隐藏状态,作为预测输出的主要控制机制,它的工作过程也具有时序化的特点。然而由于无法处理长期的时间依赖,RNN不能直接用于多目标跟踪的数据关联任务。基于RNN改进的长短期记忆网络(LSTM)弥补了其在此方面的不足。级循环模组网络(GRU)是LSTM的一种简化衍生变体,理论上拥有较快的运行速度,因此,在本发明中利用门级循环模组网络(GRU)构成多目标跟踪的数据关联单元。循环神经网络RNN及其变种网络——LSTM、GRU等在处理数据关联过程,因其实时性和在线学习的特征,相较于涉及复杂模型及频繁的参数调整的传统方法,有着天然优势。
[0057] 基于检测的多目标跟踪方法(Tracking by detection),将多目标跟踪过程按阶段分为多目标检测及预测和数据关联两个部分,能有效解决待检测及跟踪的目标数量的随机变化的问题
[0058] 多目标跟踪量化指标包括跟踪准确度(MOTA)和跟踪精度(MOTP)这两个评价标准,前者指示结合了丢失目标,虚警率,标号转换之后的准确性,后者代表所有跟踪目标的平均边框重叠率。本发明针对基于RNN及其变种网络GRU的多目标跟踪网络模型的数据集的准备,提出了多种视频数据集扩充方法,有助于降低应用于网络模型的训练集和测试集的获取成本。
[0059] 本发明提出的基于RNN与GRU的多目标跟踪网络模型是一种端对端的多目标跟踪架构,相对于传统方法,简化了参数调整过程及要求。
[0060] 本发明在不同光照条件,频繁遮挡,目标间相互影响及表观相似等复杂环境条件下,均有较好的跟踪效果。
[0061] 以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈