首页 / 专利库 / 数学与统计 / 傅立叶变换 / 离散傅立叶变换 / 基于旋翼飞行机器人的动态更新视觉跟踪航拍方法及系统

基于旋翼飞行机器人的动态更新视觉跟踪航拍方法及系统

阅读:196发布:2020-05-11

专利汇可以提供基于旋翼飞行机器人的动态更新视觉跟踪航拍方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 属于无人机技术领域,公开了一种基于旋翼飞行 机器人 的动态更新视觉 跟踪 航拍方法及系统,使用HOG+SVM对图片中的目标进行检测;然后通过设计孪生网络感受野大小、网络总步长和特征填充这三个重要影响因素改进AlexNet网络结构,并加入平滑矩阵和背景抑制矩阵,有效的利用前几 帧 的特征;融合多层特度特征元素在线学习目标外观变化及背景抑制,并使用连续的视频序列训练。本发明利用动态孪生网络保证 精度 和实时跟踪的平衡,使用动态更新网络快速学习目标外观变化,充分利用目标 时空 信息,有效解决漂移和目标遮挡等问题。本发明选择更深网络获取目标特征,使用外观学习和背景抑制来进行动态跟踪,有效增加鲁棒性。,下面是基于旋翼飞行机器人的动态更新视觉跟踪航拍方法及系统专利的具体信息内容。

1.一种基于旋翼飞行机器人的动态更新视觉跟踪航拍方法,其特征在于,所述基于旋翼飞行机器人的动态更新视觉跟踪航拍方法包括以下步骤:
步骤一,利用HOG特征提取算法支持向量机算法SVM对输入的图像进行目标检测;
步骤二,将目标检测得到的目标框信息传递给视觉跟踪部分,采用基于CIResNet网络的动态更新孪生网络对目标进行实时跟踪。
2.如权利要求1所述基于旋翼飞行机器人的动态更新视觉跟踪航拍方法,其特征在于,步骤一中,目标检测方法为:
(1)将图像分割成若干个连通区域,为8×8像素细胞单元;
(2)采集细胞单元中各像素点的梯度幅值和梯度方向,把[-90°,90°]的梯度方向平均划分为9个区间(bin),并使用梯度幅值作为权重;
(3)对单元内每个像素的梯度幅值在各个方向bin区间进行直方图统计,得到一个一维的梯度方向直方图;
(4)在空间上对直方图进行对比度归一化;
(5)通过检测窗口提取HOG描述子,将检测窗口中所有块的HOG描述子组合起来形成最终的特征向量
(6)将特征向量输入线性SVM,使用SVM分类器进行目标检测;
(7)检测窗口划分为重叠的块,对这些块计算HOG描述子,形成的特征向量放到线性SVM中进行目标/非目标的二分类;
(8)检测窗口在整个图像的所有位置和尺度上进行扫描,并对输出的金字塔进行非极大值抑制来检测目标;
步骤(4)所述对直方图进行对比度归一化的方法为:
首先计算出每个直方图在这个区间的密度,然后根据这个密度对区间中的各个细胞单元做归一化。
3.如权利要求1所述基于旋翼飞行机器人的动态更新视觉跟踪航拍方法,其特征在于,步骤一中,所述HOG特征提取方法具体包括:
①将整个图像进行规范化,采用Gamma校正法对输入图像的颜色空间进行标准化;
Gamma校正公式如下:
f(I)=Iγ;
其中,I为图像像素值,γ为Gamma校正系数;
②计算图像横坐标和纵坐标方向的梯度,并据此计算每个像素位置的梯度方向值;求导操作捕获轮廓和一些纹理信息,进一步弱化光照的影响;
Gx(x,y)=H(x+1,y)-H(x-1,y);
Gy(x,y)=H(x,y+1)-H(x,y-1);
式中,Gx(x,y),Gy(x,y),分别表示输入图像中像素点(x,y)处的平方向梯度,垂直方向梯度;
式中,G(x,y),H(x,y),α(x,y)分别表示像素点在(x,y)处的梯度幅值,像素值和梯度方向;
③直方图计算:将图像划分成小的细胞单元,为局部图像区域提供一个编码;
④把细胞单元组合成大的块,块内归一化梯度直方图;
⑤将检测窗口中所有重叠的块进行HOG特征的收集,并结合成最终的特征向量供分类使用。
4.如权利要求1所述基于旋翼飞行机器人的动态更新视觉跟踪航拍方法,其特征在于,步骤二对目标进行实时跟踪包括:
(1)从视频序列中获取第一作为模板帧O1,使用当前帧获取搜索区域Zt,通过CIResNet-16网络分别获得fl(O1)和fl(Zt);
(2)网络增加变换矩阵V和变换矩阵W,所述两个矩阵皆在频域中通过FFT进行快速计算。变换矩阵V由第t-1帧的跟踪结果和第一帧目标求得,其作用在目标模板的卷积特征上,学习目标的变化使得第t时刻的模板的卷积特征近似等于第t-1时刻的模板卷积特征,使当前帧相对于前几帧的变化变得平滑;变换矩阵W由第t-1帧的跟踪结果求得,作用在第t时刻候选区域的卷积特征上,学习背景抑制消除目标区域中不相关的背景特征造成的影响;
l l
对于变换矩阵V和变换矩阵W,使用正则线性回归进行训练,f (O1)和f (Zt)通过变换矩阵后分别获得 和 其中“*”代表循环卷积操作, 代表目标外观
形态变化,得到经过当前更新后的目标模板, 代表背景抑制变换,得到更适合当前的搜索模板;最终模型如下:
最终模型在孪生网络的基础上加入平滑矩阵V和背景抑制W两个变换矩阵,平滑矩阵V学习前一帧的外观变化;背景抑制矩阵W消除背景中杂乱影响因子。
5.如权利要求1所述基于旋翼飞行机器人的动态更新视觉跟踪航拍方法,其特征在于,步骤二中,基于CIResNet的动态更新孪生网络包括:
(Ⅰ)通过裁剪操作后进入7×7卷积,以删除受填充影响的特征;
(Ⅱ)通过步幅为2的最大池化层后进入改进后的网络CIResNet单元,CIR单元阶段网络一共3层,第一层为1×1卷积,通道数为64;第二层为3×3卷积,通道数为64;第三层为1×1卷积,通道数为256;通过卷积层后的特征图经过加和操作,再进入crop操作,crop操作是3×3卷积,抵消padding为1影响的特征;
(Ⅲ)进入CIR-D单元,CIR-D单元阶段网络一共12层,以第一、二、三层为单元块循环4次;第一层为1×1卷积,通道数为128;第二层为3×3卷积,通道数为128;第三层为1×1卷积,通道数为512;
(Ⅳ)互相关操作:改进后孪生网络结构以图像对作为输入,包括示例图像Z和候选搜索图像X;图像Z表示感兴趣的对象,而X代表后续视频帧中的搜索区域,通常更大;两个输入均由带有参数θ的ConvNet处理;产生两个特征图,互相关为:
其中,b表示偏差项,上述公式对图像X进行以Z为模式搜索,使响应图f中的最大值与目标位置匹配;网络通过从训练视频中获取的随机图像对(Z,X)和相应的地面标签y的方式进行离线培训,ConvNet中参数θ通过在训练集中最小化以下损失参数获得:
损失函数的基本公式为:
l(y,v)=log(1+exp(-yv));
其中,y∈(+1,-1)表示真值,v表示样本搜索图像的实际得分;由sigmoid函数可知,上式表示正样本的概率为 负样本的概率为 则由交叉熵的公式容易得到下
式:
6.如权利要求5所述基于旋翼飞行机器人的动态更新视觉跟踪航拍方法,其特征在于,步骤(Ⅲ)中,所述CIR-D单元阶段的第一块由提议的CIR-D单元执行下采样,对特征图大小进行降采样后,过滤器的数量将增加一倍;CIR-D将瓶颈层和快捷连接层中卷积的步幅从2更改为1,添加操作之后再次插入裁切,以删除受填充影响的特征;最后,采用最大池化来执行特征图的空间下采样;输出特征图的空间大小是7×7,每个特征都从输入图像平面上大小为77×77像素的区域接收信息;通过卷积层后的特征图经过加和操作,再进入crop操作和最大池化层;这些修改的关键思想是确保仅删除受填充影响的功能,同时保持固有的块结构不变。
7.如权利要求1所述基于旋翼飞行机器人的动态更新视觉跟踪航拍方法,其特征在于,步骤二采用基于CIResNet的动态更新孪生网络对目标进行实时跟踪中,动态更新算法包括:
(1)输入图片,获得模板图像O1;
(2)确定待跟踪帧中候选框搜索区域Zt;
(3)通过特征映射将原始图像映射到特定的特征空间,分别得到fl(O1)和fl(Zt)这两个深度特征;
(4)根据RLR学习前一帧跟踪结果与第一帧模板帧的变化;
在频域中快速计算得到:
由此得到变化量 如下表示:
其中,f1l=fl(O1), 其中O表示目标,f均表示是矩阵,右上标表示是第l通道,右下标表示第几帧,也就是由上一帧的跟踪结果和第一帧目标求得;
(5)根据频域中RLR计算公式得到对当前帧背景的抑制量
其中,Gt-1是和上一帧搜索区域一样大小的图, 是对Gt-1图片中心点乘一个高斯平滑;通过在线学习目标变化 和背景抑制变换
(6)元素多层特征融合;
(7)进行联合训练,首先经过前向传播,对于给定的N帧视频序列{It|t=1,...,N}进行跟踪后得到N个响应图,用{St|t=1,...,N}表示,同时用{Jt|t=1,...,N}表示N个目标框;
(8)使用BPTT和SGD进行梯度传播和参数更新,获得Lt所有参数;由 计算出和 穿过左侧的CirConv和RLR层,确保损耗梯度有效的传播到fl;
其中, 表示傅里叶变换后的f,E是离散傅立叶变换矩阵,对于多特征融合公式,转化为
8.一种实施权利要求1所述基于旋翼飞行机器人的动态更新视觉跟踪航拍方法的基于旋翼飞行机器人的动态更新视觉跟踪航拍系统。
9.一种实现权利要求1~7任意一项所述基于旋翼飞行机器人的动态更新视觉跟踪航拍方法的信息数据处理终端。
10.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-7任意一项所述的基于旋翼飞行机器人的动态更新视觉跟踪航拍方法。

说明书全文

基于旋翼飞行机器人的动态更新视觉跟踪航拍方法及系统

技术领域

[0001] 本发明属于无人机技术领域,尤其
[0002] 涉及一种基于旋翼飞行机器人的动态更新视觉跟踪航拍方法及系统。

背景技术

[0003] 目前,最接近的现有技术:无人机(Unmanned Aerial Vehicle,UAV)是通过无线电遥控设备或程序控制装置操纵的不载人飞行器,能够在无人干预的情况下自主的完成飞行任务。军事上,由于旋翼飞行机器人体积小、机动性强且易于控制等特点,使其能在极端环境下作业,因此在反恐防爆、交通监控与抗震救灾中得到广泛的应用。民用领域中,无人机可以用于高空拍摄、行人检测等领域。旋翼飞行机器人在执行特定任务时,通常需要对特定的目标进行跟踪飞行,实时传送目标的信息到地面站。因此,基于视觉的旋翼飞行机器人的跟踪飞行得到广泛的关注,成为当前的研究热点。
[0004] 旋翼飞行机器人的跟踪飞行指的是低空飞行的旋翼飞行机器人上搭载相机,实时获取地面移动目标的图像序列,计算目标的图像坐标将其作为视觉伺服控制的输入,得到飞行器所需要的速度,进而自动控制旋翼飞行机器人的位置姿态,实现被跟踪的地面移动目标维持在相机的视野中心附近。传统的孪生网络跟踪方法实时性较好,但是出现目标遮挡导致目标丢失后加上背景较复杂或光照的影响时,仍以第一帧作为标准参考将可能出现无法正确跟踪目标的情况。针对旋翼飞行机器人航拍过程中出现的遮挡、目标的外观变化、跟踪器漂移及背景因素干扰等影响,导致目标丢失的情况。
[0005] 综上所述,现有技术存在的问题是:(1)现有旋翼飞行机器人航拍过程中出现的遮挡、光照及背景因素干扰等影响,容易导致漂移、目标丢失等情况。
[0006] (2)现有技术中,跟踪器提取特征基本使用的是AlexNet网络,采用更深的CIResNet网络能提取关于目标更深层次的特征,以便跟踪器在搜索区域中定目标并减少复杂背景的影响。
[0007] (3)尽管现有的孪生网络跟踪器运行帧率很高,但它的框架里没有更新部分,意味着跟踪器不能快速应对目标或背景的剧烈变化,可能在一些情况下导致跟踪漂移。
[0008] 解决上述技术问题的难度:目标外观在跟踪过程中发生剧烈变化时,使用颜色特征和轮廓特征辨别搜索区域中目标位置的方法可能会失效。
[0009] 跟踪过程中如果对每一帧都进行重新检测或使用阈值判断其是否出现跟踪丢失的情况会增大运算时间。
[0010] 使用CIResNet网络进行特征提取可以获得更多特征信息,但由于相比于AlexNet网络而言CIResNet网络更深,会导致跟踪器帧率轻微下降。
[0011] 解决上述技术问题的意义:使用更深的网络提取特征能提升跟踪精度,能提高跟踪器的整体性能。
[0012] 动态更新部分使跟踪器的鲁棒性上升,跟踪器不再只学习第一帧的特征信息,而是不断学习前一帧跟踪结果,使跟踪器适应目标的变化。
[0013] CIResNet网络能有效提取更多样本特征,跟踪器能学习到目标更多特征信息,适应复杂背景能上升。

发明内容

[0014] 针对现有技术存在的问题,本发明提供了一种基于旋翼飞行机器人的动态更新视觉跟踪航拍方法及系统。
[0015] 本发明是这样实现的,一种基于旋翼飞行机器人的动态更新视觉跟踪航拍方法,包括以下步骤:
[0016] 步骤一,利用HOG特征提取算法支持向量机算法SVM对输入的图像进行目标检测;
[0017] 步骤二,将目标检测得到的目标框信息传递给视觉跟踪部分,采用基于CIResNet网络的动态更新孪生网络对目标进行实时跟踪。
[0018] 进一步,步骤一中,目标检测方法为:
[0019] (1)将图像分割成若干个连通区域,为8×8像素细胞单元;
[0020] (2)采集细胞单元中各像素点的梯度幅值和梯度方向,把[-90°,90°]的梯度方向平均划分为9个区间(bin),并使用梯度幅值作为权重;
[0021] (3)对单元内每个像素的梯度幅值在各个方向bin区间进行直方图统计,得到一个一维的梯度方向直方图;
[0022] (4)在空间上对直方图进行对比度归一化;
[0023] (5)通过检测窗口提取HOG描述子,将检测窗口中所有块的HOG描述子组合起来形成最终的特征向量
[0024] (6)将特征向量输入线性SVM,使用SVM分类器进行目标检测;
[0025] (7)检测窗口划分为重叠的块,对这些块计算HOG描述子,形成的特征向量放到线性SVM中进行目标/非目标的二分类;
[0026] (8)检测窗口在整个图像的所有位置和尺度上进行扫描,并对输出的金字塔进行非极大值抑制来检测目标;
[0027] 步骤(4)所述对直方图进行对比度归一化的方法为:
[0028] 首先计算出每个直方图在这个区间的密度,然后根据这个密度对区间中的各个细胞单元做归一化。
[0029] 进一步,步骤一中,所述HOG特征提取方法具体包括:
[0030] ①将整个图像进行规范化,采用Gamma校正法对输入图像的颜色空间进行标准化;Gamma校正公式如下:
[0031] f(I)=Iγ;
[0032] 其中,I为图像像素值,γ为Gamma校正系数;
[0033] ②计算图像横坐标和纵坐标方向的梯度,并据此计算每个像素位置的梯度方向值;求导操作捕获轮廓和一些纹理信息,进一步弱化光照的影响;
[0034] Gx(x,y)=H(x+1,y)-H(x-1,y);
[0035] Gy(x,y)=H(x,y+1)-H(x,y-1);
[0036] 式中,Gx(x,y),Gy(x,y),分别表示输入图像中像素点(x,y)处的平方向梯度,垂直方向梯度;
[0037]
[0038]
[0039] 式中,G(x,y),H(x,y),α(x,y)分别表示像素点在(x,y)处的梯度幅值,像素值和梯度方向;
[0040] ③直方图计算:将图像划分成小的细胞单元,为局部图像区域提供一个编码;
[0041] ④把细胞单元组合成大的块,块内归一化梯度直方图;
[0042] ⑤将检测窗口中所有重叠的块进行HOG特征的收集,并结合成最终的特征向量供分类使用。
[0043] 进一步,步骤二对目标进行实时跟踪包括:
[0044] (1)从视频序列中获取第一帧作为模板帧O1,使用当前帧获取搜索区域Zt,通过CIResNet-16网络分别获得fl(O1)和fl(Zt);
[0045] (2)网络增加变换矩阵V和变换矩阵W,这两个矩阵皆可在频域中通过FFT进行快速计算。变换矩阵V由第t-1帧的跟踪结果和第一帧目标求得,其作用在目标模板的卷积特征上,学习目标的变化使得第t时刻的模板的卷积特征近似等于第t-1时刻的模板卷积特征,使当前帧相对于前几帧的变化变得平滑;
[0046] 变换矩阵W由第t-1帧的跟踪结果求得,作用在第t时刻候选区域的卷积特征上,学习背景抑制以此消除目标区域中不相关的背景特征造成的影响;
[0047] 对于变换矩阵V和变换矩阵W,使用正则线性回归进行训练,fl(O1)和fl(Zt)通过变换矩阵后分别获得 和 其中“*”代表循环卷积操作, 代表目标外观形态变化,得到经过当前更新后的目标模板, 代表背景抑制变换,得到更适合当前的搜索模板;最终模型如下:
[0048]
[0049] 最终模型在孪生网络的基础上加入平滑矩阵V和背景抑制W两个变换矩阵,平滑矩阵V学习前一帧的外观变化;背景抑制矩阵W消除背景中杂乱影响因子。
[0050] 进一步,步骤二中,基于CIResNet的动态更新孪生网络包括:
[0051] (Ⅰ)通过裁剪操作后进入7×7卷积,以删除受填充影响的特征;
[0052] (Ⅱ)通过步幅为2的最大池化层后进入改进后的网络CIResNet单元,CIR单元阶段网络一共3层,第一层为1×1卷积,通道数为64;第二层为3×3卷积,通道数为64;第三层为1×1卷积,通道数为256;通过卷积层后的特征图经过加和操作,再进入crop操作,crop操作是3×3卷积,抵消padding为1影响的特征;
[0053] (Ⅲ)进入CIR-D单元,CIR-D单元阶段网络一共12层,以第一、二、三层为单元块循环4次;第一层为1×1卷积,通道数为128;第二层为3×3卷积,通道数为128;第三层为1×1卷积,通道数为512;
[0054] (Ⅳ)互相关操作:改进后孪生网络结构以图像对作为输入,包括示例图像Z和候选搜索图像X;图像Z表示感兴趣的对象,而X代表后续视频帧中的搜索区域,通常更大;两个输入均由带有参数θ的ConvNet处理;产生两个特征图,互相关为:
[0055]
[0056] 其中,b表示偏差项,上述公式对图像X进行以Z为模式搜索,使响应图f中的最大值与目标位置匹配;网络通过从训练视频中获取的随机图像对(Z,X)和相应的地面标签y的方式进行离线培训,ConvNet中参数θ通过在训练集中最小化以下损失参数获得:
[0057]
[0058] 损失函数的基本公式为:
[0059] l(y,v)=log(1+exp(-yv));
[0060] 其中,y∈(+1,-1)表示真值,v表示样本搜索图像的实际得分;由sigmoid函数可知,上式表示正样本的概率为 负样本的概率为 则由交叉熵的公式容易得到下式:
[0061]
[0062] 进一步,步骤(Ⅲ)中,所述CIR-D单元阶段的第一块由提议的CIR-D单元执行下采样,对特征图大小进行降采样后,过滤器的数量将增加一倍;CIR-D将瓶颈层和快捷连接层中卷积的步幅从2更改为1,添加操作之后再次插入裁切,以删除受填充影响的特征;最后,采用最大池化来执行特征图的空间下采样;输出特征图的空间大小是7×7,每个特征都从输入图像平面上大小为77×77像素的区域接收信息;通过卷积层后的特征图经过加和操作,再进入crop操作和最大池化层;这些修改的关键思想是确保仅删除受填充影响的功能,同时保持固有的块结构不变。
[0063] 进一步,步骤二采用基于CIResNet的动态更新孪生网络对目标进行实时跟踪中,动态更新算法包括:
[0064] (1)输入图片,获得模板图像O1;
[0065] (2)确定待跟踪帧中候选框搜索区域Zt;
[0066] (3)通过特征映射将原始图像映射到特定的特征空间,分别得到fl(O1)和fl(Zt)这两个深度特征;
[0067] (4)根据RLR学习前一帧跟踪结果与第一帧模板帧的变化;
[0068]
[0069] 在频域中快速计算可以得到:
[0070]
[0071] 由此得到变化量 如下表示:
[0072]
[0073] 在这里, 其中O表示目标,f均表示是矩阵,右上标表示是第l通道,右下标表示第几帧,也就是由上一帧的跟踪结果和第一帧目标求得;
[0074] (5)根据频域中RLR计算公式得到对当前帧背景的抑制量
[0075]
[0076] 其中,Gt-1是和上一帧搜索区域一样大小的图, 是对Gt-1图片中心点乘一个高斯平滑;通过在线学习目标变化 和背景抑制变换
[0077] (6)元素多层特征融合;
[0078]
[0079] (7)进行联合训练,首先经过前向传播,对于给定的N帧视频序列{It|t=1,...,N}进行跟踪后得到N个响应图,用{St|t=1,...,N}表示,同时用{Jt|t=1,...,N}表示N个目标框;
[0080]
[0081] (8)使用BPTT和SGD进行梯度传播和参数更新,获得Lt所有参数;由 计算出和 穿过左侧的CirConv和RLR层,确保损耗梯度有效的传播到fl;
[0082]
[0083]
[0084]
[0085]
[0086]
[0087] 其中, 表示傅里叶变换后的f,E是离散傅立叶变换矩阵,对于多特征融合公式,转化为
[0088] 本发明另一目的在于提供一种实施所述基于旋翼飞行机器人的动态更新视觉跟踪航拍方法的基于旋翼飞行机器人的动态更新视觉跟踪航拍系统。
[0089] 本发明另一目的在于提供一种实现所述基于旋翼飞行机器人的动态更新视觉跟踪航拍方法的信息数据处理终端。
[0090] 本发明另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的基于旋翼飞行机器人的动态更新视觉跟踪航拍方法。
[0091] 综上所述,本发明的优点及积极效果为:(1)采用更深的CIResNet网络,通过样本学习的方法,自动建立分类标准,增强了复杂背景的适应能力,满足更多样本特征的有效提取。
[0092] (2)本发明在传统孪生网络中加入了平滑变换矩阵V,可以在线学习前几帧的目标外观变化,有效利用时空信息,同时加入了背景抑制矩阵W,可以有效控制背景杂乱因素的影响。
[0093] (3)不是单一的以第一帧作为标准参考,使用外观学习和背景抑制来进行动态跟踪,可有效解决遮挡等问题。
[0094] (4)精确度和重叠率皆上升,同时速度可达16fps,基本满足实时性要求。
[0095] 表1:跟踪各项指标对比
[0096]跟踪器 精确度 重叠率 速度(fps)
Ours 0.5512 0.2905 16.
SiamFC 0.5355 0.2889 65
DSiam 0.5414 0.2804 25
DSST 0.5078 0.1678 134
[0097] 本文算法实现与调试在ubuntu16.04操作系统下,计算机硬件配置为IntelCore i7-8700k,主频3.7GHz,GeForce RTX2080TI显卡。
[0098] 本发明提供的一种基于旋翼飞行机器人的动态更新视觉跟踪航拍方法,使用了CIResNet网络替换原有的AlexNet网络,相比之下网络层次更深,有利于目标的特征获取。相比于传统孪生网络,本发明加入了平滑变换矩阵V在线学习前几帧的目标外观变化,有效利用时空信息,同时加入了背景抑制矩阵W有效控制背景杂乱因素的影响。本发明提出的方法不是单一的以第一帧作为标准参考,而是选择更深网络获取目标特征,使用外观学习和背景抑制来进行动态跟踪,有效增加鲁棒性。
附图说明
[0099] 图1是本发明实施例提供的基于旋翼飞行机器人的动态更新视觉跟踪航拍方法流程图
[0100] 图2是本发明实施例提供的基于旋翼飞行机器人的动态更新视觉跟踪航拍方法原理图。
[0101] 图3是本发明实施例提供的检测部分的框架图。
[0102] 图4是本发明实施例提供的跟踪部分的框架图。
[0103] 图5是本发明实施例提供的CIResNet网络基本说明示意图。
[0104] 图6是本发明实施例提供的单层网络结构示意图。
[0105] 图7是本发明实施例提供的UAV数据集上结果图。

具体实施方式

[0106] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0107] 旋翼飞行机器人的跟踪飞行指的是低空飞行的旋翼飞行机器人上搭载相机,实时获取地面移动目标的图像帧序列,计算目标的图像坐标将其作为视觉伺服控制的输入,得到飞行器所需要的速度,进而自动控制旋翼飞行机器人的位置与姿态,实现被跟踪的地面移动目标维持在相机的视野中心附近。传统的孪生网络跟踪方法实时性较好,但是出现目标遮挡导致目标丢失后加上背景较复杂或光照的影响时,仍以第一帧作为标准参考将可能出现无法正确跟踪目标的情况。
[0108] 针对现有技术存在的问题,本发明提供了一种基于旋翼飞行机器人的动态更新视觉跟踪航拍方法,使用了CIResNet网络替换原有的AlexNet网络,相比之下网络层次更深,有利于目标的特征获取。相比于传统孪生网络,本发明加入了平滑变换矩阵V在线学习前几帧的目标外观变化,有效利用时空信息,同时加入了背景抑制矩阵W有效控制背景杂乱因素的影响。本发明提出的方法不是单一的以第一帧作为标准参考,而是选择更深网络获取目标特征,使用外观学习和背景抑制来进行动态跟踪,有效增加鲁棒性。下面结合附图对本发明作详细的描述。
[0109] 如图1所示,本发明实施例提供的一种基于旋翼飞行机器人的动态更新视觉跟踪航拍方法包括以下步骤:
[0110] S101:利用HOG(Histogram of Oriented Gradient)特征+支持向量机(SVM)算法对输入的图像进行目标检测。
[0111] 即使图像中目标对应的梯度和边缘位置信息未知,其外表和形状仍然使用局部梯度或边缘方向的分布进行描述。HOG特征通过计算和统计目标区域的梯度方向直方图作为构建特征描述的基础,这种原理在图像几何变化的和光学形变上都能保持很好的不变性。
[0112] 首先将图像分割成若干个连通区域,通常为8×8像素的单元(cell),把它叫做细胞单元,然后采集细胞单元中各像素点的梯度幅值和方向,把[-90°,90°]的梯度方向平均划分为9个区间(bin),然后对单元内每个像素的梯度幅值在各个方向bin区间进行直方图统计,得到一个一维的梯度方向直方图。为了提升特征对光照和阴影的不变性,需要对直方图进行对比度归一化,通常做法是通过把这些直方图在更大的范围内进行对比度归一化。首先我们计算出每个直方图在这个区间的密度,然后根据这个密度对区间中的各个细胞单元做归一化,其中归一化的块描述符叫作HOG描述子。
[0113] 将检测窗口中所有块的HOG描述子组合起来形成最终的特征向量,然后使用SVM分类器进行目标检测。图3描述了特征提取和目标检测流程,检测窗口划分为重叠的块,对这些块计算HOG描述子,形成的特征向量放到线性SVM中进行目标/非目标的二分类。检测窗口在整个图像的所有位置和尺度上进行扫描,并对输出的金字塔进行非极大值抑制来检测目标。
[0114] S102:将目标检测得到的目标框信息传递给视觉跟踪部分,采用基于CIResNet的动态更新孪生网络对目标进行实时跟踪,跟踪框架如图4所示。
[0115] 从视频序列中获取第一帧作为模板帧O1,使用当前帧获取搜索区域Zt,通过CIResNet-16网络分别获得fl(O1)和fl(Zt)。
[0116] 传统孪生网络的最终结果如下表示:
[0117]
[0118] 该公式计算的结果是一个相似性,其中corr代表相关滤波,可以用其他度量函数替代,t代表时间,l代表第l层。
[0119] 与传统Siamese网络不同,本发明提出的网络增加了两个变化矩阵,第一个变换矩阵V作用在目标模板的卷积特征上,目的是使得第t时刻的模板的卷积特征近似等于第t-1时刻的模板卷积特征,这个变换矩阵是从第t-1帧学习到的,并认为它是目标的光滑形变。第二个变换矩阵W作用在地t时刻候选区域的卷积特征上,目的是强调目标区域消除不相关的背景特征。
[0120] 对于变换矩阵V和W,本发明使用正则线性回归进行训练,fl(O1)和fl(Zt)通过变换矩阵后分别获得 和 其中“*”代表循环卷积操作, 代表目标外观形态变化, 代表背景抑制变换。最终模型如下:
[0121]
[0122] 该模型在孪生网络的基础上加入平滑和背景抑制这两个变换矩阵,平滑矩阵学习前一帧的外观变化,可以有效利用时空信息;背景抑制矩阵消除背景中杂乱影响因子,增强鲁棒性。同时,使用CIResNet-16网络替换传统孪生网络中的AlexNet网络,精度更高。
[0123] 图2是本发明实施例提供的基于旋翼飞行机器人的动态更新视觉跟踪航拍方法原理。
[0124] 步骤S101中HOG特征提取的详细描述为:
[0125] 1)为了减少光照因素的影响,首先需要将整个图像进行规范化(归一化)。在图像的纹理强度中,由于局部的表层曝光贡献的比重较大,所以进行压缩处理能够有效地降低图像局部的阴影和光照变化。通常是将图像转化为灰度图,此处采用Gamma校正法对输入图像的颜色空间进行标准化(或者说是归一化)。所谓的Gamma校正可以理解为提高图像中偏暗或者偏亮部分的图像对比效果,能够有效地降低图像局部的阴影和光照变化,Gamma校正公式如下:
[0126] f(I)=Iγ   (3)
[0127] 其中I为图像像素值,γ为Gamma校正系数.
[0128] 2)计算图像横坐标和纵坐标方向的梯度,并据此计算每个像素位置的梯度方向值;其中求导操作能够捕获轮廓和一些纹理信息,可以进一步弱化光照的影响;
[0129] Gx(x,y)=H(x+1,y)-H(x-1,y)   (4)
[0130] Gy(x,y)=H(x,y+1)-H(x,y-1)   (5)
[0131] 上式中Gx(x,y),Gy(x,y),分别表示输入图像中像素点(x,y)处的水平方向梯度,垂直方向梯度。
[0132]
[0133]
[0134] G(x,y),H(x,y),α(x,y)分别表示像素点在(x,y)处的梯度幅值,像素值和梯度方向。
[0135] 3)直方图计算:将图像划分成小的细胞单元(细胞单元可以是矩形的或者环形的),其目的是为局部图像区域提供一个编码。
[0136] 4)把细胞单元组合成大的块(block),块内归一化梯度直方图。
[0137] 5)将检测窗口中所有重叠的块进行HOG特征的收集,并将它们结合成最终的特征向量供分类使用。
[0138] 步骤S102中改进后的网络CIResNet-16的详细描述为:
[0139] CIResNet-16分为三个阶段(步幅为8),由18个加权卷积层组成。
[0140] (1)通过裁剪操作(大小为2)后进入7×7卷积,以删除受填充影响的特征。
[0141] (2)通过步幅为2的最大池化层后进入改进后的网络CIResNet单元,CIR单元如图5中(a)所示此阶段网络一共3层,第一层为1×1卷积,通道数为64;第二层为3×3卷积,通道数为64;第三层为1×1卷积,通道数为256。如图5中描述,通过卷积层后的特征图经过加和操作,再进入crop操作,crop操作是3×3卷积,以此抵消padding为1影响的特征。
[0142] (3)进入CIR-D(Downsampling CIR)单元,CIR-D单元如图5中(b)所示,此阶段网络一共12层,以第一、二、三层为单元块循环4次。其中第一层为1×1卷积,通道数为128;第二层为3×3卷积,通道数为128;第三层为1×1卷积,通道数为512。
[0143] 在该阶段的第一块(总共4个块)由提议的CIR-D单元执行下采样,对特征图大小进行降采样后,过滤器的数量将增加一倍,以提高特征可分辨性。CIR-D将瓶颈层和快捷连接层中卷积的步幅从2更改为1,添加操作之后再次插入裁切,以删除受填充影响的特征。最后,采用最大池化来执行特征图的空间下采样。输出特征图的空间大小是7×7,每个特征都从输入图像平面上大小为77×77像素的区域接收信息。如图5所示,通过卷积层后的特征图经过加和操作,再进入crop操作和最大池化层。这些修改的关键思想是确保仅删除受填充影响的功能,同时保持固有的块结构不变。
[0144] (4)互相关操作:
[0145] 改进后孪生网络结构以图像对作为输入,包括示例图像Z和候选搜索图像X。图像Z表示感兴趣的对象(例如,在第一个视频帧中以目标对象为中心的图像块),而X代表后续视频帧中的搜索区域,通常更大。两个输入均由带有参数θ的ConvNet处理。这将产生两个特征图,它们互相关为:
[0146]
[0147] 其中,b表示偏差项,整个公式相当于对图像X进行以Z为模式的详尽搜索,其目的是使响应图f中的最大值与目标位置匹配。为了实现此目标,网络通过从训练视频中获取的随机图像对(Z,X)和相应的地面标签y的方式进行离线培训,ConvNet中参数θ通过在训练集中最小化以下损失参数获得:
[0148]
[0149] 损失函数的基本公式为:
[0150] l(y,v)=log(1+exp(-yv))  (10)
[0151] 其中,y∈(+1,-1)表示真值,v表示样本搜索图像的实际得分。由sigmoid函数可知,上式表示正样本的概率为 负样本的概率为 则由交叉熵的公式容易得到下式:
[0152]
[0153] 步骤S102中的动态更新算法的步骤为:
[0154] (1)输入图片,获得模板图像O1;
[0155] (2)确定待跟踪帧中候选框搜索区域Zt;
[0156] (3)通过特征映射将原始图像映射到特定的特征空间,分别得到fl(O1)和fl(Zt)这两个深度特征;
[0157] (4)根据Regularized linear regression(RLR)学习前一帧跟踪结果与第一帧模板帧的变化;
[0158]
[0159] 在频域中快速计算可以得到:
[0160]
[0161] 由此得到变化量 如下表示:
[0162]
[0163] 在这里, 其中O表示目标,f均表示是矩阵,右上标表示是第l通道,右下标表示第几帧,也就是由上一帧的跟踪结果和第一帧目标求得。
[0164] (5)根据频域中RLR计算公式得到对当前帧背景的抑制量
[0165]
[0166] 其中,Gt-1是和上一帧搜索区域一样大小的图, 是对Gt-1图片中心点乘了一个高斯平滑,其目的是突出中心和抑制边缘。通过在线学习目标变化 和背景抑制变换 改进后的模型通过在线启用静态孪生网络适应能力,从而可以提升跟踪精度和实时速度。
[0167] (6)元素多层特征融合;
[0168]
[0169] 浅层特征中心权重高,深层特征的外围权重高,中心低,如果目标在搜索区域中心,浅层特征可以更好的定位目标,如果目标在搜索区域外围,深层特征也能有效确定目标位置。
[0170] 也就是说,当目标靠近搜索区域的中心时,较深的图层特征有助于消除背景干扰,较浅的图层特征则有助于获得目标的精确定位;而如果目标位于搜索区域的外围,则只有更深的图层特征才能有效确定目标位置。
[0171] (7)进行联合训练,首先经过前向传播,对于给定的N帧视频序列{It|t=1,...,N}进行跟踪后得到N个响应图,用{St|t=1,...,N}表示,同时用{Jt|t=1,...,N}表示N个目标框;
[0172]
[0173] (8)单层网络结构示意图如图6所示。其中“Eltwise”(elementwise multi-layer fusion)是训练一个矩阵γ,矩阵中的数值代表不同特征图的不同位置的权重。使用BPTT(backpropagation through time)和SGD(Stochastic Gradient Descent)进行梯度传播和参数更新。为了有效使用BPTT和随机梯度(SGD)训练的网络,必须获得Lt所有参数,如图6所示,由 计算出 和 然后穿过左侧的“CirConv”和“RLR”层,以确保损耗梯度可以有效的传播到fl。
[0174]
[0175]
[0176]
[0177]
[0178]
[0179] 其中, 表示傅里叶变换后的f,E是离散傅立叶变换矩阵,对于基于单元的多层融合式,也可以使用上述过程来计算。对于多特征融合公式,可以转化为[0180] 此模型具有可靠的在线适应能力,有效学习前景和背景变化并抑制背景干扰,却不会损伤实时响应能力,在实验中具有出色的平衡跟踪性能。除此之外,该模型直接在标记的视频序列上作为一个整体进行联合训练,而不是在图像对上进行训练,因而可以更好的捕获运动物体丰富的时空信息。同时,由于该模型使用联合训练,其中所有参数都可以通过反向传播进行离线学习,有利于进行数据训练。具体效果如图7所示。
[0181] 在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
[0182] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈