一种针对多视频序列的运动推断结构方法专利检索-局部集束调整电脑图像专利检索查询-专利查询网

一种针对多视频序列的运动推断结构方法

阅读：787发布：2020-06-17

专利汇可以提供一种针对多视频序列的运动推断结构方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种针对多视频序列的运动推断结构方法。它的步骤如下：1）基于SIFT特征描述量，使用连续特征跟踪算法和非连续特征匹配算法，匹配分布于不同图像上对应于相同场景点的SIFT特征点；2）基于匹配分布于不同图像上对应于相同场景点的SIFT特征点，使用运动推断结构算法，恢复各视频序列相应的子图，并将各视频序列相应的子图注册到统一的坐标系下；3）使用基于分段的渐进式优化算法，迭代地将各视频序列相应的子图中存在的误差扩散并消除。本发明能够高效匹配分布于非相邻子序列中的特征轨迹，改善各子图的求解质量；针对大尺度场景，突破传统求解方法的内存和效率瓶颈，在有限内存环境下对整个场景三维结构和摄像机变量进行全局高效的优化。，下面是一种针对多视频序列的运动推断结构方法专利的具体信息内容。

权利要求

1.一种针对多视频序列的运动推断结构方法，其特征在于它的步骤如下：
1)基于SIFT特征描述量，使用连续特征跟踪算法和非连续特征匹配算法，匹配分布于不同图像上对应于相同场景点的SIFT特征点；
2)基于匹配分布于不同图像上对应于相同场景点的SIFT特征点，使用运动推断结构算法，恢复各视频序列相应的子图，并将各视频序列相应的子图注册到统一的坐标系下；
3)使用基于分段的渐进式优化算法，迭代地将各视频序列相应的子图中存在的误差扩散并消除。
2.根据权利要求1所述的一种针对多视频序列的运动推断结构方法，其特征在于所述的步骤1)为：
(1) 使用 Lowe，D.G.：Distinctive image features from scale-invariant keypoints.International Journal of Computer Vision 60，91-110(2004)中提出的SIFT算法，为每个视频序列的每帧图像提取SIFT特征点，并为每个SIFT特征点x计算一个SIFT描述量，标记为p(x)；
(2)使用Zhang G，Dong Z，Jia J，Wong TT，Bao H(2010)Efficient non-consecutive feature tracking for structure-from-motion.In：ECCV(5)，pp 422-435中提出的连续帧特征跟踪算法为每个视频序列分别进行特征跟踪得到一系列特征跟踪轨迹，每条特征跟踪轨迹χ定义为对应某场景点的SIFT特征点的集合，χ＝{xt|t∈f(χ)}其中xt为第t帧图像中对应于该场景点的SIFT特征点位置，f(χ)为χ跨越的连续帧集合；
(3)使用基于匹配矩阵的特征轨迹匹配算法为每个视频序列匹配分布于非相邻子序列上的特征跟踪轨迹，并将所有视频序列首尾相邻形成一段虚拟序列，再次使用基于匹配矩阵的特征轨迹匹配算法为虚拟序列匹配分布于非相邻子序列上的特征跟踪轨迹。
3.根据权利要求2所述的一种针对多视频序列的运动推断结构方法，其特征在于步骤(3)中所述的基于匹配矩阵的特征轨迹匹配算法为：
①使用Zhang G，Dong Z，Jia J，Wong TT，Bao H(2010)Efficient non-consecutive feature tracking for structure-from-motion.In：ECCV(5)，pp 422-435中提出的匹配矩阵估计算法为输入序列估计一个匹配矩阵，标记为M，将M中最大元素值记为Mmax；
②令k＝0，选择具有最大M(t1，t2)的帧对，标记为将M中以为中心3
为半径的区域置0，使用Lowe，D.G.：Distinctive image features from scale-invariant keypoints.International Journal of Computer Vision 60，91-110(2004)中提出的SIFT匹配算法匹配得到间的特征点匹配集合，标记为由构造特征
轨迹匹配集合Cχ：
Cχ＝{(χ1，χ2)|(x1，x2)∈Cx，x1∈χ1，x2∈χ2}
及帧对集合Cf：
Cf＝{(t1，t2)|M(t1，t2)≠0，t1∈f(χ1)，t2∈f(χ2)，(χ1，χ2)∈Cχ}使用Richard I.Hartley：In Defense of the Eight-Point Algorithm.IEEE Trans.Pattern Anal.Mach.Intell.19(6)：580-593(1997)提出的基础矩阵估计算法由集合为估计3x3的基础矩阵，标记为为Cχ中的每个特征轨迹匹配(χ1，χ2)设置一个误差量和计数器
其中分别为χ1、χ2在第帧图像中对应的特征点位置，d(F，x1，x2)表示点x2到直线间的距离，表示一个二维点x的齐次坐标为Cf中的每个帧对(t1，t2)设置一个计数器
③令k＝k+1，选择具有最大且M(t1，t2)≠0的帧对，标记为将M中以
为中心3为半径的区域置0，在Cχ中找到已匹配上的间的特征点集合，标
记为
使用Richard I.Hartley：In Defense of the Eight-Point Algorithm.IEEE Trans.Pattern Anal.Mach.Intell.19(6)：580-593(1997)提出的基础矩阵估计算法由集合为估计3x3的基础矩阵，标记为更新Cχ中的每个特征轨迹匹配(χ1，χ2)的误差量和计数器
其中分别为χ1、χ2在第帧图像中对应的特征点位置；
④使用Zhang G，Dong Z，Jia J，Wong TT，Bao H(2010)Efficient non-consecutive feature tracking for structure-from-motion.In：ECCV(5)，pp 422-435中提出的平面运动分割算法由集合为估计若干个3x3的单应矩阵，标记为H1，Λ， NH为这样的单应矩阵的个数，对每个第帧中尚未匹配上的特征点x1，用H1，Λ，进行测试，将x1经过第i个平面运动后的位置标记为这里 Hi为第i个单应矩阵，将第
帧图像中以为中心，2为半径的区域内的所有尚未匹配上的特征点x2都作为x1的候选匹配，当NH个平面运动均测试完毕后，将x1的所有候选匹配构成的集合标记为选出中与x1的SIFT描述量最为相近的特征点，标记为
若则将视作一个新的特征点匹配，对应的特征轨迹匹配
为(χ1，χ2)，x1∈χ1，设置(χ1，χ2)的误差量和计数器
更新Cχ、Cf、
Cχ＝CχY{(χ1，χ2)}
Cf＝CfY{(t1，t2)|t1∈f(χ1)，t2∈f(χ2)}
⑤重复步骤③、步骤④，直至对Cχ中的每个(χ1，χ2)，若
将(χ1，χ2)合并成一条特征轨迹；
⑥重复步骤②～步骤⑤，直至M中所有元素值均小于0.2Mmax。
4.根据权利要求1所述的一种针对多视频序列的运动推断结构方法，其特征在于所述的步骤2)为：
(1)将所有输入视频序列标记为V1，Λ，其中NV为输入视频序列总数，使用Guofeng Zhang，Xueying Qin，Wei Hua，Tien-Tsin Wong，Pheng-Ann Heng，Hujun Bao：Robust Metric Reconstruction from Challenging Video Sequences.CVPR 2007提出的运动推断结构算法分别为V1，Λ，恢复每帧对应的相机运动参数和每条特征轨迹对应的三维点位置，形成NV个局部坐标系下的子图，将第j个序列的第k帧在Vj的局部坐标系下的相机运动参数标记为(Rj，k，tj，k)，其中Rj，k为一个3x3的旋转矩阵，tj，k为一个3维平移向量，若第i个场景点在Vj中可见，则将第i个场景在Vj的局部坐标系下的坐标标记为Xij；
(2)利用序列间匹配点构造匹配图，每个节点表示一个序列，若
间存在公共点，则在间添加一条边，用集合表示间的公共点，
则连接的边的权值为令v＝0，选择具有最多
公共点的序列即为每个序列设置一个状态变量Fj，表示Vj是否注
册到全局坐标系，令
(3)令v＝v+1，使用MARQUARDT，D.1963.An algorithm for
the least-squares estimation of nonlinear parameters提出的LM算法求解的局部坐标系到全局坐标系的相似变换变换
其中为标量，表示一个尺度因子，为一个3x3的旋转矩阵，为一个3维平移向量，用对作坐标变换，更新中每个相机的运动参数和每个三维点坐标
令
(4)重复步骤(3)直至v＝NV-1，使用MARQUARDT，D.1963.An algorithm for the least-squares estimation of nonlinear parameters提出的LM算法，全局优化所有子图的相似变换 Λ，
用每个更新其相应的Vj中每个相机的运动参数(Rjk，tjk)和每个三维
点坐标Xij：
5.根据权利要求1所述的一种针对多视频序列的运动推断结构方法，其特征在于所述的步骤3)为：
(1)为每个序列Vj的每相邻的k、k+1两帧计算重投影误差：
其
中，
NP为场景中三维点的个数，若第i个三维点Xi在Vj的第k帧可见，则bi，j，k＝1且xi，j，k为对应的图像特征点的二维图像坐标，否则bi，j，k＝0，Kj，k为Vj的第k帧对应的相机内参矩阵，π(K，R，t，X)为投影函数，利用相机的内参矩阵K和运动参数(R，t)将三维点X投影为二维图像点x：
这里假设内参矩阵为下标符号[1]、[2]、[3]分别表示三维向量
(RX+t)中的第1、2、3维分量；
2
(2)对每个序列Vj，将其头尾两端点和所有e(k，k+1)＞25的位置都定义为断点，断点将每个序列划分为若干个子序列，再将长度大等于2的子序列一分为二，假设NV个输入序列被划分NS个分段，为每个分段分配一个刚性变换，标记为其中的第j个分段的刚性变换表示为为一个3x3的旋转矩阵，为一个3维向量，使用Manolis I.A.Lourakis，Antonis A.Argyros：SBA：A software package for generic sparse bundle adjustment.ACM Trans.Math.Softw.36(1)：(2009)中的集束调整技术求解优化方程：
其中
表示第j个分段的帧数，用这NS个刚性变换更新原序列每帧的相机运动参数：
2
(3)重复步骤(1)、步骤(2)，直至对于所有序列的所有相邻两帧，均有e(k，k+1)＜25。

说明书全文

一种针对多视频序列的运动推断结构方法

技术领域

[0001] 本发明涉及运动推断结构，尤其涉及一种针对多视频序列的运动推断结构方法。

背景技术

[0002] 运动推断结构技术，指的是由图像集合或视频序列中，自动估计场景中特征点的三维位置及每张图像对应的相机运动参数。找到特征点在图像中的对应位置，对于运动推断结构的求解质量来说至关重要。相比图像集合，视频序列包含了更丰富的几何信息和场景的结构信息。针对视频序列，常用的方法是在每相邻两帧之间使用特征点跟踪算法，如Lucas，B.D.，Kanade，T.：An iterative image registration technique with an application to stereo vision.In：IJCAI，pp.674-679(1981)；Shi，J.，Tomasi，C.：Good features to track.In：CVPR，pp.593-600(1994)；Georgescu，B.，Meer，P.：Point matching under large image deformations and illumination changes.IEEE Trans.Pattern Anal.Mach.Intell.26，674-688(2004)；Lowe，D.G.：Distinctive image features from scale-invariant keypoints.International Journal of Computer Vision 60，91-110(2004)等。然而，这些连续的特征跟踪不能处理特征点分布在非连续帧中的情况。比如，随着相机运动，某物体离开画面若干帧后又重新进入画面，那么该物体将包含在两段不相连的子序列中。即使该物体上的每个特征点在这两个子序列中均能被稳定跟踪上，连续的特征跟踪将导致特征点在两个子序列中分别产生一条特征轨迹。将这样的两条特征轨迹匹配上，可以缓解运动推断结构中的漂移现象，从而提高三维重建的质量。另外，在针对多视频序列的运动推断结构中，必须将分布在不同视频序列中对应于相同场景的特征轨迹匹配起来，才能将多个视频序列注册到同一场景中。为将非相邻帧中的特征轨迹匹配起来，一个简单的方法是对每对非相邻的两帧都匹配一次。通常，大部分非相邻帧对之间不存在相同的特征点，无需匹配。此外，同一对特征轨迹将被反复地匹配多次。因此，这样的策略中绝大多数匹配所消耗的时间是毫无意义的，对于长序列的情况，更是不可行的。
本发明针对这一问题，提出了一种高效的非连续帧的特征匹配算法。

[0003] 除特征匹配外，运动推断结构面临的另一个难题是如何为大规模的视频序列进行精确的运动和结构估计。Zhang G，Dong Z，Jia J，Wong TT，Bao H(2010)Efficient non-consecutive feature tracking for structure-from-motion.In：ECCV(5)，pp422-435提出针对小规模的视频序列的运动推断结构方法，使用集束调整(Triggs B，McLauchlan PF，Hartley RI，Fitzgibbon AW(1999)Bundle adjustment-a modern synthesis.In：Workshop on Vision Algorithms，pp 298-372)，同时优化每帧的运动参数及特征点的三维坐标。对于大规模视频序列，Ni K，Steedly D，Dellaert F(2007)Out-of-core bundle adjustment for large-scale 3d reconstruction.In：ICCV，pp 1-8将场景分为若干子图，对每一子图分别进行局部集束调整，并使用核外集束调整进行全局优化。Snavely N，Seitz SM，Szeliski R(2008)Skeletal sets for efficient structure from motion.In：Computer Vision and Pattern Recognition(CVPR)从所有图像集合中提取一个骨架集合，仅优化骨架集合中相应的相机参数，并用位置估计算法求解其他相机。Crandall DJ，Owens A，Snavely N，Huttenlocher D(2011)Discrete-continuous optimization for large-scale structure from motion.In：CVPR，pp 3001-3008结合GPS信息，使用离散置信度传播法对变量进行离散优化，并以此为初值进行连续的迭代优化。然而，由于存在大量的大量优化变量，优化效率和内存需求仍是运动推断结构的两大瓶颈。

发明内容

[0004] 本发明的目的在于针对现有技术的不足，提供一种针对多视频序列的运动推断结构方法。

[0005] 针对多视频序列的运动推断结构方法的步骤如下：

[0006] 1)基于SIFT特征描述量，使用连续特征跟踪算法和非连续特征匹配算法，匹配分布于不同图像上对应于相同场景点的SIFT特征点；

[0007] 2)基于匹配分布于不同图像上对应于相同场景点的SIFT特征点，使用运动推断结构算法，恢复各视频序列相应的子图，并将各视频序列相应的子图注册到统一的坐标系下；

[0008] 3)使用基于分段的渐进式优化算法，迭代地将各视频序列相应的子图中存在的误差扩散并消除。

[0009] 所述的步骤1)为：

[0010] (1) 使用 Lowe，D.G.：Distinctive image features from scale-invariant keypoints.International Journal of Computer Vision 60，91-110(2004)中提出的SIFT算法，为每个视频序列的每帧图像提取SIFT特征点，并为每个SIFT特征点x计算一个SIFT描述量，标记为p(x)；

[0011] (2) 使用 Zhang G，Dong Z，Jia J，Wong TT，Bao H(2010)Efficient non-consecutive feature tracking for structure-from-motion.In：ECCV(5)，pp422-435中提出的连续帧特征跟踪算法为每个视频序列分别进行特征跟踪得到一系列特征跟踪轨迹，每条特征跟踪轨迹χ定义为对应某场景点的SIFT特征点的集合，χ＝{xt|t∈f(χ)}其中xt为第t帧图像中对应于该场景点的SIFT特征点位置，f(χ)为χ跨越的连续帧集合；

[0012] (3)使用基于匹配矩阵的特征轨迹匹配算法为每个视频序列匹配分布于非相邻子序列上的特征跟踪轨迹，并将所有视频序列首尾相邻形成一段虚拟序列，再次使用基于匹配矩阵的特征轨迹匹配算法为虚拟序列匹配分布于非相邻子序列上的特征跟踪轨迹。

[0013] 步骤(3)中所述的基于匹配矩阵的特征轨迹匹配算法为：

[0014] ① 使用 Zhang G，Dong Z，Jia J，Wong TT，Bao H(2010)Efficient non-consecutive feature tracking for structure-from-motion.In：ECCV(5)，pp422-435中提出的匹配矩阵估计算法为输入序列估计一个匹配矩阵，标记为M，将M中最大元素值记为Mmax；

[0015] ②令k＝0，选择具有最大M(t1，t2)的帧对，标记为将M中以为中心3为半径的区域置0，使用Lowe，D.G.：Distinctive image features from scale-invariant keypoints.International Journal of Computer Vision 60，
91-110(2004)中提出的SIFT匹配算法匹配得到间的特征点匹配集合，标
记为由构造特征轨迹匹配集合Cχ：

[0016] Cχ＝{(χ1，χ2)|(x1，x2)∈Cx，x1∈χ1，x2∈χ2}

[0017] 及帧对集合Cf：

[0018] Cf＝{(t1，t2)|M(t1，t2)≠0，t1∈f(χ1)，t2∈f(χ2)，(χ1，χ2)∈Cχ}[0019] 使用Richard I.Hartley：In Defense of the Eight-Point Algorithm.IEEE Trans.Pattern Anal.Mach.Intell.19(6)：580-593(1997)提出的基础矩阵估计算法由集合为估计3x3的基础矩阵，标记为为Cχ中的每个特征轨迹匹配(χ1，χ2)设置一个误差量和计数器

[0020]

[0021]

[0022] 其中分别为χ1、χ2在第帧图像中对应的特征点位置，d(F，x1，x2)表示点x2到直线间的距离，表示一个二维点x的齐次坐标为Cf中的每个帧对(t1，t2)设置一个计数器

[0023]

[0024] ③令k＝k+1，选择具有最大且M(t1，t2)≠0的帧对，标记为将M中以为中心3为半径的区域置0，在Cχ中找到已匹配上的间的特征点集合，标记为

[0025]

[0026] 使用Richard I.Hartley：In Defense of the Eight-Point Algorithm.IEEE Trans.Pattern Anal.Mach.Intell.19(6)：580-593(1997)提出的基础矩阵估计算法由集合为估计3x3的基础矩阵，标记为更新Cχ中的每个特征轨迹匹配(χ1，χ2)的误差量和计数器

[0027]

[0028]

[0029] 其中分别为χ1、χ2在第帧图像中对应的特征点位置；

[0030] ④ 使用 Zhang G，Dong Z，Jia J，Wong TT，Bao H(2010)Efficient non-consecutive feature tracking for structure-from-motion.In：ECCV(5)，pp422-435中提出的平面运动分割算法由集合为估计若干个3x3的单应矩阵，标记为H1，Λ， NH为这样的单应矩阵的个数，对每个第帧中尚未匹配上的特征点x1，用H1，Λ，进行测试，将x1经过第i个平面运动后的位置标记为这里 Hi为
第i个单应矩阵，将第帧图像中以为中心，2为半径的区域内的所有尚未匹配上的特征点x2都作为x1的候选匹配，当NH个平面运动均测试完毕后，将x1的所有候选匹配构成的集合标记为选出中与x1的SIFT描述量最为相近的特征点，标记为

[0031]

[0032] 若则将视作一个新的特征点匹配，对应的特征轨迹匹配为(χ1，χ2)，xx∈χ1，设置(χ1，χ2)的误差量和计数器

[0033]

[0034]

[0035] 更新Cχ、Cf、

[0036] Cχ＝CχY{(χ1，χ2)}

[0037] Cf＝CfY{(t1，t2)|t1∈f(χ1)，t2∈f(χ2)}

[0038]

[0039] ⑤重复步骤③、步骤④，直至对Cχ中的每个(χ1，χ2)，若将(χ1，χ2)合并成一条特征轨迹；

[0040] ⑥重复步骤②～步骤⑤，直至M中所有元素值均小于0.2Mmax。

[0041] 所述的步骤2)为：

[0042] (1)将所有输入视频序列标记为V1，Λ，其中NV为输入视频序列总数，使用Guofeng Zhang，Xueying Qin，Wei Hua，Tien-Tsin Wong，Pheng-Ann Heng，Hujun Bao：Robust Metric Reconstruction from Challenging Video Sequences.CVPR 2007提出的运动推断结构算法分别为V1，Λ，恢复每帧对应的相机运动参数和每条特征轨迹对应的三维点位置，形成NV个局部坐标系下的子图，将第j个序列的第k帧在Vj的局部坐标系下的相机运动参数标记为(Rj，k，tj，k)，其中Rj，k为一个3x3的旋转矩阵，tj，k为一个3维平移向量，若第i个场景点在Vj中可见，则将第i个场景在Vj的局部坐标系下的坐标标记为Xij；

[0043] (2)利用序列间匹配点构造匹配图，每个节点表示一个序列，若间存在公共点，则在间添加一条边，用集合表示间的公共点，
则连接的边的权值为令v＝0，选择具有最多
公共点的序列即为每个序列设置一个状态变量Fj，表示Vj是否注
册到全局坐标系，令

[0044] (3)令v＝v+1，使用MARQUARDT，D.1963.An algorithmfor the least-squares estimation of nonlinear parameters提出的LM算法求解的局部坐标系到全局坐标系的相似变换变换

[0045]

[0046] 其中为标量，表示一个尺度因子，为一个3x3的旋转矩阵，为一个3维平移向量，用对作坐标变换，更新中每个相机的运动参数和每个三维点坐标

[0047]

[0048]

[0049]

[0050] 令

[0051] (4)重复步骤(3)直至v＝NV-1，使用MARQUARDT，D.1963.An algorithm for the least-squares estimation of nonlinear parameters提出的LM算法，全局优化所有子图的相似变换

[0052]

[0053] 用每个更新其相应的Vj中每个相机的运动参数(Rjk，tjk)和每个三维点坐标Xij：

[0054]

[0055]

[0056]

[0057] 所述的步骤3)为：

[0058] (1)为每个序列Vj的每相邻的k、k+1两帧计算重投影误差：

[0059]其中，
NP为场景中三维点的个数，若第i个三维点Xi在Vj的第k帧可见，则bi，j，k＝1且xi，j，k为对应的图像特征点的二维图像坐标，否则bi，j，k＝0，Kj，k为Vj的第k帧对应的相机内参矩阵，π(K，R，t，X)为投影函数，利用相机的内参矩阵K和运动参数(R，t)将三维点X投影为二维图像点x：

[0060]

[0061] 这里假设内参矩阵为下标符号[1]、[2]、[3]分别表示三维向量(RX+t)中的第1、2、3维分量；
2

[0062] (2)对每个序列Vj，将其头尾两端点和所有e(k，k+1)＞25的位置都定义为断点，断点将每个序列划分为若干个子序列，再将长度大等于2的子序列一分为二，假设NV个输入序列被划分NS个分段，为每个分段分配一个刚性变换，标记为其中的第j个分段的刚性变换表示为为一个3x3的旋转矩阵，为一个3维向量，使用Manolis I.A.Lourakis，Antonis A.Argyros：SBA：A software package for generic sparse bundle adjustment.ACM Trans.Math.Softw.36(1)：(2009)中的集束调整技术求解优化方程：

[0063]其中表示第j个分段的帧数，用这NS个刚性变换更新原序列每帧的相机运动参数：

[0064]

[0065]

[0066] (3)重复步骤(1)、步骤(2)，直至对于所有序列的所有相邻两帧，均有e2(k，k+1)＜25。

[0067] 本发明与现有技术相比具有的有益效果：1)能够高效、鲁棒地匹配分布于非相邻子序列中的特征跟踪轨迹，以改善各子图的求解质量并统一各子图的坐标系；2)针对大尺度场景，能有效突破传统求解方法的内存和效率瓶颈，能在有限的内存环境下对整个场景三维结构和摄像机变量进行全局高效的优化。附图说明

[0068] 图1(a)是拍摄街道场景的18个视频序列的快照；

[0069] 图1(b)是对街道场景恢复的相机运动轨迹和场景点云；

[0070] 图1(c)是将恢复的相机运动轨迹重叠于Google Earth的卫星图上。

[0071] 图2(a)是拍摄桌面场景的一个视频序列的快照；

[0072] 图2(b)是估计的匹配矩阵；

[0073] 图2(c)是本发明算法识别匹配矩阵高亮区域的示意图；

[0074] 图3(a)是采用连续帧特征跟踪的重建结果；

[0075] 图3(b)-(d)是采用连续帧特征跟踪导致的漂移现象；

[0076] 图3(e)是采用基于匹配矩阵的特征轨迹匹配算法的重建结果；

[0077] 图3(f)-(h)是采用基于匹配矩阵的特征轨迹匹配后漂移现象消除；

[0078] 图4(a)是对街道场景的18个序列的相似变换局部优化的结果；

[0079] 图4(b)是对街道场景的18个序列的相似变换全局优化的结果；

[0080] 图4(c)是对街道场景采用基于分段的渐进式优化第1次迭代结果；

[0081] 图4(d)是对街道场景采用基于分段的渐进式优化第2次迭代结果；

[0082] 图4(e)是对街道场景采用基于分段的渐进式优化第19次迭代结果；

具体实施方式

[0083] 针对多视频序列的运动推断结构方法的步骤如下：

[0084] 1)基于SIFT特征描述量，使用连续特征跟踪算法和非连续特征匹配算法，匹配分布于不同图像上对应于相同场景点的SIFT特征点；

[0085] 2)基于匹配分布于不同图像上对应于相同场景点的SIFT特征点，使用运动推断结构算法，恢复各视频序列相应的子图，并将各视频序列相应的子图注册到统一的坐标系下；

[0086] 3)使用基于分段的渐进式优化算法，迭代地将各视频序列相应的子图中存在的误差扩散并消除。

[0087] 所述的步骤1)为：

[0088] (1) 使用 Lowe，D.G.：Distinctive image features from scale-invariant keypoints.International Journal of Computer Vision 60，91-110(2004)中提出的SIFT算法，为每个视频序列的每帧图像提取SIFT特征点，并为每个SIFT特征点x计算一个SIFT描述量，标记为p(x)；

[0089] (2) 使用 Zhang G，Dong Z，Jia J，Wong TT，Bao H(2010)Efficient non-consecutive feature tracking for structure-from-motion.In：ECCV(5)，pp422-435中提出的连续帧特征跟踪算法为每个视频序列分别进行特征跟踪得到一系列特征跟踪轨迹，每条特征跟踪轨迹χ定义为对应某场景点的SIFT特征点的集合，χ＝{xt|t∈f(χ)}其中xt为第t帧图像中对应于该场景点的SIFT特征点位置，f(χ)为χ跨越的连续帧集合；

[0090] (3)使用基于匹配矩阵的特征轨迹匹配算法为每个视频序列匹配分布于非相邻子序列上的特征跟踪轨迹，并将所有视频序列首尾相邻形成一段虚拟序列，再次使用基于匹配矩阵的特征轨迹匹配算法为虚拟序列匹配分布于非相邻子序列上的特征跟踪轨迹。

[0091] 步骤(3)中所述的基于匹配矩阵的特征轨迹匹配算法为：

[0092] ① 使用 Zhang G，Dong Z，Jia J，Wong TT，Bao H(2010)Efficient non-consecutive feature tracking for structure-from-motion.In：ECCV(5)，pp422-435中提出的匹配矩阵估计算法为输入序列估计一个匹配矩阵，标记为M，将M中最大元素值记为Mmax；

[0093] ②令k＝0，选择具有最大M(t1，t2)的帧对，标记为将M中以为中心3为半径的区域置0，使用Lowe，D.G.：Distinctive image features from scale-invariant keypoints.International Journal of Computer Vision 60，
91-110(2004)中提出的SIFT匹配算法匹配得到间的特征点匹配集合，标
记为由构造特征轨迹匹配集合Cχ：

[0094] Cχ＝{(χ1，χ2)|(x1，x2)∈Cx，x1∈χ1，x2∈χ2}

[0095] 及帧对集合Cf：

[0096] Cf＝{(t1，t2)|M(t1，t2)≠0，t1∈f(χ1)，t2∈f(χ2)，(χ1，χ2)∈Cχ}[0097] 使用Richard I.Hartley：In Defense of the Eight-Point Algorithm.IEEE Trans.Pattern Anal.Mach.Intell.19(6)：580-593(1997)提出的基础矩阵估计算法由集合为估计3x3的基础矩阵，标记为为Cχ中的每个特征轨迹匹配(χ1，χ2)设置一个误差量和计数器

[0098]

[0099]

[0100] 其中分别为χ1、χ2在第帧图像中对应的特征点位置，d(F，x1，x2)表示点x2到直线间的距离，表示一个二维点x的齐次坐标为Cf中的每个帧对(t1，t2)设置一个计数器

[0101]

[0102] ③令k＝k+1，选择具有最大且M(t1，t2)≠0的帧对，标记为将M中以为中心3为半径的区域置0，在Cχ中找到已匹配上的间的特征点集合，标记为

[0103]

[0104] 使用Richard I.Hartley：In Defense of the Eight-Point Algorithm.IEEE Trans.Pattern Anal.Mach.Intell.19(6)：580-593(1997)提出的基础矩阵估计算法由集合为估计3x3的基础矩阵，标记为更新Cχ中的每个特征轨迹匹配(χ1，χ2)的误差量和计数器

[0105]

[0106]

[0107] 其中分别为χ1、χ2在第帧图像中对应的特征点位置；

[0108] ④ 使用 Zhang G，Dong Z，Jia J，Wong TT，Bao H(2010)Efficient non-consecutive feature tracking for structure-from-motion.In：ECCV(5)，pp422-435中提出的平面运动分割算法由集合为估计若干个3x3的单应矩阵，标记为H1，Λ， NH为这样的单应矩阵的个数，对每个第帧中尚未匹配上的特征点x1，用H1，Λ，进行测试，将x1经过第i个平面运动后的位置标记为这里 Hi为
第i个单应矩阵，将第帧图像中以为中心，2为半径的区域内的所有尚未匹配上的特征点x2都作为x1的候选匹配，当NH个平面运动均测试完毕后，将x1的所有候选匹配构成的集合标记为选出中与x1的SIFT描述量最为相近的特征点，标记为

[0109]

[0110] 若则将视作一个新的特征点匹配，对应的特征轨迹匹配为(χ1，χ2)，x1∈χ1，设置(χ1，χ2)的误差量和计数器

[0111]

[0112]

[0113] 更新Cχ、Cf、

[0114] Cχ＝CχY{(χ1，χ2)}

[0115] Cf＝CfY{(t1，t2)|t1∈f(χ1)，t2∈f(χ2)}

[0116]

[0117] ⑤重复步骤③、步骤④，直至对Cχ中的每个(χ1，χ2)，若将(χ1，χ2)合并成一条特征轨迹；

[0118] ⑥重复步骤②～步骤⑤，直至M中所有元素值均小于0.2Mmax。

[0119] 所述的步骤2)为：

[0120] (1)将所有输入视频序列标记为V1，Λ，其中NV为输入视频序列总数，使用Guofeng Zhang，Xueying Qin，Wei Hua，Tien-Tsin Wong，Pheng-Ann Heng，Hujun Bao：Robust Metric Reconstruction from Challenging Video Sequences.CVPR 2007提出的运动推断结构算法分别为V1，Λ，恢复每帧对应的相机运动参数和每条特征轨迹对应的三维点位置，形成NV个局部坐标系下的子图，将第j个序列的第k帧在Vj的局部坐标系下的相机运动参数标记为(Rj，k，tj，k)，其中Rj，k为一个3x3的旋转矩阵，tj，k为一个3维平移向量，若第i个场景点在Vj中可见，则将第i个场景在Vj的局部坐标系下的坐标标记为Xij；

[0121] (2)利用序列间匹配点构造匹配图，每个节点表示一个序列，若间存在公共点，则在间添加一条边，用集合表示间的公共点，
则连接的边的权值为令v＝0，选择具有最多
公共点的序列即为每个序列设置一个状态变量Fj，表示Vj是否注
册到全局坐标系，令

[0122] (3)令v＝v+1，使用MARQUARDT，D.1963.An algorithmfor the least-squares estimation of nonlinear parameters提出的LM算法求解的局部坐标系到全局坐标系的相似变换变换

[0123]

[0124] 其中为标量，表示一个尺度因子，为一个3x3的旋转矩阵，为一个3维平移向量，用对作坐标变换，更新中每个相机的运动参数和每个三维点坐标

[0125]

[0126]

[0127]

[0128] 令

[0129] (4)重复步骤(3)直至v＝NV-1，使用MARQUARDT，D.1963.An algorithm for the least-squares estimation of nonlinear parameters提出的LM算法，全局优化所有子图的相似变换 Λ，

[0130]

[0131] 用每个更新其相应的Vj中每个相机的运动参数(Rjk，tjk)和每个三维点坐标Xij：

[0132]

[0133]

[0134]

[0135] 所述的步骤3)为：

[0136] (1)为每个序列Vj的每相邻的k、k+1两帧计算重投影误差：

[0137]其中，
NP为场景中三维点的个数，若第i个三维点Xi在Vj的第k帧可见，则bi，j，k＝1且xi，j，k为对应的图像特征点的二维图像坐标，否则bi，j，k＝0，Kj，k为Vj的第k帧对应的相机内参矩阵，π(K，R，t，X)为投影函数，利用相机的内参矩阵K和运动参数(R，t)将三维点X投影为二维图像点x：

[0138]

[0139] 这里假设内参矩阵为下标符号[1]、[2]、[3]分别表示三维向量(RX+t)中的第1、2、3维分量；

[0140] (2)对每个序列Vj，将其头尾两端点和所有e2(k，k+1)＞25的位置都定义为断点，断点将每个序列划分为若干个子序列，再将长度大等于2的子序列一分为二，假设NV个输入序列被划分NS个分段，为每个分段分配一个刚性变换，标记为其中的第j个分段的刚性变换表示为为一个3x3的旋转矩阵，为一个3维向量，使用Manolis I.A.Lourakis，Antonis A.Argyros：SBA：A software package for generic sparse bundle adjustment.ACM Trans.Math.Softw.36(1)：(2009)中的集束调整技术求解优化方程：

[0141]其中表示第j个分段的帧数，用这NS个刚性变换更新原序列每帧的相机运动参数：

[0142]

[0143]2

[0144] (3)重复步骤(1)、步骤(2)，直至对于所有序列的所有相邻两帧，均有e(k，k+1)＜25。实施例

[0145] 使用针对多视频序列的运动推断结构方法，为一个拍摄大规模场景的18个视频序列估计相机运动路径和场景点云。输入序列共包含27600帧，快照见图1(a)，恢复的相机路径和场景点云见图1(b)。图1(c)中将恢复的相机路径重叠于Google Earth的卫星图上，以验证求解精度。包含所有计算在内，每帧平均处理时间为0.6秒。所有计算未涉及硬件加速，在单线程运行。

[0146] 针对多视频序列的运动推断结构方法的步骤如下：

[0147] 1)基于SIFT特征描述量，使用连续特征跟踪算法和非连续特征匹配算法，匹配分布于不同图像上对应于相同场景点的SIFT特征点；

[0148] 2)基于匹配分布于不同图像上对应于相同场景点的SIFT特征点，使用运动推断结构算法，恢复各视频序列相应的子图，并将各视频序列相应的子图注册到统一的坐标系下；

[0149] 3)使用基于分段的渐进式优化算法，迭代地将各视频序列相应的子图中存在的误差扩散并消除。

[0150] 所述的步骤1)为：

[0151] (1) 使用 Lowe，D.G.：Distinctive image features from scale-invariant keypoints.International Journal of Computer Vision 60，91-110(2004)中提出的SIFT算法，为每个视频序列的每帧图像提取SIFT特征点；

[0152] (2) 使用 Zhang G，Dong Z，Jia J，Wong TT，Bao H(2010)Efficient non-consecutive feature tracking for structure-from-motion.In：ECCV(5)，pp422-435中提出的连续帧特征跟踪算法为18个视频序列分别进行特征跟踪，每个序列分别得到一系列特征跟踪轨迹；

[0153] (3)使用基于匹配矩阵的特征轨迹匹配算法为每个视频序列匹配分布于非相邻子序列上的特征跟踪轨迹；如图2(a)所示的序列中包含940帧，选择24062条步骤(2)产生的特征跟踪轨迹估计匹配矩阵，如图2(b)，耗时3秒；算法自动识别匹配矩阵中高亮区域的形状，见图2(c)，并匹配对应于相同场景点的特征跟踪轨迹；与Zhang G，Dong Z，Jia J，Wong TT，Bao H(2010)Efficient non-consecutive feature tracking for structure-from-motion.In：ECCV(5)，pp 422-435中的匹配策略相比，匹配时间由212秒减少为75秒，且匹配上的特征轨迹数由7676增加为13746；对单视频序列来说，匹配分布于非相邻子序列上的特征跟踪轨迹后，运动推断结构的求解质量得到明显提高，如图3(a)-(d)，传统的连续跟踪导致重建结果存在严重的漂移现象，使用基于匹配矩阵的特征轨迹匹配算法后，漂移现象消除，如图3(e)-(h)；对于多视频序列，将所有视频序列首尾相邻形成一段虚拟序列，再次使用基于匹配矩阵的特征轨迹匹配算法为虚拟序列匹配分布于非相邻子序列上的特征跟踪轨迹，如图1中的18个视频序列，使用基于匹配矩阵的特征轨迹匹配算法共耗时64分钟；

[0154] 所述的步骤2)为：

[0155] (1)使用Guofeng Zhang，Xueying Qin，Wei Hua，Tien-Tsin Wong，Pheng-Ann Heng，Hujun Bao：Robust Metric Reconstruction from Challenging Video Sequences.CVPR 2007提出的运动推断结构算法为图1中的18个输入序列分别恢复每帧对应的相机运动参数和每条特征轨迹对应的三维点位置，形成18个局部坐标系下的子图；

[0156] (2)利用步骤1)中得到的序列间匹配点构造匹配图，每个节点表示一个序列，若间存在公共点，则在间添加一条边，用集合表示间的公共点，选择具有最多公共点的序列即
将的局部坐标系设置为全局坐标系；

[0157] (3)由出发遍历匹配图，每遍历到一个新的节点时，为该节点所对应序列求解一个局部坐标系到全局坐标系的相似变换；由于子图内部本身存在误差，基于局部优化的渐进式策略容易产生误差累积现象，如图4(a)，循环回路无法闭合；

[0158] (4)全局优化所有子图的相似变换；如图4(b)，虽各子图的内部误差虽未被消除，但却被迫相对均匀地分布到各序列上，为进一步优化提供了良好的初值；

[0159] 所述的步骤3)为：

[0160] (1)为每个序列Vj的每相邻的k、k+1两帧计算重投影误差，标记为e2(k，k+1)；

[0161] (2)对每个序列Vj，将其头尾两端点和所有e2(k，k+1)＞25的位置都定义为断点，断点将每个序列划分为若干个子序列，再将长度大等于2的子序列一分为二，将18个输入序列重新分段，为每个分段分配一个刚性变换，使用Manolis I.A.Lourakis，Antonis A.Argyros：SBA：A software package for generic sparse bundle adjustment.ACM Trans.Math.Softw.36(1)：(2009)中的集束调整技术联合优化各分段的刚性变换和三维点坐标；

[0162] (3)重复步骤(1)、步骤(2)，直至对于所有序列的所有相邻两帧，均有e2(k，k+1)＜25；随着迭代的进行，误差不断被扩散并减小，终得以消除，如图4(c)、(d)分别为第1次迭代和第2次迭代的优化结果，第19次迭代时算法收敛，如图4(e)。

标题	发布/更新时间	阅读量
一种基于仿生视觉机理的水下偏振图像融合系统	2020-05-18	697
引水隧洞爆破开挖超欠挖控制施工方法	2020-05-29	491
一种利用视差空间集束调整的高精度实时立体视觉定位方法	2020-06-14	34
基于视觉SLAM的室内场景下单一目标物体字典模型改进方法	2020-05-23	766
用于在分立薄片上沉积多层涂层的装置	2020-06-23	359
导流设备	2020-06-24	585
一种基于边缘特征自约束的表面网格模型构建方法	2020-05-21	923
一种同时定位与稠密三维重建方法	2020-06-03	999
单目视觉和惯性传感器融合的远距离测距系统及方法	2020-05-13	111
简易环绕集束式冷却装置	2020-06-26	786

一种针对多视频序列的运动推断结构方法

一种针对多视频序列的运动推断结构方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：