一种基于双目视觉SLAM的动态场景密集建模方法专利检索-块匹配运动估计视听技术与设备专利检索查询-专利查询网

一种基于双目视觉SLAM的动态场景密集建模方法

阅读：536发布：2020-05-11

专利汇可以提供一种基于双目视觉SLAM的动态场景密集建模方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于双目视觉 SLAM的动态场景密集建模方法，包括：输入双目图像序列，对图像进行纠正，并对图像进行ORB特征点提取，并进行双目系列和时间序列上的匹配；基于多模型拟合进行运动分割，分割出场景中的相机自身运动模型和不同运动的动态物体运动模型，并估计出相机和动态物体的运动，进行局部光束法平差优化，得到相机和动态物体的轨迹；结合超像素分割，获得运动物体全部像素点分割结果，进而获得动态物体密集三维模型和静态背景密集点云地图，从而实现在动态场景中同时估计出相机和动态物体运动轨迹，也实现同时对静态背景和动态物体进行密集建模。，下面是一种基于双目视觉SLAM的动态场景密集建模方法专利的具体信息内容。

权利要求

1.一种基于双目视觉SLAM的动态场景密集建模方法，其特征在于，包括以下步骤：
S1，输入双目图像序列，根据已知的相机内参外参对图像进行纠正，对图像进行ORB特征点提取，在每个双目像对中对左右影像的特征点进行匹配，并在连续双目帧的像对中进行时间序列上的匹配；
S2，基于多模型拟合进行运动分割，将相同运动的特征点聚类为一个运动模型参数，分割出场景中的相机自身运动模型和不同运动的动态物体运动模型，同时估计出相机和动态物体的运动；
S3，对估计出的相机和动态物体的位姿，进行局部光束法平差优化，得到相机和动态物体的轨迹；
S4，根据输入双目图像序列，进行超像素分割，并结合S2，获得运动物体全部像素点分割结果，进而获得动态物体密集三维模型和静态背景密集点云地图。
2.根据权利要求1所述的基于双目视觉SLAM的动态场景密集建模方法，其特征在于，所述获得的静态背景密集点云地图，进一步包括：
输入图像序列；
根据超像素分割，并结合S2，获得运动物体全部像素点分割结果；
将属于运动物体全部像素点作为外点去除，只对静态背景像素点部分进行Rtabmap双目密集建图，最终得到静态背景密集点云地图。
3.根据权利要求1所述的基于双目视觉SLAM的动态场景密集建模方法，其特征在于，所述获得的动态物体密集三维模型，进一步包括：
输入图像序列；
根据图像序列进行Libelas双目立体匹配，匹配得到密集深度信息；
结合运动物体全部像素点分割结果和Libelas双目立体匹配得到的深度信息，获得单帧动态物体密集点云；
根据单帧动态物体密集点云，结合S3获得的帧间的变换矩阵，对单帧点云进行拼接，进而得到动态物体密集三维模型。
4.根据权利要求1所述的基于双目视觉SLAM的动态场景密集建模方法，其特征在于，所述基于多模型拟合进行运动分割包括单步运动分割，所述单步运动分割包括以下步骤：
通过基于局部窗口的随机采样，获得多个假设模型；
根据假设模型，利用量化残差对数据进行表示，判断假设模型的内点；
利用层次聚类对内点进行分类；
如果分类结果不收敛，则进行交替采样与聚类，直到最后结果收敛输出，输出场景中不同运动的运动模型。
5.根据权利要求1所述的基于双目视觉SLAM的动态场景密集建模方法，其特征在于，所述基于多模型拟合进行运动分割还包括连续帧运动分割，所述连续帧运动分割包括以下步骤：
首先将前后帧图像特征点进行关联，由于匹配精度和误匹配点带来的影响，属于同一运动模型的内点分割结果往往会参杂较少量其他模型内点；
通过K近邻算法投票对分割结果进行优化；
根据连续帧中运动估计的结果，去除不属于相应运动模型的外点，实现场景中相机自身运动模型和动态物体运动模型的精确分割。
6.根据权利要求1所述的基于双目视觉SLAM的动态场景密集建模方法，其特征在于，所述获得的运动物体全部像素点分割结果，进一步包括：
通过slic方法对单帧影像进行超像素分割，之后对每个超像素块进行块内落的各个运动模型模型点的计数，该块的运动模型与块内模型点最多的模型一致，若块内没有落模型点，则与最近邻的超像素块一致，完成每个超像素块运动模型的判断，获得所述动态物体全部像素点分割结果。
7.根据权利要求6所述的基于双目视觉SLAM的动态场景密集建模方法，其特征在于：所述超像素块为具有相似纹理、颜色、亮度等特征的相邻像素构成的有一定视觉意义的不规则像素块。

说明书全文

一种基于双目视觉SLAM的动态场景密集建模方法

技术领域

[0001] 本发明涉及视觉导航技术领域，更为具体地，涉及一种基于双目视觉SLAM的动态场景密集建模方法。

背景技术

[0002] SLAM(simultaneous localization and mapping)，即时定位与地图构建，或并发建图与定位。经过三十多年的不断发展，基于视觉的SLAM即VSLAM现在已经成为机器人领域和计算机视觉领域最火热的研究方向，是目前机器人智能自主导航、无人车自动驾驶、以及增强现实(AR)/虚拟现实(VR)等虚拟场景导航的核心技术。但是通常SLAM方法都是基于静态场景的假设，也就是整个场景都是静态的，不存在动态物体，依靠成对一致性进行工作，当场景中存在较为显著的动态物体时，难以对动态物体进行很好的处理，就难以工作，具体表现为相机位姿估计失败，同时，由于建图依赖于定位的效果，且动态物体会对背景造成遮挡，所以对静态背景建图尤其是密集建图影响很大。

[0003] 目前，通常的解决方法基于语义分割的方法，分割出带特定语义标签的动态物体，将其像素点作为外点完全剔除，消除动态物体的影响，实现精准的相机运动估计，并且对静态场景进行建图，这种方式在动态场景中获得很好的工作效果，但未对动态物体的信息进行获取，即没有获得其轨迹，直接对动态物体进行密集建模。基于语义分割的动态SLAM方法可以很好的应对动态物体存在的场景，但是在实际应用中众多动态物体是语义无法识别的，使得该类方法的通用性不足、应用受限。

[0004] 另一类方法基于多运动分割，进而同时估计出相机和动态物体的运动轨迹，该类方法不依赖于语义信息，将相同运动的点聚类为一个运动模型参数实例，从而在动态场景中分割出多个运动模型。MVO将多模型拟合方法-CORAL应用于通常静态SLAM中，分割出动态场景中不同运动的运动模型，同时估计出相机和多个无语义动态物体的运动轨迹，但是该方法实验场景也是在一个房间中，相机和动态物体均是小范围的运动，并且相机和动态物体轨迹估计的误差较大，且未对静态背景和动态物体进行密集建模。

[0005] 综上所述，现有方法难以实现同时对静态背景进行密集建图和动态物体进行密集建模，且现有方法通用性不足、应用受限。

发明内容

[0006] 本发明的目的在于克服现有技术的不足，提供一种基于双目视觉SLAM的动态场景密集建模方法，可以同时估计出相机和动态物体运动轨迹，并同时对静态背景和动态物体进行密集建模。

[0007] 本发明的目的是通过以下技术方案来实现的：

[0008] 一种基于双目视觉SLAM的动态场景密集建模方法，包括以下步骤：

[0009] S1，输入双目图像序列，根据已知的相机内参外参对图像进行纠正，对图像进行ORB特征点提取，在每个双目像对中对左右影像的特征点进行匹配，并在连续双目帧的像对中进行时间序列上的匹配；

[0010] S2，基于多模型拟合进行运动分割，将相同运动的特征点聚类为一个运动模型参数，分割出场景中的相机自身运动模型和不同运动的动态物体运动模型，同时估计出相机和动态物体的运动；

[0011] S3，对估计出的相机和动态物体的位姿，进行局部光束法平差优化，得到相机和动态物体的轨迹；

[0012] S4，根据输入双目图像序列，进行超像素分割，并结合S2，获得运动物体全部像素点分割结果，进而获得动态物体密集三维模型和静态背景密集点云地图。

[0013] 进一步的，所述获得的静态背景密集点云地图，进一步包括：

[0014] 输入图像序列；

[0015] 根据超像素分割，并结合S2，获得运动物体全部像素点分割结果；

[0016] 将属于运动物体全部像素点作为外点去除，只对静态背景像素点部分进行Rtabmap双目密集建图，最终得到静态背景密集点云地图。

[0017] 进一步的，所述获得的动态物体密集三维模型，进一步包括：

[0018] 输入图像序列；

[0019] 根据图像序列进行Libelas双目立体匹配，匹配得到密集深度信息；

[0020] 结合运动物体全部像素点分割结果和Libelas双目立体匹配得到的深度信息，获得单帧动态物体密集点云；

[0021] 根据单帧动态物体密集点云，结合S3获得的帧间的变换矩阵，对单帧点云进行拼接，进而得到动态物体密集三维模型。

[0022] 进一步的，所述基于多模型拟合进行运动分割包括单步运动分割，所述单步运动分割包括以下步骤：

[0023] 通过基于局部窗口的随机采样，获得多个假设模型；

[0024] 根据假设模型，利用量化残差对数据进行表示，判断假设模型的内点；

[0025] 利用层次聚类对内点进行分类；

[0026] 如果分类结果不收敛，则进行交替采样与聚类，直到最后结果收敛输出，输出场景中不同运动的运动模型。

[0027] 进一步的，所述基于多模型拟合进行运动分割还包括连续帧运动分割，所述连续帧运动分割包括以下步骤：

[0028] 首先将前后帧图像特征点进行关联，由于匹配精度和误匹配点带来的影响，属于同一运动模型的内点分割结果往往会参杂较少量其他模型内点；

[0029] 通过K-近邻算法投票对分割结果进行优化；

[0030] 根据连续帧中运动估计的结果，去除不属于相应运动模型的外点，实现场景中相机自身运动模型和动态物体运动模型的精确分割。

[0031] 进一步的，所述获得的运动物体全部像素点分割结果，进一步包括：

[0032] 通过slic方法对单帧影像进行超像素分割，之后对每个超像素块进行块内落的各个运动模型模型点的计数，该块的运动模型与块内模型点最多的模型一致，若块内没有落模型点，则与最近邻的超像素块一致，完成每个超像素块运动模型的判断，获得所述动态物体全部像素点分割结果。

[0033] 进一步的，所述超像素块为具有相似纹理、颜色、亮度等特征的相邻像素构成的有一定视觉意义的不规则像素块。

[0034] 本发明的有益效果是：

[0035] (1)本发明结合多模型拟合运动分割和超像素分割方法，分割出场景中不同运动动态物体的运动模型和全部像素点，为运动估计和密集建图提供了前提。

[0036] (2)本发明是目前为止已知第一个不依赖语义信息，实现在动态场景中同时估计出相机和动态物体运动轨迹，并对静态背景和动态物体进行密集建模的动态SLAM方法。

[0037] (3)本发明不仅适用于小范围运动的情况，在相机和物体都在做大范围运动的情况下也可以很好工作，实现同时对静态背景和动态物体进行密集建模。附图说明

[0038] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

[0039] 图1为本发明基于双目视觉SLAM的动态场景密集建模方法的流程图；

[0040] 图2为本发明中超像素分割得到的中间结果的示意图；

[0041] 图3为本发明中单步运动分割和连续帧运动分割的流程图；

[0042] 图4为本发明中基于双目视觉SLAM的动态场景密集建模方法的中间结果的示意图。

具体实施方式

[0043] 下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

[0044] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0045] 在对实施例进行描述之前，需要对一些必要的术语进行解释。例如：

[0046] 若本申请中出现使用“第一”、“第二”等术语来描述各种元件，但是这些元件不应当由这些术语所限制。这些术语仅用来区分一个元件和另一个元件。因此，下文所讨论的“第一”元件也可以被称为“第二”元件而不偏离本发明的教导。应当理解的是，若提及一元件“连接”或者“联接”到另一元件时，其可以直接地连接或直接地联接到另一元件或者也可以存在中间元件。相反地，当提及一元件“直接地连接”或“直接地联接”到另一元件时，则不存在中间元件。

[0047] 在本申请中出现的各种术语仅仅用于描述具体的实施方式的目的而无意作为对本发明的限定，除非上下文另外清楚地指出，否则单数形式意图也包括复数形式。

[0048] 当在本说明书中使用术语“包括”和/或“包括有”时，这些术语指明了所述特征、整体、步骤、操作、元件和/或部件的存在，但是也不排除一个以上其他特征、整体、步骤、操作、元件、部件和/或其群组的存在和/或附加。

[0049] 如图1所示，一种基于双目视觉SLAM的动态场景密集建模方法，包括以下步骤：

[0050] S1，输入双目图像序列，根据已知的相机内参外参对图像进行纠正，对图像进行ORB特征点提取，在每个双目像对中对左右影像的特征点进行匹配，并在连续双目帧的像对中进行时间序列上的匹配；

[0051] S2，基于多模型拟合进行运动分割，将相同运动的特征点聚类为一个运动模型参数，分割出场景中的相机自身运动模型和不同运动的动态物体运动模型，同时估计出相机和动态物体的运动；

[0052] S3，对估计出的相机和动态物体的位姿，进行局部光束法平差优化，得到相机和动态物体的轨迹；

[0053] S4，根据输入双目图像序列，进行超像素分割，并结合S2，获得运动物体全部像素点分割结果，进而获得动态物体密集三维模型和静态背景密集点云地图。

[0054] 如图4所示，所述获得的静态背景密集点云地图，进一步包括：

[0055] 输入图像序列；

[0056] 根据超像素分割，并结合S2，获得运动物体全部像素点分割结果；

[0057] 将属于运动物体全部像素点作为外点去除，只对静态背景像素点部分进行Rtabmap双目密集建图，最终得到静态背景密集点云地图。

[0058] 如图4所示，所述获得的动态物体密集三维模型，进一步包括：

[0059] 输入图像序列；

[0060] 根据图像序列进行Libelas双目立体匹配，匹配得到密集深度信息；

[0061] 结合运动物体全部像素点分割结果和Libelas双目立体匹配得到的深度信息，获得单帧动态物体密集点云；

[0062] 根据单帧动态物体密集点云，结合S3获得的帧间的变换矩阵，对单帧点云进行拼接，进而得到动态物体密集三维模型。

[0063] 如图3所示，所述基于多模型拟合进行运动分割包括单步运动分割S21，所述单步运动分割S21包括以下步骤：

[0064] 通过基于局部窗口的随机采样，获得多个假设模型；

[0065] 根据假设模型，利用量化残差对数据进行表示，判断假设模型的内点；

[0066] 利用层次聚类对内点进行分类；

[0067] 如果分类结果不收敛，则进行交替采样与聚类，直到最后结果收敛输出，输出场景中不同运动的运动模型。

[0068] 如图3所示，所述基于多模型拟合进行运动分割还包括连续帧运动分割S22，所述连续帧运动分割S22包括以下步骤：

[0069] 首先将前后帧图像特征点进行关联，由于匹配精度和误匹配点带来的影响，属于同一运动模型的内点分割结果往往会参杂较少量其他模型内点；

[0070] 通过K-近邻算法投票对分割结果进行优化；

[0071] 根据连续帧中运动估计的结果，去除不属于相应运动模型的外点，实现场景中相机自身运动模型和动态物体运动模型的精确分割。

[0072] 如图2所示，所述获得的运动物体全部像素点分割结果，进一步包括：

[0073] 通过slic方法(即简单线性迭代聚类方法)对单帧影像进行超像素分割，之后对每个超像素块进行块内落的各个运动模型模型点的计数，该块的运动模型与块内模型点最多的模型一致，若块内没有落模型点，则与最近邻的超像素块一致，完成每个超像素块运动模型的判断，获得所述动态物体全部像素点分割结果。所述超像素块为具有相似纹理、颜色、亮度等特征的相邻像素构成的有一定视觉意义的不规则像素块。

[0074] 实施例1

[0075] 如图1所示，本领域技术人员可将本发明作为一种基于双目视觉SLAM的动态场景密集建模方法进行实施，基于多模型拟合的运动分割方法应用于通常的双目视觉SLAM方法中，对于输入的双目图像序列，首先根据已知的相机内参外参对图像进行纠正，接着对图像进行ORB特征点提取，在每个双目像对中对左右影像的特征点进行匹配，并在连续双目帧的像对中进行时间序列上的匹配；基于多模型拟合进行运动分割，将相同运动的特征点聚类为一个运动模型参数，分割出场景中的相机自身运动模型和不同运动的动态物体运动模型，进而同时估计出相机和动态物体的运动，经过局部光束法平差优化后，得到相机和动态物体的轨迹。在密集建图方面，到这一步实现的是基于特征点的分割，无法进行密集建图，因此结合超像素分割技术，分割出运动物体全部像素点，进而在相机和物体都是运动的情况下，同时对静态背景和动态物体实现密集建模。

[0076] 作为较佳的实施例，本方法将多模型拟合方法应用于SLAM过程中，实现多运动模型的分割，估计出场景中不同运动的运动模型参数实例，主要流程如图3所示。在单步的运动分割中，首先通过基于局部窗口的随机采样获得多个假设模型，接着利用量化残差对数据进行表示，即判断假设模型的内点，利用层次聚类对内点进行分类。如果分类结果不收敛，则进行交替采样与聚类，直到最后结果收敛输出，输出场景中不同运动的运动模型。但是这一步完成单帧场景中不同运动模型的分割，在连续帧中，无法知道哪个是相机哪个是动态物体运动模型，所以需要进行连续帧运动分割。首先将前后帧图像特征点进行关联，由于匹配精度和误匹配点带来的影响，属于同一运动模型的内点分割结果往往会参杂较少量其他模型内点，通过K-近邻投票对分割结果进行优化，并且根据连续帧中运动估计的结果，去除不属于相应运动模型的外点，实现场景中相机自身运动模型和动态物体运动模型的精确分割。

[0077] 在本实施例中的其余技术特征，本领域技术人员均可以根据实际情况进行灵活选用以满足不同的具体实际需求。然而，对于本领域普通技术人员显而易见的是：不必采用这些特定细节来实行本发明。在其他实例中，为了避免混淆本发明，未具体描述公知的组成，结构或部件，均在本发明的权利要求书请求保护的技术方案限定技术保护范围之内。

[0078] 在本发明的描述中，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”均是广义含义，本领域技术人员应作广义理解。例如，可以是固定连接，也可以是活动连接，或整体地连接，或局部地连接，可以是机械连接，也可以是电性连接，可以是直接相连，也可以是通过中间媒介间接连接，还可以是两个元件内部的连通等，对于本领域的技术人员来说，可以根据具体情况理解上述术语在本发明中的具体含义，即，文字语言的表达与实际技术的实施可以灵活对应，本发明的说明书的文字语言(包括附图)的表达不构成对权利要求的任何单一的限制性解释。

[0079] 本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。在以上描述中，为了提供对本发明的透彻理解，阐述了大量特定细节。然而，对于本领域普通技术人员显而易见的是：不必采用这些特定细节来实行本发明。在其他实例中，为了避免混淆本发明，未具体描述公知的技术，例如具体的施工细节，作业条件和其他的技术条件等。

标题	发布/更新时间	阅读量
一种面向精确打击的地面运动目标检测与识别方法	2020-05-13	408
一种核辐射探测方法	2020-05-14	614
一种基于曲面拟合的图像超分辨率重建方法	2020-05-12	640
一种基于HEVC的编码方法、装置、计算设备和介质	2020-05-13	401
视频帧间运动估计方法、装置、设备及可读存储介质	2020-05-15	559
一种语义驱动的相机定位与地图重建方法和系统	2020-05-15	328
一种视频降噪方法和装置	2020-05-08	576
一种基于双目视觉SLAM的动态场景密集建模方法	2020-05-11	536
一种基于连续超声图像的无创颅内压测量方法	2020-05-14	763
用于兴趣区编码的运动约束图块集合	2020-05-15	572

一种基于双目视觉SLAM的动态场景密集建模方法

一种基于双目视觉SLAM的动态场景密集建模方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：