目标物体定位方法、装置及可读存储介质专利检索-环境网络计算机网络专利检索查询-专利查询网

目标物体定位方法、装置及可读存储介质

阅读：1015发布：2020-06-13

专利汇可以提供目标物体定位方法、装置及可读存储介质专利检索，专利查询，专利分析的服务。并且本发明实施例提供了一种目标物体定位方法、装置及可读存储介质。其中方法包括：从摄像设备获取目标物体周围环境的当前视频帧图像，并将当前视频帧图像输入目标神经网络，获得当前视频帧图像的第一描述符，根据第一描述符，从视觉地图中确定预设个数的第二描述符，根据视觉地图，确定第二描述符关联的目标关键视频帧图像，并确定与目标关键视频帧图像关联的第一位姿，根据与目标关键视频帧图像关联的第一位姿、以及激光点云地图，生成与第一位姿对应的仿真激光点云，根据与目标关键视频帧图像关联的第一位姿、以及仿真激光点云，确定目标物体的当前位姿。通过对目标物体的当前位姿进行粗定位和精定位，提高了对目标物体的当前位姿的定位精度。，下面是目标物体定位方法、装置及可读存储介质专利的具体信息内容。

权利要求

1.一种目标物体定位方法，其特征在于，包括：
从摄像设备获取目标物体周围环境的当前视频帧图像，并将所述当前视频帧图像输入目标神经网络，获得所述当前视频帧图像的第一描述符；
根据所述第一描述符，从所述视觉地图中确定预设个数的第二描述符；
根据所述视觉地图，确定所述第二描述符关联的目标关键视频帧图像，并确定与所述目标关键视频帧图像关联的第一位姿；
根据与所述目标关键视频帧图像关联的第一位姿、以及激光点云地图，生成与所述第一位姿对应的仿真激光点云；
根据与所述目标关键视频帧图像关联的第一位姿、以及所述仿真激光点云，确定所述目标物体的当前位姿。
2.根据权利要求1所述的方法，其特征在于，在所述从摄像设备获取目标物体周围环境的当前视频帧图像之前，还包括：
构建所述视觉地图、以及所述激光点云地图；
所述构建所述视觉地图、以及所述激光点云地图，包括：
获得关键视频帧图像，并保存所述关键视频帧图像，并通过激光传感器获得激光帧、以及获得与所述激光帧对应的第二位姿，保存所述激光帧、以及与所述激光帧对应的第二位姿之间的关联，以构建所述激光点云地图；
根据所述激光传感器和所述摄像设备之间的第一相对位姿、以及所述第二位姿，计算所述关键视频帧图像对应的第一位姿；
将所述关键视频帧图像输入所述目标神经网络，以获得所述关键视频帧图像对应的第三描述符，保存所述关键视频帧图像、所述第三描述符和所述第一位姿，以构建所述视觉地图，其中，所述关键视频帧图像与所述关键视频帧图像对应的第三描述符和第一位姿关联。
3.根据权利要求1所述的方法，其特征在于，所述根据所述第一描述符，从所述视觉地图中确定预设个数的第二描述符，包括：
确定所述第一描述符与所述视觉地图中的每个第三描述符的距离；其中，每个所述第三描述符对应一个所述距离；
对每个所述第三描述符，按照每个所述第三描述符对应的所述距离从小到大进行排序，获得排序结果；
从所述排序结果中最小的距离对应的第三描述符开始，按顺序选取所述预设个数的所述第三描述符，并将选取的所述第三描述符作为所述第二描述符。
4.根据权利要求1-3任一项所述的方法，其特征在于，所述预设个数为一个；
所述根据与所述目标关键视频帧图像关联的第一位姿、以及所述仿真激光点云，确定所述目标物体的当前位姿，包括：
将获取的当前激光帧与所述仿真激光点云配准，获得所述目标关键视频帧图像关联的第一位姿与所述当前激光帧之间的第二相对位姿；
根据与所述目标关键视频帧图像关联的第一位姿、以及所述第二相对位姿，确定所述当前激光帧对应的第三位姿，并将所述当前激光帧对应的第三位姿作为所述目标物体的当前位姿。
5.根据权利要求1-3任一项所述的方法，其特征在于，所述预设个数为多个；
所述根据与所述目标关键视频帧图像关联的第一位姿、以及激光点云地图，生成与所述第一位姿对应的仿真激光点云，包括：
将与每个所述第二描述符关联的目标关键视频帧图像对应的第一位姿作为候选位姿；
根据每个所述候选位姿和所述激光点云地图，生成与每个所述候选位姿对应的仿真激光点云；
所述根据与所述目标关键视频帧图像关联的第一位姿、以及所述仿真激光点云，确定所述目标物体的当前位姿，包括：
将获取的当前激光帧与每个所述仿真激光点云配准，获得与每个候选位姿对应的配准结果；其中，所述配准结果包括第二相对位姿；所述第二相对位姿为所述候选位姿与所述当前激光帧对应的第二位姿之间的相对位姿；
根据每个所述候选位姿、以及与每个候选位姿对应的配准结果，确定所述当前激光帧对应的第三位姿，将所述第三位姿作为所述目标物体的当前位姿。
6.根据权利要求5所述的方法，其特征在于，所述配准结果还包括置信度；
所述根据每个所述候选位姿、以及与每个候选位姿对应的配准结果，确定所述当前激光帧对应的第三位姿，将所述第三位姿作为所述目标物体的当前位姿，包括：
从与每个所述候选位姿对应的置信度中确定最高置信度；
将所述最高置信度对应的候选位姿作为目标位姿，并根据所述目标位姿、以及所述目标位姿对应的第二相对位姿，确定所述当前激光帧对应的第三位姿，将所述第三位姿作为所述目标物体的当前位姿。
7.根据权利要求2或3所述的方法，其特征在于，在所述构建视觉地图、以及所述激光点云地图之前，还包括：
采用训练样本集对预先构建的神经网络进行训练，以获得所述目标神经网络。
8.根据权利要求7所述的方法，其特征在于，所述训练样本集包括相同场景的视频帧图像和/或不同场景的视频帧图像。
9.一种目标物体定位装置，其特征在于，包括：
获得模块，用于从摄像设备获取目标物体周围环境的当前视频帧图像，并将所述当前视频帧图像输入目标神经网络，获得所述当前视频帧图像的第一描述符；
第一确定模块，用于根据所述第一描述符，从所述视觉地图中确定预设个数的第二描述符；
第二确定模块，用于根据所述视觉地图，确定所述第二描述符关联的目标关键视频帧图像，并确定与所述目标关键视频帧图像关联的第一位姿；
生成模块，用于根据与所述目标关键视频帧图像关联的第一位姿、以及激光点云地图，生成与所述第一位姿对应的仿真激光点云；
第三确定模块，用于根据与所述目标关键视频帧图像关联的第一位姿、以及所述仿真激光点云，确定所述目标物体的当前位姿。
10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的目标物体定位方法的步骤。
11.一种目标物体定位装置，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至8中任一项所述的目标物体定位方法的步骤。

说明书全文

目标物体定位方法、装置及可读存储介质

技术领域

[0001] 本发明涉及图像处理技术领域，特别是涉及一种目标物体定位方法、装置及可读存储介质。

背景技术

[0002] 随着科技的不断发展，人工智能在机器人、无人机、无人驾驶等领域的应用越来越广泛。为保证机器人、无人机、无人车等能适应不同复杂的环境，对机器人、无人机、无人车的智能化提出了更高的要求。机器人、无人机、无人车的自主导航定位技术是核心，而其中的定位是要解决的首要问题，吸引了众多研究人员的热切关注。

[0003] 目前采用视觉定位方法，视觉定位的方案为通过传统特征提取方法例如快速特征点提取和描述(ORB，Oriented FAST and Rotated BRIEF)算法提取视频帧图像的特征点，将特征点的描述符与已有的视觉地图中存储的描述符做匹配，从视觉地图中确定出与特征点的描述符相似的路标点描述符，再根据与特征点相似的路标点描述符对应的路标点的坐标，利用PNP算法确定视频帧图像对应的位姿。其中，ORB算法分为两部分，分别是特征点提取和特征点描述。特征提取是由(FAST，Features from Accelerated Segment Test)算法发展来的，其中，特征点描述是根据特征点描述算法(BRIEF，Binary Robust IndependentElementary Features)改进的。

[0004] 然而目前的视觉定位方法的定位精度不够高，因此，如何提高目标物体的定位精度亟待解决。

发明内容

[0005] 鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种目标物体定位方法、装置及可读存储介质。

[0006] 本发明的第一方面，提供了一种目标物体定位方法，包括：

[0007] 从摄像设备获取目标物体周围环境的当前视频帧图像，并将所述当前视频帧图像输入目标神经网络，获得所述当前视频帧图像的第一描述符；

[0008] 根据所述第一描述符，从所述视觉地图中确定预设个数的第二描述符；

[0009] 根据所述视觉地图，确定所述第二描述符关联的目标关键视频帧图像，并确定与所述目标关键视频帧图像关联的第一位姿；

[0010] 根据与所述目标关键视频帧图像关联的第一位姿、以及激光点云地图，生成与所述第一位姿对应的仿真激光点云；

[0011] 根据与所述目标关键视频帧图像关联的第一位姿、以及所述仿真激光点云，确定所述目标物体的当前位姿。

[0012] 本发明的第二方面，提供了一种目标物体定位装置，包括：

[0013] 获得模块，用于从摄像设备获取目标物体周围环境的当前视频帧图像，并将所述当前视频帧图像输入目标神经网络，获得所述当前视频帧图像的第一描述符；

[0014] 第一确定模块，用于根据所述第一描述符，从所述视觉地图中确定预设个数的第二描述符；

[0015] 第二确定模块，用于根据所述视觉地图，确定所述第二描述符关联的目标关键视频帧图像，并确定与所述目标关键视频帧图像关联的第一位姿；

[0016] 生成模块，用于根据与所述目标关键视频帧图像关联的第一位姿、以及激光点云地图，生成与所述第一位姿对应的仿真激光点云；

[0017] 第三确定模块，用于根据与所述目标关键视频帧图像关联的第一位姿、以及所述仿真激光点云，确定所述目标物体的当前位姿。

[0018] 本发明的第三方面，提供了一种计算机可读存储介质，包括：

[0019] 所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的目标物体定位方法的步骤。

[0020] 本发明的第四方面，提供了一种目标物体定位装置，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述任一项所述的目标物体定位方法的步骤

[0021] 本发明实施例包括以下优点：

[0022] 本发明实施例目标物体定位方法、装置及可读存储介质，构建视觉地图，通过从摄像设备获取目标物体周围环境的当前视频帧图像，并将当前视频帧图像输入目标神经网络，获得当前视频帧图像的第一描述符，根据第一描述符，从视觉地图中确定预设个数的第二描述符，根据视觉地图，确定第二描述符关联的目标关键视频帧图像，并确定与目标关键视频帧图像关联的第一位姿，根据与目标关键视频帧图像关联的第一位姿、以及激光点云地图，生成与第一位姿对应的仿真激光点云，根据与目标关键视频帧图像关联的第一位姿、以及仿真激光点云，确定目标物体的当前位姿。一个关键视频帧图像对应一个描述符，该描述符是针对整个关键视频帧图像的全局描述符，因此，相对于现有技术中的视觉地图保存大量路标点的坐标和路标点描述符，占用存储空间小。并且，本实施例中通过目标神经网络获得第一描述符，不容易受光照等环境因素影响，在不同的场景下有更强的适应性。因此，解决了现有技术中的视觉地图保存大量路标点的坐标和路标点描述符，占用存储空间大的问题以及现有技术中采用传统特征提取方法提取特征点容易受光照等环境因素影响，导致定位不稳定的问题，并且，通过对目标物体的当前位姿进行粗定位和精定位，进一步提高了对目标物体的当前位姿的定位精度。

[0023] 上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。附图说明

[0024] 通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

[0025] 图1为本发明实施例提供的一种目标物体定位方法的步骤流程图；

[0026] 图2为本发明实施例提供的另一种目标物体定位方法的步骤流程图；

[0027] 图3为本发明实施例提供的又一种目标物体定位方法的步骤流程图；

[0028] 图4为本发明实施例提供的一种目标物体定位装置的结构示意图。

具体实施方式

[0029] 为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

[0030] 应当理解，此处所描述的具体实施例仅用以解释本发明，仅仅是本发明一部分实施例，而不是全部的实施例，并不用于限定本发明。

[0031] 图1为本发明实施例提供的一种目标物体定位方法的步骤流程图，本实施例提供的目标物体定位方法应用于嵌入式计算机、台式计算机、笔记本电脑、服务器等电子设备。本实施例提供的目标物体定位方法可以通过目标物体定位装置执行，目标物体定位装置通常以软件和/或硬件的方式实现，参照图1，本实施例的方法包括如下步骤：

[0032] 步骤101、从摄像设备获取目标物体周围环境的当前视频帧图像，并将当前视频帧图像输入目标神经网络，获得当前视频帧图像的第一描述符。

[0033] 现有技术中，需要提取视频帧图像的特征点，每个特征点包括特征点坐标和特征点描述符，比如提取一帧视频帧图像的500个特征点，则对应有500个特征点描述符，计算量比较大。并且，传统特征提取方法受光照环境因素影响，导致不同光照情况下特征提取与匹配结果受到影响，从而影响定位的稳定性。

[0034] 而本实施例中通过目标神经网络提取当前视频帧图像的第一描述符，也即只需计算一个第一描述符，因此相对于现有技术特征提取方法计算量小，并且，通过目标神经网络获得第一描述符，不容易受光照等环境因素影响，在不同的场景下有更强的适应性。需要说明的是，目标物体可以为机器人、无人机、无人车等物体，摄像设备可以部署在目标物体上，以获取目标物体周围环境的视频帧图像。

[0035] 步骤102、根据第一描述符，从视觉地图中确定预设个数的第二描述符。

[0036] 可以采用最邻近搜索(NNS，Nearest Neighbor Search)，从视觉地图中确定预设个数第二描述符。例如，预设个数为1时，从视觉地图中确定距离第一描述符最近的描述符作为第二描述符。最邻近搜索可以参照现有技术中提供的各种搜索方法(例如通过二叉树数据结构(KD tree，K-dimensional tree)进行最近邻搜索，此处不进行详细介绍。

[0037] 步骤103、根据视觉地图，确定第二描述符关联的目标关键视频帧图像，并确定与目标关键视频帧图像关联的第一位姿。

[0038] 由于视觉地图中可以存储有关键视频帧图像与第三描述符和第一位姿的关联关系，因此可以根据关联关系确定出第二描述符关联的关键视频帧图像，第二描述符关联的关键视频帧图像即为目标关键视频帧图像，确定出目标关键视频帧图像后，即可以确定目标关键视频帧图像关联的第一位姿。

[0039] 步骤104、根据与目标关键视频帧图像关联的第一位姿、以及激光点云地图，生成与第一位姿对应的仿真激光点云。

[0040] 步骤105、根据与目标关键视频帧图像关联的第一位姿、以及仿真激光点云，确定目标物体的当前位姿。

[0041] 本实施例提供的目标物体定位方法，通过步骤101至步骤103，对目标物体的当前位姿进行粗定位。并通过步骤104和步骤105，对目标物体的当前位姿进行精定位。由于根据与目标关键视频帧图像关联的第一位姿、以及激光点云地图，生成与第一位姿对应的仿真激光点云，进而根据与目标关键视频帧图像关联的第一位姿、以及仿真激光点云，确定目标物体的当前位姿，也即采用了激光对目标物体进行定位，由于激光本身具有的特性，使采用激光定位的精度高，相对于现有技术依据视觉定位而言，进一步提高了对目标物体的定位精度。激光的特性例如高方向性和高单色性，即高方向性即激光器发射的激光基本就是朝一个方向射出，光束的发散度极小，几乎是沿着平行方向发射的。高单色性即光的颜色是由光的波长决定的，而光都会有一定的波长范围，其波长范围越窄，表现出来的单色性就会越好。对于普通的光源，由于谱线宽度比较大，频率范围过宽，表现出来的颜色就会比较杂。而激光器输出的光，波长分布范围非常窄，因此颜色极纯。

[0042] 本实施例提供的目标物体定位方法，通过从摄像设备获取目标物体周围环境的当前视频帧图像，并将当前视频帧图像输入目标神经网络，获得当前视频帧图像的第一描述符，根据第一描述符，从视觉地图中确定预设个数的第二描述符，根据视觉地图，确定第二描述符关联的目标关键视频帧图像，并确定与目标关键视频帧图像关联的第一位姿，根据与目标关键视频帧图像关联的第一位姿、以及激光点云地图，生成与第一位姿对应的仿真激光点云，根据与目标关键视频帧图像关联的第一位姿、以及仿真激光点云，确定目标物体的当前位姿。由于本实施例中通过目标神经网络获得第一描述符，不容易受光照等环境因素影响，在不同的场景下有更强的适应性。并且，通过对目标物体的当前位姿进行粗定位和精定位，进一步提高了对目标物体的当前位姿的定位精度。

[0043] 可选的，参照图2，图2为本发明实施例提供的另一种目标物体定位方法的步骤流程图，该方法包括如下步骤：

[0044] 步骤201、构建视觉地图、以及激光点云地图。

[0045] 起中，构建视觉地图、以及激光点云地图可以通过如下步骤实现：

[0046] 获得关键视频帧图像，并保存关键视频帧图像，并通过激光传感器获得激光帧、以及获得与激光帧对应的第二位姿，保存激光帧、以及与激光帧对应的第二位姿之间的关联，以构建激光点云地图；

[0047] 根据激光传感器和摄像设备之间的第一相对位姿、以及第二位姿，计算关键视频帧图像对应的第一位姿；

[0048] 将关键视频帧图像输入目标神经网络，以获得关键视频帧图像对应的第三描述符，保存关键视频帧图像、第三描述符和第一位姿，以构建视觉地图，其中，关键视频帧图像与关键视频帧图像对应的第三描述符和第一位姿关联。

[0049] 其中，在构建激光点云地图的过程中，获得关键视频帧图像，并保存关键视频帧图像，并通过激光传感器获得激光帧、以及获得与激光帧对应的第二位姿。根据激光传感器和摄像设备之间的第一相对位姿、以及第二位姿，可以计算关键视频帧图像对应的第一位姿。由于每帧关键视频帧图像都对应有一帧激光帧，计算出该激光帧对应的第二位姿后，并且激光传感器和摄像设备之间的第一相对位姿是已知的，则可以将第一相对位姿与第二位姿相乘，获得该关键视频帧图像对应的第一位姿。通过本步骤可以获得多帧关键视频帧图像对应的第一位姿。

[0050] 需要说明的是，获得一帧关键视频帧图像对应的第一位姿后，即可以将该关键视频帧图像输入目标神经网络，目标神经网络可以输出一个第三描述符，该第三描述符为与该关键视频帧图像对应的描述符，保存关键视频帧图像、该关键视频帧对应的第三描述符和该关键视频帧对应的第一位姿，其中，关键视频帧图像与第三描述符和第一位姿关联。可以将每帧关键视频帧图像分别输入目标神经网络，从而可以获得与每帧关键视频帧图像对应的第三描述符，以及保存多帧关键视频帧图像、每帧关键视频帧图像对应的第三描述符和第一位姿，以构建视觉地图。

[0051] 通过上述步骤构建的视觉地图中保存的是关键视频帧图像、关键视频帧图像的第三描述符和第一位姿，也即一个关键视频帧图像对应一个第三描述符，第三描述符是针对整个关键视频帧图像的全局描述符，因此，相对于现有技术中的视觉地图保存大量路标点的坐标和路标点描述符，占用存储空间小。

[0052] 需要说明的是，第三描述符为关键视频帧图像的图像描述符，一个第三描述符表示一个特征向量，特征向量用来描述图像的各种属性，例如图像形状、颜色、纹理等。关键视频帧图像指每隔固定的距离和/或角度，获得一帧视频帧图像，将获得的视频帧图像作为关键视频帧图像。例如为目标物体移动一定距离则获取一帧视频帧图像作为关键视频帧图像，或者目标物体原地旋转的情况下，每旋转一定的角度获取一帧视频帧图像作为关键视频帧图像，或者同时考虑距离和角度满足设定条件则获取一帧视频帧图像作为关键视频帧图像。第一位姿即关键视频帧图像中对应的目标物体的位置和姿态。

[0053] 其中，可以采用同时定位与地图创建(SLAM，Simultaneous Localization and Mapping)算法构建激光点云地图，SLAM算法包括但不限于GMapping、Karto、Cartographer、LOAM等。可以每隔固定的距离和/或角度，获得目标物体周围环境的一帧视频帧图像，将获得的视频帧图像作为关键视频帧图像。获得一帧关键视频帧图像的同时或者间隔较短时间(例如几毫秒或者十几毫秒)获得一帧激光帧(一帧关键视频帧图像对应一帧激光帧)，通过SLAM算法可以计算出该激光帧对应的第二位姿。通过本步骤可以获得多帧激光帧对应的第二位姿。

[0054] 步骤202、从摄像设备获取目标物体周围环境的当前视频帧图像，并将当前视频帧图像输入目标神经网络，获得当前视频帧图像的第一描述符。

[0055] 步骤203、根据第一描述符，从视觉地图中确定预设个数的第二描述符。

[0056] 根据第一描述符，从视觉地图中确定预设个数的第二描述符可以通过如下步骤实现：

[0057] 确定第一描述符与视觉地图中的每个第三描述符的距离；其中，每个第三描述符对应一个距离；

[0058] 对每个第三描述符，按照每个第三描述符对应的距离从小到大进行排序，获得排序结果；

[0059] 从排序结果中最小的距离对应的第三描述符开始，按顺序选取预设个数的第三描述符，并将选取的第三描述符作为第二描述符。

[0060] 可选的，预设个数可以为一个，本实施例中以预设个数为一个进行介绍。

[0061] 步骤204、根据视觉地图，确定第二描述符关联的目标关键视频帧图像，并确定与目标关键视频帧图像关联的第一位姿。

[0062] 步骤205、根据与目标关键视频帧图像关联的第一位姿、以及激光点云地图，生成与第一位姿对应的仿真激光点云。

[0063] 步骤206、将获取的当前激光帧与仿真激光点云配准，获得目标关键视频帧图像关联的第一位姿与当前激光帧之间的第二相对位姿。

[0064] 配准方法包括但不限于“迭代最近点(ICP，Iterative Closest Point)、(PLICP，Point-to-Line Iterative Closest Point)、Scan-Match等方法。当前激光帧可以与当前视频帧图像同时获得，或者与当前视频帧图像间隔较短的时间。可以通过激光传感器获取当前激光帧，由于激光传感器精度较高，获得的当前激光帧的精度也较高，将当前激光帧与仿真激光点云配准后获得的第二相对位姿的精度较高。

[0065] 步骤207、根据与目标关键视频帧图像关联的第一位姿、以及第二相对位姿，确定当前激光帧对应的第三位姿，并将当前激光帧对应的第三位姿作为目标物体的当前位姿。

[0066] 与目标关键视频帧图像关联的第一位姿与第二相对位姿相乘，获得当前激光帧对应的第三位姿。由于第二相对位姿的精度较高，因此根据与目标关键视频帧图像关联的第一位姿、以及第二相对位姿，确定的当前激光帧对应的第三位姿的精度也较高。

[0067] 本实施例提供的目标物体定位方法，通过步骤201至步骤204，对目标物体进行粗定位。并且通过步骤205至步骤207对目标物体进行细定位。由于采用了通过激光对目标物体进行精定位，相对于现有技术依据视觉定位而言，进一步提高了对目标物体的定位精度。

[0068] 参照图3，图3为本发明实施例提供的又一种目标物体定位方法的步骤流程图，本实施例中以预设个数为多个进行介绍。该方法包括如下步骤：

[0069] 步骤301、构建视觉地图、以及激光点云地图。

[0070] 步骤302、从摄像设备获取目标物体周围环境的当前视频帧图像，并将当前视频帧图像输入目标神经网络，获得当前视频帧图像的第一描述符。

[0071] 步骤303、根据第一描述符，从视觉地图中确定预设个数的第二描述符。

[0072] 步骤304、根据视觉地图，确定第二描述符关联的目标关键视频帧图像，并确定与目标关键视频帧图像关联的第一位姿。

[0073] 步骤305、将与每个第二描述符关联的目标关键视频帧图像对应的第一位姿作为候选位姿。

[0074] 例如，参照如下表1，表1中示出了第二描述符、与每个第二描述符关联的目标关键视频帧图像、与目标关键视频帧图像对应的第一位姿(候选位姿)之间的关联，具体参照下表1所示：

[0075]第二描述符目标关键视频帧图像第一位姿
第二描述符1 目标关键视频帧图像1 第一位姿1(候选位姿1)
第二描述符2 目标关键视频帧图像2 第一位姿2(候选位姿2)
第二描述符3 目标关键视频帧图像3 第一位姿3(候选位姿3)

[0076] 表1

[0077] 参照上述表1，可以将第一位姿1作为候选位姿1，第一位姿2作为候选位姿2，第一位姿3作为候选位姿3。

[0078] 步骤306、根据每个候选位姿和激光点云地图，生成与每个候选位姿对应的仿真激光点云。

[0079] 步骤307、将获取的当前激光帧与每个仿真激光点云配准，获得与每个候选位姿对应的配准结果；其中，配准结果包括第二相对位姿；第二相对位姿为候选位姿与当前激光帧对应的第二位姿之间的相对位姿。

[0080] 针对步骤306和步骤307，例如如下表2所示，表2中示出了候选位姿、仿真激光点云、配准结果三者之间的对应关系。

[0081]候选位姿仿真激光点云配准结果
候选位姿1 仿真激光点云1 配准结果1
候选位姿2 仿真激光点云2 配准结果2
候选位姿3 仿真激光点云3 配准结果3

[0082] 表2

[0083] 步骤308、根据每个候选位姿、以及与每个候选位姿对应的配准结果，确定当前激光帧对应的第三位姿，将第三位姿作为目标物体的当前位姿。

[0084] 可以随机从三个候选位姿中选择一个候选位姿，将选择的候选位姿与该候选位姿对应的配准结果(第二相对位姿)相乘，将相乘结果作为当前激光帧对应的第三位姿。例如，如果选择候选位姿1，则将候选位姿1与候选位姿1对应的配准结果(第二相对位姿)相乘，将相乘结果作为当前激光帧对应的第三位姿，将第三位姿作为目标物体的当前位姿。

[0085] 可选的，配准结果还可以包括置信度；在采用配准方法获得与候选位姿对应的第二相对位姿的同时，可以获得与候选位姿对应的置信度。相应的，步骤308、根据每个候选位姿、以及与每个候选位姿对应的配准结果，确定当前激光帧对应的第三位姿，将第三位姿作为目标物体的当前位姿，可以通过如下步骤实现：

[0086] 从与每个候选位姿对应的置信度中确定最高置信度；

[0087] 将最高置信度对应的候选位姿作为目标位姿，并根据目标位姿、以及目标位姿对应的第二相对位姿，确定当前激光帧对应的第三位姿，将第三位姿作为目标物体的当前位姿。

[0088] 例如，如果候选位姿2对应的置信度最高，则将候选位姿2作为目标位姿，将候选位姿2与候选位姿2对应的第二相对位姿相乘，将相乘结果作为当前激光帧对应的第二位姿，将第二位姿作为目标物体的当前位姿。从而可以进一步提高目标物体的当前位姿的精度。

[0089] 可选的，在构建视觉地图、以及激光点云地图之前，还可以包括如下步骤：

[0090] 采用训练样本集对预先构建的神经网络进行训练，以获得目标神经网络。

[0091] 可选的，训练样本集包括相同场景的视频帧图像和/或不同场景的视频帧图像。

[0092] 需要说明的是，训练样本集如果包括相同场景的视频帧图像和不同场景的视频帧图像，可以以三帧图像作为第一组，在开始对预先构建的神经网络进行训练时，例如该组中的第一帧和第二帧为相同场景的视频帧图像，第三帧视频帧图像的场景与第一帧视频帧图像和第二帧视频帧图像的场景不同。将第一帧视频帧图像输入预先构建的神经网络，通过该神经网络输出一个描述符1，将第二帧视频帧图像输入预先构建的神经网络，通过该神经网络输出一个描述符2，将第三帧视频帧图像输入预先构建的神经网络，通过该神经网络输出一个描述符3，可以计算描述符1和描述符2之间的损失1、以及计算描述符3与描述符1之间的损失2、描述符3与描述符2之间的损失3，将损失1、损失2、以及损失3相加获得总损失1。接着可以将第二组视频帧图像分别输入预先构建的神经网络，与前一组获得总损失1的方法类似，获得该组对应的总损失2，判断总损失2与总损失1的差值是否小于预设阈值，如果不小于预设阈值，则对预先构建的神经网络进行调参，以获得调参后的神经网络。并根据上述方法继续训练，直至获得的某组视频帧图像对应的总损失与该组相邻的前一组的总损失的差值不再减小，则训练神经网络收敛，即获得目标神经网络。

[0093] 训练样本集如果包括相同场景的视频帧图像和不同场景的视频帧图像的情况下，能够使目标神经网络更能适应不同的场景，从而使通过目标神经网络输出的视频帧图像的描述符的精度更高，进而保证对目标物体的定位精度。

[0094] 当训练样本集包括相同场景的视频帧图像或不同场景的视频帧图像的情况下，训练过程与训练样本集如果包括相同场景的视频帧图像和不同场景的视频帧图像相似，此处不再赘述。

[0095] 参照图4，图4为本发明实施例提供的一种目标物体定位装置的结构示意图，该装置400包括：

[0096] 获得模块410，用于从摄像设备获取目标物体周围环境的当前视频帧图像，并将当前视频帧图像输入目标神经网络，获得当前视频帧图像的第一描述符；

[0097] 第一确定模块420，用于根据第一描述符，从视觉地图中确定预设个数的第二描述符；

[0098] 第二确定模块430，用于根据视觉地图，确定第二描述符关联的目标关键视频帧图像，并确定与目标关键视频帧图像关联的第一位姿；

[0099] 生成模块440，用于根据与目标关键视频帧图像关联的第一位姿、以及激光点云地图，生成与第一位姿对应的仿真激光点云；

[0100] 第三确定模块450，用于根据与目标关键视频帧图像关联的第一位姿、以及仿真激光点云，确定目标物体的当前位姿。

[0101] 本实施例提供的目标物体定位装置，通过从摄像设备获取目标物体周围环境的当前视频帧图像，并将当前视频帧图像输入目标神经网络，获得当前视频帧图像的第一描述符，根据第一描述符，从视觉地图中确定预设个数的第二描述符，根据视觉地图，确定第二描述符关联的目标关键视频帧图像，并确定与目标关键视频帧图像关联的第一位姿，根据与目标关键视频帧图像关联的第一位姿、以及激光点云地图，生成与第一位姿对应的仿真激光点云，根据与目标关键视频帧图像关联的第一位姿、以及仿真激光点云，确定目标物体的当前位姿。由于本实施例中通过目标神经网络获得第一描述符，不容易受光照等环境因素影响，在不同的场景下有更强的适应性。并且，通过对目标物体的当前位姿进行粗定位和精定位，进一步提高了对目标物体的当前位姿的定位精度。

[0102] 可选的，还可以包括：

[0103] 构建模块，用于构建视觉地图、以及激光点云地图；

[0104] 相应的，构建模块，具体用于获得关键视频帧图像，并保存关键视频帧图像，并通过激光传感器获得激光帧、以及获得与激光帧对应的第二位姿，保存激光帧、以及与激光帧对应的第二位姿之间的关联，以构建激光点云地图；

[0105] 根据激光传感器和摄像设备之间的第一相对位姿、以及第二位姿，计算关键视频帧图像对应的第一位姿；

[0106] 将关键视频帧图像输入目标神经网络，以获得关键视频帧图像对应的第三描述符，保存关键视频帧图像、第三描述符和第一位姿，以构建视觉地图，其中，关键视频帧图像与关键视频帧图像对应的第三描述符和第一位姿关联。

[0107] 可选的，第一确定模块420具体用于确定第一描述符与视觉地图中的每个第三描述符的距离；其中，每个第三描述符对应一个距离；对每个第三描述符，按照每个第三描述符对应的距离从小到大进行排序，获得排序结果；从排序结果中最小的距离对应的第三描述符开始，按顺序选取预设个数的第三描述符，并将选取的第三描述符作为第二描述符。

[0108] 可选的，预设个数为一个，相应的，

[0109] 第三确定模块450具体用于将获取的当前激光帧与仿真激光点云配准，获得目标关键视频帧图像关联的第一位姿与当前激光帧之间的第二相对位姿；根据与目标关键视频帧图像关联的第一位姿、以及第二相对位姿，确定当前激光帧对应的第三位姿，并将当前激光帧对应的第三位姿作为目标物体的当前位姿。

[0110] 可选的，预设个数为多个；生成模块440，用于将与每个第二描述符关联的目标关键视频帧图像对应的第一位姿作为候选位姿；根据每个候选位姿和激光点云地图，生成与每个候选位姿对应的仿真激光点云；

[0111] 相应的，第三确定模块，具体用于将获取的当前激光帧与每个仿真激光点云配准，获得与每个候选位姿对应的配准结果；其中，配准结果包括第二相对位姿；第二相对位姿为候选位姿与当前激光帧对应的第二位姿之间的相对位姿；根据每个候选位姿、以及与每个候选位姿对应的配准结果，确定当前激光帧对应的第三位姿，将第三位姿作为目标物体的当前位姿。

[0112] 可选的，配准结果还包括置信度；

[0113] 第三确定模块450具体用于从与每个候选位姿对应的置信度中确定最高置信度；将最高置信度对应的候选位姿作为目标位姿，并根据目标位姿、以及目标位姿对应的第二相对位姿，确定当前激光帧对应的第三位姿，将第三位姿作为目标物体的当前位姿。

[0114] 可选的，还可以包括：

[0115] 训练模块，用于采用训练样本集对预先构建的神经网络进行训练，以获得目标神经网络。

[0116] 可选的，训练样本集包括相同场景的视频帧图像和/或不同场景的视频帧图像。

[0117] 另外，本发明实施例还提供一种目标物体定位装置，该目标物体定位装置包括处理器，存储器以及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述实施例的目标物体定位方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

[0118] 本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述的目标物体定位方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，的计算机可读存储介质，可以为只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

[0119] 对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

[0120] 本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

[0121] 本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

[0122] 在一个典型的配置中，计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非持续性的电脑可读媒体(transitory media)，如调制的数据信号和载波。

[0123] 本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程直播交互终端设备的处理器以产生一个机器，使得通过计算机或其他可编程直播交互终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

[0124] 这些计算机程序指令也可存储在能引导计算机或其他可编程直播交互终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

[0125] 这些计算机程序指令也可装载到计算机或其他可编程直播交互终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

[0126] 尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

[0127] 最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

[0128] 以上对本发明所提供的一种目标物体定位方法、装置及可读存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

标题	发布/更新时间	阅读量
一种节能灶商业运行模式系统	2022-08-21	0
一种基于波浪能浮标灯的最大波能跟踪系统	2020-08-09	1
一种基于VR的古建筑构件搭建模拟方法	2022-08-23	0
基于时间策略的智能终端应用管理方法及系统	2020-07-06	2
一种用于智慧农业的环境数据无线监测系统及其工作方法	2020-07-06	3
皮带机运行监测系统及其方法	2021-11-27	2
数据传输控制装置及数据流的控制方法	2022-09-04	1
利用智能学习的价值添加的害虫控制系统	2020-10-19	1
用于药物非临床安全性评价研究的蒸汽灭菌装置	2022-12-12	2
一种基于大数据的农业种植管理系统	2023-09-24	0

目标物体定位方法、装置及可读存储介质

目标物体定位方法、装置及可读存储介质

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：