首页 / 专利库 / 病理 / 认知障碍 / 学习障碍 / 障碍物识别方法、装置、计算机存储介质和电子设备

障碍物识别方法、装置、计算机存储介质和电子设备

阅读:480发布:2020-05-15

专利汇可以提供障碍物识别方法、装置、计算机存储介质和电子设备专利检索,专利查询,专利分析的服务。并且本公开 实施例 涉及一种障碍物识别方法、装置、计算机存储介质和 电子 设备。本公开至少一个实施例中,获取待识别图像;通过 机器学习 模型识别所述待识别图像中的障碍物;其中,所述机器学习模型为根据道路场景特征对道路场景的障碍物进行重新定义,并根据重新定义后的障碍物进行训练所得到的机器学习模型;所述障碍物包括所有影响车辆行驶的因素。相比于 现有技术 中利用目标检测的方法分别标定各种类型的物体,然后分别判断各种物体是不是障碍物的方式,能够大幅降低障碍物识别的难度,且针对不同的场景具备更强的适应性。,下面是障碍物识别方法、装置、计算机存储介质和电子设备专利的具体信息内容。

1.一种障碍物识别方法,其特征在于,包括:
获取待识别图像;
通过机器学习模型识别所述待识别图像中的障碍物;其中,所述机器学习模型为根据道路场景特征对道路场景的障碍物进行重新定义,并根据重新定义后的障碍物进行训练所得到的机器学习模型;所述障碍物包括所有影响车辆行驶的因素。
2.根据权利要求1所述的方法,其特征在于,
所述获取待识别图像,包括:
获取交通场景图;
对获取到的交通场景图进行预处理,以生成适合输入到所述机器学习模型的待识别图像。
3.根据权利要求1所述的方法,其特征在于,所述机器学习模型为基于全卷积网络的深度学习模型。
4.根据权利要求3所述的方法,其特征在于,所述基于全卷积网络的深度学习模型包括
1个输入层、4个卷积模、3个池化模块、7个Inception模块、3个上采样模块和1个输出层
5.一种障碍物识别装置,其特征在于,包括:
获取模块,用于获取待识别图像;
识别模块,用于通过机器学习模型识别所述待识别图像中的障碍物;其中,所述机器学习模型为根据道路场景特征对道路场景的障碍物进行重新定义,并根据重新定义后的障碍物进行训练所得到的机器学习模型;所述障碍物包括所有影响车辆行驶的因素。
6.根据权利要求5所述的装置,其特征在于,
所述获取模块,用于获取待识别图像,包括:
获取交通场景图;
对获取到的交通场景图进行预处理,以生成适合输入到所述机器学习模型的待识别图像。
7.根据权利要求5所述的装置,其特征在于,所述机器学习模型为基于全卷积网络的深度学习模型。
8.根据权利要求7所述的装置,其特征在于,所述基于全卷积网络的深度学习模型包括
1个输入层、4个卷积模块、3个池化模块、7个Inception模块、3个上采样模块和1个输出层。
9.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有可被计算机设备执行的指令代码;所述指令代码在被计算机设备执行时,执行如权利要求1-4任一项所述的方法。
10.一种电子设备,其特征在于,所述电子设备包括至少一个处理器和一个存储器,所述存储器耦接至所述处理器;所述处理器被配置为执行所述存储器中存储的计算机指令;
所述存储器在执行所述计算机指令时,执行如权利要求1-4任一项所述的方法。

说明书全文

障碍物识别方法、装置、计算机存储介质和电子设备

技术领域

[0001] 本公开的实施例涉及人工智能技术领域,尤其涉及一种障碍物识别方法、装置、计算机存储介质和电子设备。

背景技术

[0002] 在自动驾驶技术中,障碍物检测是一个非常重要的课题。当前主流的障碍物检测方案采用的都是类Faster RCNN(Region-based Convolutional Neural Network,基于区域的卷积神经网络)的框架,该类方案的基本步骤包括:
[0003] 1.建议窗生成:采用建议窗生成算法生成建议窗作为障碍物目标的待检区域,包括采用选择性搜索selective search,堆bing,滑窗法或其它类似算法生成建议窗,在类Faster RCNN框架中,均通过在特征图上进行滑窗的方法来实现建议窗的生成,并通过后续接入的卷积神经网络结构来判定生成的候选建议窗是否为含有目标的建议窗,对于包含目标的建议窗再进行坐标偏移量回归,由此实现障碍物疑似区域的筛选。
[0004] 2.疑似区域特征提取:采用卷积神经网络结构对建议窗生成算法生成得到的疑似区域进行特征提取,将疑似区域从特征图中裁剪出来,并规范化为一组固定尺寸的特征图,后续采用全连接层或者池化对该特征图进行向量化,得到一个可表征该疑似区域的特征向量
[0005] 3.障碍物目标识别:采用softmax层以及坐标回归层对疑似区域进行类别判别以及坐标回归,该步骤将根据算法训练过程中定义的目标种类对疑似区域进行识别并对疑似区域的坐标进行回归,得到最终的识别以及回归结果。
[0006] 4.非极大值抑制:由于建议窗生成算法生成候选区域的过程是盲目的,因此生成的候选区域中存在大量大面积重合的区域,因此需要采用非极大值抑制算法对最终结果进行过滤优化最终结果。
[0007] 在对现有技术研究的过程中,发明人发现现有技术存在如下缺点:
[0008] 检测目标种类有限且受限于算法离线训练的结果,通用性差,当碰到算法训练过程中没有预测的目标类别时就会发生漏检,因此,不能保证当前技术方案可在各种场景下正常工作,无法适用于复杂的交通环境。

发明内容

[0009] 本公开至少一个实施例的主要目的在于至少部分的解决上述问题。
[0010] 第一方面,本公开的实施例提供了一种障碍物识别方法,包括:
[0011] 获取待识别图像;
[0012] 通过机器学习模型识别所述待识别图像中的障碍物;其中,所述机器学习模型为根据道路场景特征对道路场景的障碍物进行重新定义,并根据重新定义后的障碍物进行训练所得到的机器学习模型;所述障碍物包括所有影响车辆行驶的因素。
[0013] 在一些实施例中,
[0014] 所述获取待识别图像,包括:
[0015] 获取交通场景图;
[0016] 对获取到的交通场景图进行预处理,以生成适合输入到所述机器学习模型的待识别图像。
[0017] 在一些实施例中,
[0018] 所述机器学习模型为基于全卷积网络的深度学习模型。
[0019] 在一些实施例中,
[0020] 所述基于全卷积网络的深度学习模型包括1个输入层、4个卷积模块、3个池化模块、7个Inception模块、3个上采样模块和1个输出层
[0021] 在一些实施例中,
[0022] 所述通过机器学习模型识别所述待识别图像中的障碍物,包括:通过图形处理器GPU加速方式识别所述待识别图像中的障碍物。
[0023] 在一些实施例中,
[0024] 所述通过机器学习模型识别所述待识别图像中的障碍物之后,所述方法包括;
[0025] 根据相机标定参数以及识别结果,并通过IPM的方式变换生成障碍物的俯视定位图。
[0026] 在一些实施例中,
[0027] 所述方法还包括:
[0028] 将所述俯视定位图进行栅格化,得到障碍物的栅格定位图。
[0029] 第二方面,本公开的实施例提供了一种障碍物识别装置,包括:
[0030] 获取模块,用于获取待识别图像;
[0031] 识别模块,用于通过机器学习模型识别所述待识别图像中的障碍物;其中,所述机器学习模型为根据道路场景特征对道路场景的障碍物进行重新定义,并根据重新定义后的障碍物进行训练所得到的机器学习模型;所述障碍物包括所有影响车辆行驶的因素。
[0032] 在一些实施例中,
[0033] 所述获取模块,用于获取待识别图像,包括:
[0034] 获取交通场景图;
[0035] 对获取到的交通场景图进行预处理,以生成适合输入到所述机器学习模型的待识别图像。
[0036] 在一些实施例中,
[0037] 所述机器学习模型为基于全卷积网络的深度学习模型。
[0038] 在一些实施例中,
[0039] 所述基于全卷积网络的深度学习模型包括1个输入层、4个卷积模块、3个池化模块、7个Inception模块、3个上采样模块和1个输出层。
[0040] 在一些实施例中,
[0041] 所述识别模块,用于通过机器学习模型识别所述待识别图像中的障碍物,包括:通过图形处理器GPU加速方式识别所述待识别图像中的障碍物。
[0042] 在一些实施例中,还包括;
[0043] 变换模块,用于在所述识别模块通过机器学习模型识别所述待识别图像中的障碍物之后,根据相机标定参数以及识别结果,通过IPM的方式变换生成障碍物的俯视定位图。
[0044] 在一些实施例中,还包括:
[0045] 栅格化模块,用于将所述俯视定位图进行栅格化,得到障碍物的栅格定位图。
[0046] 第三方面,本公开的实施例提供了一种计算机存储介质,所述计算机存储介质中存储有可被计算机设备执行的指令代码;所述指令代码在被计算机设备执行时,执行如第一方面任一项所述的方法。
[0047] 第四方面,公开的实施例提供了一种电子设备,所述电子设备包括至少一个处理器和一个存储器,所述存储器耦接至所述处理器;所述处理器被配置为执行所述存储器中存储的计算机指令;所述存储器在执行所述计算机指令时,执行如第一方面任一项所述的方法。
[0048] 在一些实施例中,所述电子设备为车载设备。
[0049] 本公开至少一个实施例中,获取待识别图像;通过机器学习模型识别所述待识别图像中的障碍物;其中,所述机器学习模型为根据道路场景特征对道路场景的障碍物进行重新定义,并根据重新定义后的障碍物进行训练所得到的机器学习模型;所述障碍物包括所有影响车辆行驶的因素。相比于现有技术中利用目标检测的方法分别标定各种类型的物体,然后分别判断各种物体是不是障碍物的方式,能够大幅降低障碍物识别的难度,且针对不同的场景具备更强的适应性。附图说明
[0050] 图1示出了本公开一实施例提供的电子设备的主要结构;
[0051] 图2示出了本公开一实施例提供的障碍物识别方法的主要流程;
[0052] 图3示出了利用本公开一实施例提供的障碍物识别方法的识别结果;
[0053] 图4a示出了一个交通场景图;
[0054] 图4b示出了利用本公开一实施例提供的障碍物识别方法对图4a中的图片进行识别的结果;
[0055] 图5示出了本公开一实施例中所使用的基于深度学习的卷积神经网络的模型的架构;
[0056] 图6示出了图5中所示的卷积神经网络的模型中部分模块的结构的示意图;
[0057] 图7示出了利用本公开一实施例提供的障碍物识别方法得到的一个瞰图;
[0058] 图8示出了利用本公开一实施例提供的障碍物识别方法得到的一个栅格图经过三维变换之后得到的图像;
[0059] 图9示出了本公开一实施例提供的障碍物识别装置的主要结构。

具体实施方式

[0060] 应当理解,此处所描述的具体实施例仅仅用以解释本公开,并不用于限定本公开。
[0061] 以下将描述一个或多个特定实施例。为了提供对这些实施例的简洁说明,在说明书中并未描述实际实施方式的所有特征。应当意识到的是,在开发任一个这种实际实现方式时,如同在任意工程或设计项目中,多种特定于实现方式的决定必须被做出以实现开发者的特定目标,诸如遵从系统相关和商业相关的约束条件,这可能随着实施方式的不同而不同。而且,应当意识到,这种开发工作可能是复杂且耗时的,但是对于从本公开中得益的本领域普通技术人员来说将仍然只是设计、构造和生产的常规任务。
[0062] 如在以下将要讨论的,本公开的实施例主要是涉及对交通场景中的图像进行识别,确定图像中的障碍物的技术;特别的,本公开一些实施例的特定方面可能涉及在识别障碍物后图像的处理的过程。
[0063] 图1是电子设备10的示例的框图,该电子设备10可使用以上简单提到的障碍物识别技术中的一种或者几种而提供对图像数据的处理。电子设备10可以是任意类型的电子设备,诸如车载电脑、车载的导航仪等车载设备,或者也可以为手机等便携式电子设备,还可以为布设在端等服务器设备。
[0064] 不考虑其形式(例如,便携式的或非便携式的),应当明白电子设备10可使用以上简单提及的障碍物识别技术提供对图像中的障碍物识别的处理。在一些实施例中,电子设备10可将这样的障碍物识别技术应用到在电子设备10的存储器中存储的图像。在进一步实施例中,电子设备10可包括一个或多个成像设备30,诸如集成或外部数字照相机,其被配置成获取图像,该图像然后可由电子设备10进行处理。在自动驾驶的场景中,上述的照相机获取的通常为交通场景中的图像。
[0065] 如图1所示,电子设备10可包括各种内部和/或外部组件,它们致于实现电子设备10的功能。本领域普通技术人员应当理解,图1所示的各种功能块可包含硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)或硬件元件和软件元件两者的组合。例如,在当前图示的实施例中,电子设备10可包括输入/输出(I/O)端口12、一个或多个处理器14、存储器设备16、非易失性存储器18、电源26。此外,电子设备10还可包括一个或多外成像设备30,诸如数字照相机,以及图像信号处理器(ISP)32等。图像信号处理器32可对外成像设备30采集的图像进行颜色差补、颜色校正、Gamma校正等基本处理,进而生成可以被处理器14处理的图像。
[0066] 在继续之前,应当明白的是,图1所示的设备10的系统框图意指高层控制图,其描述可能包含在这种设备10中的各种细件。也就是,图1所示的每个单个组件之间的连接线并不必需表示数据所流经的路径或方向或者在设备10的各种组件之间传输数据的路径或方向。事实上,如以下讨论的,在一些实施例中,所描述的处理器14可包括多个处理器,诸如主处理器(例如,CPU)以及专用图像和/或视频处理器。
[0067] 对于图1中所图示的每个细件,I/O端口12可包括被配置成连接到各种外部设备的端口,诸如电源、音频输出设备(例如,头戴式麦或耳机)或其他电子设备(诸如手持式设备和/或计算机、打印机、投影仪、外部显示器、调制解调器、插接站等等)。在一个实施例中,I/O端口12可被配置成连接到外部成像设备,诸如数字照相机,用于获取可使用图像信号处理器32处理的图像数据。I/O端口12可支持任意合适的接口类型,诸如通用串行总线(USB)端口、串行连接端口、IEEE-1394(火线)端口、以太网或调制解调器端口和/或AC/DC电源连接端口。
[0068] 除了处理器14可控制设备10的一般操作。举例来说,处理器14可提供处理能力来执行操作系统、程序、用户和应用接口以及电子设备10的其他任何功能。处理器14可包括一个或多个微处理器,诸如一个或多个“通用”微处理器、一个或多个特定用途微处理器和/或特定于应用的微处理器(ASIC),或这些处理组件的组合。例如,处理器14可包括一个或多个指令集(例如,RISC)处理器,还有图形处理器(GPU)、视频处理器、音频处理器和/或有关的芯片集。应当理解,处理器14可耦合到一个或多个用于在设备10的各种组件之间传送数据和指令的数据总线
[0069] 要由处理器14处理的指令或数据可存储在计算机可读介质中,诸如存储器设备18。存储器设备18可以提供作为易失性存储器,诸如随机存取存储器(RAM)或提供作为非易失性存储器,诸如只读存储器(ROM),或提供作为一个或多个RAM和ROM设备的组合。存储器
18可存储各种信息,且可以用于各种用途。例如,存储器18可存储用于电子设备10的固件,诸如基本输入/输出系统(BIOS)、操作系统、各种程序、应用或任意其他能在电子设备10上执行的例程,包括用户界面功能、处理器功能等等。此外,存储器18可用于在电子设备10工作期间缓冲或高速缓存。举例来说,在一个实施例中,存储器18包括一个或多个缓冲器,用于在视频数据被输出到显示器28时缓冲视频数据。
[0070] 除了存储器设备18之外,电子设备10可进一步包括非易失性存储装置20,用于数据和/或指令的永久存储。非易失性存储装置20可包括闪存、硬盘驱动器或任意其他光、磁和/或固态存储介质,或者它们的某种组合。
[0071] 电子设备10还包括网络设备24,其可以是可在无线802.11标准或任意其他合适的联网标准之上提供网络连接性的网络控制器或网络接口卡(NIC),这些标准诸如局域网(LAN)、广域网(WAN)、GSM演进(EDGE)网络的增强数据速率、3G数据网络或互联网。网络设备24可以是Wi-Fi设备、射频设备或蜂窝通信设备等等。
[0072] 设备10的电源26可具有在非便携式和便携式设定下向设备10供电的能力。例如,在便携式设定下,设备10可包括一个或多个为设备10供电的电池,诸如锂离子电池。电池可通过将设备10连接到诸如壁式电插座的外部电源而被重复充电。在非便携式设定下,电源26可包括供电单元(PSU),其被配置成从壁式电插座汲取电力,并将电力分配到非便携式电子设备的各种元件,诸如桌面型计算系统。
[0073] 所图示的成像设备30可以提供作为数字照相机,其被配置成获取静止图像和移动图像(如视频)两者。照相机30可包括镜头和一个或多个被配置成捕获光并将光转换成电信号的图像传感器。以举例的方式,图像传感器可包括CMOS图像传感器(例如,CMOS有源像素传感器(APS))或CCD(电荷耦合设备)传感器。通常,照相机30中的图像传感器包括具有像素阵列的集成电路,其中每个像素包括用于感应光的光检测器。如本领域技术人员应当理解的,成像像素中的光检测器通常检测经由照相机镜头捕获的光的强度。然而,光检测器自身通常并不能检测所捕获的光的波长,因此,不能确定颜色信息。
[0074] 如以上提到的,电子设备10可采取计算机的形式,可是通常的非便携式计算机(诸如桌面型计算机、工作站和/或服务器),或其他类型的电子设备,诸如车载设备(比如车载导航仪、车载电脑等)。应当说明的是,在电子设备10为非便携式计算机(诸如桌面型计算机、工作站和/或服务器)时,比如服务器时,可以通过经通信网络与车载设备连接,并将识别结果传送给车载设备,从而使得车载设备车载设备控制车辆的行驶。此时,车载设备可以通过通信网络将实时采集的图像传输给上述的电子设备10,电子设备10按照本公开实施例所提供的障碍物识别的方式确定障碍物,之后传输给车载设备。当电子设备10本身为车载设备时,则可以在本地进行相应的障碍物识别的过程。
[0075] 本公开第一方面的实施例主要涉及一种障碍物识别方法,该方法可以由例如图1中所示出的电子设备的处理器14执行,参见图2,该方法主要包括:
[0076] 在框S21处,获取待识别图像。
[0077] 可以理解的是,具体到自动驾驶的场景中,这里的待识别图像通常为实际的交通场景图。比如由例如上述的成像设备30所拍摄的图像。在自动驾驶时,成像设备30会持续的采集车辆前方的图像,并向电子设备的存储器设备18或非易失性存储装置20传输相关的图像。此时,这里获取待识别的图像可以认为是处理器14从以上的存储器设备18或者非易失性存储装置20中读取的由成像设备30传输来的图像的过程。
[0078] 在一些实施例中,在本步骤中,在得到实际的交通场景图之后,还可以对该交通场景图进行一些处理,以使得所述的待识别图像更为适合机器学习模型处理。这些处理可以包括:缩放采样、预处理等。
[0079] 缩放采样
[0080] 缩放采样(或称为下采样(subsampled)或降采样(downsampled))的主要目的是减小图像的尺寸,从而便于后续的处理。关于缩放采样,在本公开之前的现有技术中,有多种的实现方式。比如可以按照如下方式进行处理:对于一副图像I尺寸为M*N,对起进行s倍下采样,即得到(M/s)*(N/s)尺寸的分辨率图像,值得注意的,s应该是M和N的公约数才可以,如果考虑是矩阵形式的图像,就是把原始图像s*s窗口内的图像编程一个像素,这个像素点的值就是窗口内所有像素的均值。
[0081] 预处理
[0082] 预处理的主要目的是使得图像转换为机器学习模型能够处理的格式和尺寸,便于机器学习模型的处理。比如可以首先进行尺寸调整,将所有的图像调整到一个固定的尺寸,比如256*256,之后利用Python代码将图像和对应的标签转换成机器学习模型,比如卷积神经网络模型能识别的数据类型:比如LEVELDB格式的输入文件。
[0083] 在框S22处,通过机器学习模型识别所述待识别图像中的障碍物;其中,所述机器学习模型为根据道路场景特征对道路场景的障碍物进行重新定义,并根据重新定义后的障碍物进行训练所得到的机器学习模型;所述障碍物包括所有影响车辆行驶的因素。
[0084] 应当理解的是,这里的机器学习模型是指通过机器学习的方式所训练出的一种具有学习能力的算法模型,该算法模型通常用以对目标进行预测,比如进行图像识别语音识别等。本公开的实施例中,所涉及的机器学习模型是被训练为用于图像识别的模型。更为具体的来说,该机器学习模型是被训练为能够将待识别图像划分为两个区域(即障碍物以及其他区域,其他区域为不会影响车辆行驶的区域)的学习模型,这点不同于现有技术中对各种障碍物分别识别相应类型从而将图像划分为N种区域的模型(N为大于2的整数)。在具体实施时,该机器学习模型可以对图像中的各个像素点进行运算,得到像素点为障碍物中的像素点和为其他区域中的特征的概率,进而确定出障碍物以及其他区域。
[0085] 这里所指的“重新定义”是相对于现有技术的机器学习模型中对障碍物的定义而言,现有技术中的机器学习模型中,对于障碍物没有统一的定义,而是通过列举的方式,将若干类别的事物定义为障碍物,而本公开的实施例中的机器学习模型,将所有影响车辆行驶的因素均统一定义为障碍物,不再区分相应的事物的种类。
[0086] 参见图3,示出了本公开的实施例中从其中一张交通场景图中识别出的障碍物的情况,虚线框限定了阴影区域,阴影区域之外的区域均为障碍物,而不具体区分道路上的车辆、行人,道路之外的区域。阴影区域内为上述的其他区域。
[0087] 本步骤中,对于所有不能通行的区域不做区分,统一的识别为障碍物,即不再将相应的区域中路面区分为不同类别的障碍物或者其他不可行区域。这样就将待识别的图像中的区域划分为两种,一种是障碍物,一种是其他区域。参见图4b,示出了将原始图像图4a划分为障碍物和其他区域后的情况,在图4b中,其他被标记为白色,除了白色区域之外的区域均为障碍物,均被标记成了黑色。
[0088] 本实施例中,通过重新定义的机器学习模型直接将图像识别为障碍物以及其他区域。相比于现有技术中利用目标检测的方法分别标定各种类型的物体,然后分别判断各种物体是不是障碍物的方式,能够大幅降低障碍物识别的难度,且针对不同的场景具备更强的适应性。
[0089] 下面对本公开实施例中的机器学习模型以及其训练过程进行进一步的说明。
[0090] 机器学习模型
[0091] 在具体实施时,上述的实施例中所涉及的机器学习模型可以是多种类型的机器学习模型中的任意一种,比如可以为逻辑回归模型,随机森林模型,贝叶斯方法模型,支持向量机模型或是神经网络模型中的任意一种。在采用相同的机器学习模型进行识别时,本公开实施例的进行障碍物识别的方式与现有技术中的方式相比均能够提高通用性。
[0092] 在一些实施例中,上述的机器学习模型可以为基于全卷积网络的深度学习模型。基于全卷积网络的深度学习模型相比于一般的机器学习模型,经过训练之后识别的准确率更高,且由于权值共享的特点,能够降低处理器的运算量,适于在便携式终端,比如车载设备上的处理。
[0093] 更进一步的,上述的基于全卷积网络的深度学习模型的基本架构可以参考图5,包括:1个输入层、4个卷积模块、3个池化模块、7个Inception模块、3个上采样模块和1个输出层。参见图5,图像被各个模块处理的顺序依次为:输入层-第一卷积模块-第一池化模块-第二卷积模块-第三卷积模块-第二池化模块-第一Inception模块-第二Inception模块-第三池化模块-第三Inception模块-第四Inception模块-第五Inception模块-第六Inception模块-第七Inception模块;三个上采样模块中的第一上采样模块对第二卷积模块处理之后的图像数据进行采样,第二采样模块对第二Inception模块处理后的数据进行采样,第三采样模块对第七Inception模块处理后的数据进行采样。三个上采样模块采样得到的数据通过第四卷积模块进行卷积处理之后输入到输出层。
[0094] 其中输入层用于将预处理后的图像输入至所述全卷积神经网络;卷积模块用于采用多个卷积核得到图像特征;各池化模块用于对所述图像特征进行最大值池化操作,将所述图像特征的数据量降低。
[0095] 各个Inception模块的主要作用是增加网络深度和宽度,提高深度神经网络性能。参考图6,Inception模块可以包括1个池化模块和6个卷积模块,为了便于区分,这里的池化模块表示为第四池化模块,卷积模块分别表示为第五卷积模块,第六卷积模块,第七卷积模块,第八卷积模块,第九卷积模块,第十卷积模块;其中上层输入的数据分别输入到第五卷积模块,第六卷积模块,第七卷积模块以及第四池化模块处理,第五卷积模块,第六卷积模块以及第四池化模块的处理结果对应的输入到第八卷积模块,第九卷积模块,第十卷积模块处理;第七卷积模块,第八卷积模块,第九卷积模块,第十卷积模块处理的处理结果进行合并后,所得到的合并结果输出。
[0096] 上采样就是采集模拟信号的样本,是将时间上、幅值上都连续的信号,在采样脉冲的作用下,转换成时间、幅值上离散的信号。所以上采样又称为波形的离散化过程。每一个上采样模块包括一个卷积模块和一个反卷积模块,通过反卷积操作将图像特征的数据量增大;输出层用于计算分割结果,根据结果得分判定各个像素是否属于车道线;卷积模块对输入图像进行卷积和偏置的操作后,再使用非线性激活函数,获得一个卷积结果,即图像特征其表达式为:
[0097]
[0098] 其中,n代表网络层数,U代表第n层的神经元个数, 表示第n层的第i个输入图像和第j个输出图像的卷积权重, 表示第n层第j个输出图像的偏置,f(·)为神经元激活函数,f(x)=max(0,x)。
[0099] 输出层通过softmax函数计算各个像素的分类结果(即分割结果):
[0100]
[0101] 其中,k代表输出层的类别数,如无不确定区域则为2,否则为3。N代表网络的总层数,f(·)为softmax函数,
[0102] 以上介绍了基于全卷积网络的深度学习模型的基本结构,下面对其训练过程进行介绍。
[0103] 机器学习模型的训练
[0104] 首先是训练样本的采集。在一些实施例中,可以采集真实的驾驶视频,并选取真实驾驶视频中的若干图像帧作为原始采样图像。选取的原则可以包括清晰度高于一定的阈值,路况复杂程度高等。
[0105] 其次,可以对原始采样进行一系列的处理,从而得到合适的训练样本。这些处理可以包括直方图均衡化,采用抖动等策略增强数据集,通过缩放采样转化为合适大小等。之后对图像进行预处理比如Resize等,以生成适合输入到所述机器学习模型的图像。之后对得到的图像进行相关的标注,比如将图像中障碍物的像素值标注为特定的值。
[0106] 然后,将经过预处理之后的图像和相关标注输入到上述的深度学习模型对上述的深度学习模型进行训练。
[0107] 在进行模型训练时,采用梯度下降法调整所述卷积核的权重和偏置,并对池化模块的误差进行上采样操作;损失函数中对各像素采用平均权重、依据像素比例分配权重或依据像素位置分配权重的方法加权;可针对视频的不同区域训练不同模型,并将这些模型的分割结果拼接使用。
[0108] 反向传播阶段,采用随机梯度下降法调整全卷积神经网络各层的卷积核的权重和偏置。
[0109] 卷积模块的梯度: 其中up(·)操作为上采样操作,若该卷积模块后面无直接的池化模块,则无需该操作。
[0110] 对偏置b:
[0111] 对卷积核权重k: 这里, 与 逐元素相乘的patch结果。
[0112] 下采样层梯度: 其中,conv(·)是卷积操作。
[0113] 对偏置b:
[0114] 当观察到误差收敛时,训练结束,保存各层的权重和阈值。最后,对训练好的网络进行微调,就可完成所述全卷积网络模型的训练。
[0115] 在一些实施例中,上述的训练过程可以通过GPU加速的方式实现。在对卷积神经网络训练时,一个最大的问题就是训练速度的问题,特别是对于深度学习而言,过多的参数会消耗很多的时间,在神经网络模型训练过程中,运算最多的是关于矩阵的运算。而GPU与CPU相比,恰好能够更为高效的处理矩阵计算。采用GPU加速的方式进行上述的训练过程,能够提高训练的效率。同样值得说明的是,在一些实施例中,在通过上述的机器学习模型识别所述待识别图像中的障碍物的过程中,也可以采用GPU加速的方式,以提高识别的效率。
[0116] 以上提到的任意一种实施例中,所述的方法还可以包括将识别结果转换为相应的格式的文件的过程,从而便于后续的处理。下面进行简单的说明。
[0117] 首先,在一些实施例中,所述的方法还可以包括:根据相机标定参数以及识别结果,并通过IPM的方式变换生成障碍物的鸟瞰图。转换为鸟瞰图输出的优点在于能够使得后续的处理过程中,对图像中的道路的特征的抓取更为准确,比如能够更好的确定道路的宽度,曲直等。参见图7,为图4b中的图像经过IPM转换之后生成的鸟瞰图的示意图。其中黑色区域为障碍物,白色区域为障碍物之外的其他区域。
[0118] 相机标定(Camera calibration)简单来说是从世界坐标系换到图像坐标系的过程,也就是求最终的投影矩阵的过程。
[0119] 一般来说,标定的过程分为两个步骤:
[0120] ·第一步是从世界坐标系转为相机坐标系,这一步是三维点到三维点的转换,包括R,t(相机外参,确定了相机在某个三维空间中的位置和朝向)等参数;
[0121] ·第二步是从相机坐标系转为成像平面坐标系(像素坐标系),这一步是三维点到二维点的转换,包括K(相机内参,是对相机物理特性的近似)等参数;
[0122] 进一步的,在一些实施例中,在生成鸟瞰图之后,所述的方法还可以包括:将所述俯视定位图进行栅格化,得到障碍物的栅格定位图。
[0123] 参见图8,栅格图像进行三维模拟后生成的可视化结果。其中浅色区域为障碍物,相对深色的区域为当前车辆所处位置的可通行的区域,黑色区域为一些参数的展示区域。由于每一个栅格都代表一个具体的尺寸,因此可以再后续通过栅格数的计数,来获取障碍物的实际距离。
[0124] 当然在具体实施时,在本公开的实施例的方法中,也可以将鸟瞰图封装成其他格式的图像,比如特征图,拓扑图等类似的图像。或者在一些实施例中,也可以不进行这样的转换,而是直接将鸟瞰图输出,由其他图像处理的模块进行相应的处理。同样应当说明的是,在具体实施时,将识别结果转换为鸟瞰图的过程也可以是由其他的图像处理的系统执行,从而,在相应的实施例中,仅需将相应的识别结果输出给后续的图像处理的系统。
[0125] 第二方面,本公开一实施例提供了一种障碍物识别装置,可以用以实施上述第一方面任一项所述的方法,参见图9,该装置可以包括:
[0126] 获取模块91,用于获取待识别图像;
[0127] 识别模块92,用于通过机器学习模型识别所述待识别图像中的障碍物;其中,所述机器学习模型为根据道路场景特征对道路场景的障碍物进行重新定义,并根据重新定义后的障碍物进行训练所得到的机器学习模型;所述障碍物包括所有影响车辆行驶的因素。
[0128] 在一些实施例中,
[0129] 所述获取模块,用于获取待识别图像,包括:
[0130] 获取交通场景图;
[0131] 对获取到的交通场景图进行预处理,以生成适合输入到所述机器学习模型的待识别图像。
[0132] 在一些实施例中,
[0133] 所述机器学习模型为基于全卷积网络的深度学习模型。
[0134] 在一些实施例中,
[0135] 所述基于全卷积网络的深度学习模型包括1个输入层、4个卷积模块、3个池化模块、7个Inception模块、3个上采样模块和1个输出层。
[0136] 在一些实施例中,
[0137] 所述识别模块,用于通过机器学习模型识别所述待识别图像中的障碍物,包括:通过图形处理器GPU加速方式识别所述待识别图像中的障碍物。
[0138] 在一些实施例中,还包括;
[0139] 变换模块,用于在所述识别模块通过机器学习模型识别所述待识别图像中的障碍物之后,根据相机标定参数以及识别结果,通过IPM的方式变换生成障碍物的俯视定位图。
[0140] 在一些实施例中,还包括:
[0141] 栅格化模块,用于将所述俯视定位图进行栅格化,得到障碍物的栅格定位图。
[0142] 第三方面,本公开一实施例提供了一种计算机存储介质,所述计算机存储介质中存储有可被计算机设备执行的指令代码;所述指令代码在被计算机设备执行时,执行第一方面任意实施例所述的方法的步骤法。
[0143] 第四方面,本公开的实施例提供了一种电子设备,所述电子设备包括至少一个处理器和一个存储器,所述存储器耦接至所述处理器;所述处理器被配置为执行所述存储器中存储的计算机指令;该电子设备的结构可以参考图1中示出的电子设备,所述存储器在执行所述计算机指令时,执行第一方面任意实施例所述的方法的步骤。
[0144] 可以理解的是,本公开第二、第三、第四方面的实施例所提供的装置、计算机存储介质以及电子设备主要用以或者配置为执行第一方面的实施例所提供的障碍物识别的方法。本公开第二、第三、第四方面的实施例中的术语以及相应的实施方式可以参照第一方面的实施例,在此不再赘述。
[0145] 需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0146] 上述本公开实施例序号仅仅为了描述,不代表实施例的优劣。
[0147] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本公开各个实施例所述的方法。
[0148] 以上仅为本公开的优选实施例,并非因此限制本公开的专利范围,凡是利用本公开说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本公开的专利保护范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈