一种基于强化学习和规则确定驾驶策略的方法与设备专利检索-学习障碍认知障碍病理专利检索查询-专利查询网

一种基于 强化学习和规则确定驾驶策略的方法与设备

阅读：1015发布：2020-10-30

专利汇可以提供一种基于强化学习和规则确定驾驶策略的方法与设备专利检索，专利查询，专利分析的服务。并且本申请的目的是提供一种基于强化学习和规则融合确定驾驶策略的方法或设备；基于车辆的驾驶参数信息，通过强化学习算法确定所述车辆的第一驾驶策略信息；基于所述驾驶参数信息及所述车辆的驾驶规则信息，对所述第一驾驶策略信息进行合理性检测；基于所述合理性检测的检测结果，确定所述车辆的目标驾驶策略信息。与现有技术相比，本申请对通过强化学习算法计算确定的第一驾驶策略信息用规则进行约束，使得本申请的驾驶策略的确定方法与现有的采用规则算法实现车辆控制的方法、或采用强化学习算法实现车辆控制的方法相比更加智能，并且提高了最终确定的驾驶策略的合理性和稳定性。，下面是一种基于强化学习和规则确定驾驶策略的方法与设备专利的具体信息内容。

权利要求

1.一种基于强化学习和规则确定驾驶策略的方法，其中，所述方法包括：
基于车辆的驾驶参数信息，通过强化学习算法确定所述车辆的第一驾驶策略信息；
基于所述驾驶参数信息及所述车辆的驾驶规则信息，对所述第一驾驶策略信息进行合理性检测；
基于所述合理性检测的检测结果，确定所述车辆的目标驾驶策略信息。
2.根据权利要求1所述的方法，其中，所述基于所述驾驶参数信息及所述车辆的驾驶规则信息，对所述第一驾驶策略信息进行合理性检测包括：
基于所述驾驶参数信息及所述车辆的驾驶规则信息，确定所述车辆的第二驾驶策略信息；
基于所述第二驾驶策略信息对所述第一驾驶策略信息进行合理性检测。
3.根据权利要求2所述的方法，其中，所述基于所述合理性检测的检测结果，确定所述车辆的目标驾驶策略信息包括：
若所述合理性检测的检测结果包括所述第二驾驶策略信息与所述第一驾驶策略信息的距离大于或等于预定阈值，将所述第二驾驶策略信息确定为所述车辆的目标驾驶策略信息。
4.根据权利要求1所述的方法，其中，所述驾驶参数信息包括以下至少任一项：
车辆的速度信息；
车辆的偏离轨道方向信息；
车辆与轨道中心线的距离信息；
车辆与轨道边沿的距离信息；
障碍物感知信息；
交通标志感知信息。
5.根据权利要求1所述的方法，其中，所述方法还包括：
基于所述目标驾驶策略信息执行自动驾驶操作。
6.根据权利要求1所述的方法，其中，所述方法还包括：
基于所述合理性检测的检测结果，更新所述强化学习算法对应的回馈函数值。
7.根据权利要求6所述的方法，其中，所述基于所述合理性检测的检测结果，更新所述强化学习算法对应的回馈函数值包括：
若基于所述合理性检测的检测结果，确定的所述车辆的目标驾驶策略信息不包括第一驾驶策略信息，设置强化学习算法对应的回馈函数值为负数。
8.一种基于强化学习和规则确定驾驶策略的设备，其中，所述方法包括：
第一驾驶策略信息确定装置，用于基于车辆的驾驶参数信息，通过强化学习算法确定所述车辆的第一驾驶策略信息；
检测装置，用于基于所述驾驶参数信息及所述车辆的驾驶规则信息，对所述第一驾驶策略信息进行合理性检测；
目标驾驶策略信息确定装置，用于基于所述合理性检测的检测结果，确定所述车辆的目标驾驶策略信息。
9.一种基于强化学习和规则确定驾驶策略的设备，包括：
一个或多个处理器；
存储器；以及
一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序可被处理器执行如权利要求1-7中任一项所述的方法。

说明书全文

一种基于强化学习和规则确定驾驶策略的方法与设备

技术领域

[0001] 本申请涉及自动驾驶领域，尤其涉及一种基于强化学习和规则确定驾驶策略的技术。

背景技术

[0002] 在现有的车辆行驶过程中，对于车辆，特别是自动驾驶车辆的车辆控制主要通过以下几种方法实现：基于规则的自动驾驶技术，即采用规则算法实现车辆控制，根据逻辑公式，由状态输入值直接得到输出控制值，此类算法实现简单，不需要训练，且控制算法的输出结果可预测，较稳定，但是该算法不具备智能性，在真实驾驶的复杂场景中，容易被抢夺路权，因此该算法无法有效应对真实驾驶的复杂场景；采用强化学习算法实现车辆控制，能够使得驾驶策略更加智能，但是强化学习模型训练的时间成本较高，无法应用到实际的自动驾驶当中，且算法的输出结果不可预测；而现有的将规则和强化学习融合的算法，只能将规则算法和强化学习算法确定的结果进行线性相加，模型训练的时间成本依然较高，并且需要不断试错，导致无法应用到实际的自动驾驶当中。发明内容

[0003] 本申请的目的是提供一种基于强化学习和规则确定驾驶策略的方法与设备。

[0004] 根据本申请的一个方面，提供了一种基于强化学习和规则确定驾驶策略的方法，包括：

[0005] 基于车辆的驾驶参数信息，通过强化学习算法确定所述车辆的第一驾驶策略信息；

[0006] 基于所述驾驶参数信息及所述车辆的驾驶规则信息，对所述第一驾驶策略信息进行合理性检测；

[0007] 基于所述合理性检测的检测结果，确定所述车辆的目标驾驶策略信息。

[0008] 根据本申请的另一个方面，提供了一种基于强化学习和规则确定驾驶策略的设备，包括：

[0009] 第一驾驶策略信息确定装置，用于基于车辆的驾驶参数信息，通过强化学习算法确定所述车辆的第一驾驶策略信息；

[0010] 检测装置，用于基于所述驾驶参数信息及所述车辆的驾驶规则信息，对所述第一驾驶策略信息进行合理性检测；

[0011] 目标驾驶策略信息确定装置，用于基于所述合理性检测的检测结果，确定所述车辆的目标驾驶策略信息。

[0012] 根据本申请的另一方面，还提供了一种基于强化学习和规则确定驾驶策略的设备，包括：

[0013] 一个或多个处理器；

[0014] 存储器；以及

[0015] 一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行以下操作：

[0016] 基于车辆的驾驶参数信息，通过强化学习算法确定所述车辆的第一驾驶策略信息；

[0017] 基于所述驾驶参数信息及所述车辆的驾驶规则信息，对所述第一驾驶策略信息进行合理性检测；

[0018] 基于所述合理性检测的检测结果，确定所述车辆的目标驾驶策略信息。

[0019] 根据本申请的另一方面，还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序可被处理器执行以下操作：

[0020] 基于车辆的驾驶参数信息，通过强化学习算法确定所述车辆的第一驾驶策略信息；

[0021] 基于所述驾驶参数信息及所述车辆的驾驶规则信息，对所述第一驾驶策略信息进行合理性检测；

[0022] 基于所述合理性检测的检测结果，确定所述车辆的目标驾驶策略信息。

[0023] 与现有技术相比，本申请基于驾驶参数信息及车辆的驾驶规则信息，对通过强化学习算法确定所述车辆的第一驾驶策略信息进行合理性检测，并基于所述合理性检测的检测结果，确定所述车辆的目标驾驶策略信息以实现对车辆、特别是无人驾驶车辆、智能驾驶车辆的控制。在此，本申请对采用规则算法实现车辆控制与采用强化学习算法实现车辆控制的方法进行了更深层次的融合，对通过强化学习算法计算确定的第一驾驶策略信息用规则进行约束，通过这种新的融合技术，使得本申请的的驾驶策略的确定方法与现有的采用规则算法实现车辆控制的方法、或采用强化学习算法实现车辆控制的方法相比更加智能，并且提高了最终确定的驾驶策略的合理性和稳定性。附图说明

[0024] 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

[0025] 图1示出根据本申请一个方面的一种基于强化学习和规则确定驾驶策略的方法流程图；

[0026] 图2示出根据本申请一个方面的一种基于强化学习和规则确定驾驶策略的设备示意图；

[0027] 图3示出了可被用于实施本申请中所述的各个实施例的示例性系统。

[0028] 附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

[0029] 下面结合附图对本申请作进一步详细描述。

[0030] 在本申请一个典型的配置中，终端、服务网络的设备和计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

[0031] 内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

[0032] 计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

[0033] 本申请所指设备包括但不限于用户设备、网络设备、或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备包括但不限于任何一种可与用户进行人机交互(例如通过触摸板进行人机交互)的移动电子产品，例如智能手机、平板电脑等，所述移动电子产品可以采用任意操作系统，如android操作系统、iOS操作系统等。其中，所述网络设备包括一种能够按照事先设定或存储的指令，自动进行数值计算和信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、嵌入式设备等。所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云；在此，云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。

[0034] 图1示出根据本申请一个方面的一种基于强化学习和规则确定驾驶策略的方法流程图。其中，所述方法包括步骤S11、步骤S12和步骤S13。在本申请的一种实现方式中，所述方法在一种基于强化学习和规则确定驾驶策略的设备上执行。

[0035] 其中，在步骤S11中，可以基于车辆的驾驶参数信息，通过强化学习算法确定所述车辆的第一驾驶策略信息；接着，在步骤S12中，可以基于所述驾驶参数信息及所述车辆的驾驶规则信息，对所述第一驾驶策略信息进行合理性检测；接着，在步骤S13中，可以基于所述合理性检测的检测结果，确定所述车辆的目标驾驶策略信息。

[0036] 在本申请中，所述车辆可以包括但不限于以完全人类驾驶模式、辅助驾驶模式、部分自动驾驶模式、有条件自动驾驶模式、高度自动驾驶模式或完全自动驾驶模式等任意模式行驶的车辆。在一个优选实施例中，所述车辆可以包括无人驾驶车辆或智能驾驶车辆，其中，在一种实现方式中，所述无人驾驶车辆可以包括所述在完全自动驾驶模式下行驶的车辆；所述智能驾驶车辆可以包括在辅助驾驶模式、部分自动驾驶模式、有条件自动驾驶模式、高度自动驾驶模式等模式下行驶的车辆。

[0037] 具体地，在步骤S11中，可以基于车辆的驾驶参数信息，通过强化学习算法确定所述车辆的第一驾驶策略信息。在本申请的一种实现方式中，可以先通过强化学习算法训练出与车辆控制对应的驾驶策略模型，进而将所述车辆的驾驶参数信息输入到所述驾驶策略模型中，并输出所述第一驾驶策略信息。

[0038] 在此，所述驾驶参数信息可以包括反映车辆行驶环境和车辆行驶状态的各类车辆驾驶信息。在一种实现方式中，所述驾驶参数信息包括但不限于以下至少任一项：车辆的速度信息；车辆的偏离轨道方向信息；车辆与轨道中心线的距离信息；车辆与轨道边沿的距离信息；障碍物感知信息，例如前方障碍物的相对位置和尺寸；交通标志感知信息，例如红绿灯指示标志、指向标志、转弯标志等。在一种实现方式中，所述驾驶参数信息可以是从各类传感器中采集到的车辆驾驶信息，例如，实时的车辆驾驶信息；在另一种实现方式中，所述驾驶参考信息还可以是从其他计算设备，例如仿真器、模拟器，如Torcs模拟器中获得的。

[0039] 在此，本申请中的驾驶策略信息，例如所述车辆的第一驾驶策略信息可以包括对各种所述车辆驾驶行为的控制信息，例如，车辆的方向盘角度控制，车辆的刹车控制，车辆的油门控制等。在此，本领域技术人员应该能够理解，上述各个驾驶策略信息仅为举例，现有或今后出现的其他驾驶策略信息如果能够适用于本申请，也应该包含在本申请的保护范围内，并以引用的形式包含于此。

[0040] 在此，所述强化学习可以指的是在一系列的情景之下，通过多步恰当的决策来达到一个目标的学习过程，是一种序列多步决策的问题。强化学习的目标就是要寻找一个能使得我们获得最大累积奖励的策略。在本申请的车辆控制的应用场景下，一种可能的实现方式中，通过强化学习算法训练出与车辆控制对应的驾驶策略模型的方法包括：车辆在当前的环境和状态下、基于驾驶策略信息执行相应的驾驶操作，从而改变自身的环境和状态，并获得一个奖励，即确定出回馈函数值，所述回馈函数值体现了所述车辆采取驾驶策略信息后，状态发生的变化，在一种实现方式中，可以设置状态变好，则回馈函数值为正数，且回馈函数值越大，则状态越好；反之若状态变坏，则回馈函数值为负数。通过回馈函数的设置，控制所车辆与其所处环境发生交互的循环过程，调整车辆的驾驶策略信息，从而逐步训练并完善与车辆控制对应的驾驶策略模型。在本申请中，所述强化学习算法还可以包括在强化学习基础上融合了深度学习的深度强化学习算法，进而，通过强化学习算法训练出与车辆控制对应的驾驶策略模型可以包括强化学习神经网络模型。在此，所述深度强化学习算法可以包括但不限于Deep Q Learning、Double Q-Network、Deep Deterministic Policy Gradient(深度决策梯度方法)等。

[0041] 进而，可以基于车辆的驾驶参数信息，通过强化学习算法确定所述车辆的第一驾驶策略信息。例如，所述驾驶参数信息包括车辆的速度信息、车辆的偏离轨道方向信息、车辆与轨道中心线的距离信息和车辆与轨道边沿的距离信息，则基于通过强化学习算法，例如，将上述驾驶参数信息输入到强化学习神经网络中，则可以通过输出车辆的方向盘角度控制、刹车控制、油门控制等第一驾驶策略信息。

[0042] 接着，在步骤S12中，可以基于所述驾驶参数信息及所述车辆的驾驶规则信息，对所述第一驾驶策略信息进行合理性检测。进而，在步骤S13中，基于所述合理性检测的检测结果，确定所述车辆的目标驾驶策略信息。

[0043] 在本申请中，所述驾驶规则信息包括基于输入的驾驶参数信息或历史驾驶参数信息，通过预定的逻辑公式推导，得到一定的驾驶策略信息的过程。在此，所述驾驶规则信息可以包括现有的驾驶场景、已知的驾驶经验，设置的输出控制策略的各类规则。在一种实现方式中，所述驾驶规则信息可以包括但不限于避障规则、路径规划规则、预瞄准规则等各类规则中的一项或多项。例如，若所述驾驶规则信息包括预瞄准规则，输入的历史驾驶参数信息包括障碍物感知信息，如前方障碍物的相对位置和尺寸、当前车辆的速度信息和车辆的偏离轨道方向信息，则通过规则算法公式计算出车辆的方向盘角度控制、刹车控制或油门控制等相应的驾驶策略信息，如当前方向偏离轨道方向Θ，基于规则，计算出方向盘就应该反方向转2Θ。

[0044] 在本申请的一个实施例中，在步骤S12中，可以基于所述驾驶参数信息及所述车辆的驾驶规则信息，确定所述车辆的第二驾驶策略信息。在一种实现方式中，所述驾驶规则信息可以对应于具体的规则算法公式，输入信息是驾驶参数信息，通过计算输出第二驾驶策略信息，例如，输入的所述驾驶参数信息包括障碍物感知信息，如前方障碍物的相对位置和尺寸、当前车辆的速度信息和车辆的偏离轨道方向信息，则通过规则算法公式计算出车辆的方向盘角度控制、刹车控制或油门控制等第二驾驶策略信息，如当前方向偏离轨道方向Θ，基于规则，计算出方向盘就应该反方向转2Θ。

[0045] 接着，基于所述第二驾驶策略信息对所述第一驾驶策略信息进行合理性检测。在一种实现方式中，基于所述第二驾驶策略信息对所述第一驾驶策略信息进行合理性检测可以包括对于第二驾驶策略信息和第一驾驶策略信息进行相似性检测。例如，假设第一驾驶策略信息包括：方向盘角度Θ，油门程度η，刹车程度γ，基于所述驾驶规则信息确定的第二驾驶策略信息包括方向盘角度Θ’，油门程度η’，刹车程度γ’，则可以通过比较具体的策略参数，即方向盘角度Θ，油门程度η，刹车程度γ来确定第二驾驶策略信息和第一驾驶策略信息的相似度，例如通过R＝(Θ-Θ’)+(η-η’)+(γ-γ’)计算所述相似度，R的值越小，第二驾驶策略信息和第一驾驶策略信息的相似度越大。在一种实现方式中，可以设置策略的预定阈值，通过所述预定阈值与R值的比较来灵活地设置所述合理性检测的判断规则。例如，若所述第二驾驶策略信息与所述第一驾驶策略信息的距离大于或等于预定阈值，则判断所述第一驾驶策略信息不合理，反之若所述第二驾驶策略信息与所述第一驾驶策略信息的距离小于预定阈值，则判断所述第一驾驶策略信息合理。

[0046] 在一个实施例中，在步骤S13中，若所述合理性检测的检测结果包括所述第二驾驶策略信息与所述第一驾驶策略信息的距离大于或等于预定阈值，将所述第二驾驶策略信息确定为所述车辆的目标驾驶策略信息。而若所述合理性检测的检测结果包括所述第二驾驶策略信息与所述第一驾驶策略信息的小于预定阈值，将所述第一驾驶策略信息确定为所述车辆的目标驾驶策略信息。由于强化学习的输出的结果很难预测，而在真实的无人驾驶或是智能驾驶场景下，一个小的失误都可能是致命的。所以在本申请中，将强化学习的输出结果，即第一驾驶策略信息，用驾驶规则信息进行合理性检测，如果第一驾驶策略信息明显不合理，例如所述车辆已经超出轨道线还向着远离方向偏移；又如，前方很近的距离明明有障碍物，第一驾驶策略信息依然选择加速，则通过驾驶规则信息的约束，可以发现其中的错误并可以制止第一驾驶策略信息的实际执行，进而采用基于驾驶规则信息确定的第二驾驶策略信息实现自动驾驶操作。在此，所述驾驶规则信息包括基于输入的驾驶参数信息或历史驾驶参数信息，通过预定的逻辑公式推导，得到一定的驾驶策略信息的过程。所述驾驶规则信息可以包括但不限于避障规则、路径规划规则、预瞄准规则等各类具体规则中的一项或多项。在一种实现方式中，所述合理性检测可以包括对所述驾驶规则信息所包含的各类具体规则依次进行检测。可以设置，若存在不满足任一项具体规则内容时，即判断为不合理，进而将所述第二驾驶策略信息确定为所述车辆的目标驾驶策略信息。

[0047] 在本申请的一个实施例中，在步骤S12中，可以基于所述驾驶参数信息确定所述车辆在虚拟执行所述第一驾驶策略信息后的车辆状态信息。在本申请中，基于所述驾驶参数信息及所述车辆的驾驶规则信息，对所述第一驾驶策略信息进行合理性检测的另一种可能的方法是：在虚拟环境中，在所述车辆当前的环境和状态下、执行所述驾驶参数信息确定出的所述第一驾驶策略信息，从而得到下一个时刻的车辆状态信息，所述车辆状态信息的内容可以与下一个时刻的驾驶参数信息重合，即，可以包括以包括反映车辆行驶环境和车辆行驶状态的各类车辆驾驶信息。进而，基于所述车辆的驾驶规则信息，对所述车辆状态信息进行合理性检测。在此，所述车辆状态信息是所述车辆执行所述第一驾驶策略信息的直接结果，因此，所述车辆状态信息是否合理即直接反映了所述第一驾驶策略信息是否合理，而在所述虚拟环境中进行所述第一驾驶策略信息的执行、并生成车辆状态信息可以避免实际驾驶场景下带来的不必要的车辆损害等风险。在此，所述虚拟环境可以通过仿真器、模拟器，如Torcs模拟器等构建。

[0048] 接着，在一个实施例中，在步骤S13中，若所述合理性检测的检测结果包括所述车辆状态信息属于车辆安全范围，将所述第一驾驶策略信息作为所述车辆的目标驾驶策略信息；否则，基于所述驾驶参数信息及所述车辆的驾驶规则信息，生成所述车辆的目标驾驶策略信息。例如，执行所述第一驾驶策略信息得到的车辆状态信息是所述车辆撞到障碍物，则超出了车辆安全范围，背离了避障规则，则所述合理性检测的结果不合理，从而基于所述驾驶参数信息及所述车辆的驾驶规则信息，生成所述车辆的目标驾驶策略信息。

[0049] 在本申请的一个实施例中，所述方法还包括步骤S14(未示出)，在步骤S14中，可以基于所述目标驾驶策略信息执行自动驾驶操作。在此，基于所述通过合理性检测确定的目标驾驶策略信息，可以在真实车辆中执行相应的驾驶操作，例如在无人驾驶车辆或是智能驾驶车辆上执行自动驾驶操作。

[0050] 在本申请的一个实施例中，所述方法还包括步骤S15(未示出)，在步骤S15中，可以基于所述合理性检测的检测结果，更新所述强化学习算法对应的回馈函数值。

[0051] 在此，车辆在当前的环境和状态下、基于驾驶策略信息执行相应的驾驶操作，从而改变自身的环境和状态，并获得一个奖励，即确定出回馈函数值，所述回馈函数值体现了所述车辆采取驾驶策略信息后，状态发生的变化，在一种实现方式中，可以设置状态变好，则回馈函数值为正数，且回馈函数值越大，则状态越好；反之若状态变坏，则回馈函数值为负数。通过回馈函数的设置，控制所车辆与其所处环境发生交互的循环过程，调整车辆的驾驶策略信息，从而逐步训练并完善与车辆控制对应的驾驶策略模型。

[0052] 因此，若基于所述合理性检测的检测结果，确定的所述车辆的目标驾驶策略信息不包括第一驾驶策略信息，即所述检测结果不合理，设置强化学习算法对应的回馈函数值为负数。例如，设定当前回馈函数值为为-100，强化学习神经网络在每次决策后会基于回馈函数值对神经网络参数进行更新。如果回馈函数值值越小，下次做出相似决策的可能性越小，从而可以避免下次类似情况，如不合理情况的发生。反之，若是所述合理性检测结果合理，即目标驾驶策略对应第一驾驶策略信息时，将会设置回馈函数值为正数。

[0053] 本申请基于驾驶参数信息及车辆的驾驶规则信息，对通过强化学习算法确定所述车辆的第一驾驶策略信息进行合理性检测，并基于所述合理性检测的检测结果，确定所述车辆的目标驾驶策略信息以实现对车辆、特别是无人驾驶车辆、智能驾驶车辆的控制。在此，本申请对采用规则算法实现车辆控制与采用强化学习算法实现车辆控制的方法进行了更深层次的融合，对通过强化学习算法计算确定的第一驾驶策略信息用规则进行约束，通过这种新的融合技术，使得本申请的的驾驶策略的确定方法与现有的采用规则算法实现车辆控制的方法、或采用强化学习算法实现车辆控制的方法相比更加智能，并且提高了最终确定的驾驶策略的合理性和稳定性。

[0054] 图2示出根据本申请一个方面的一种基于强化学习和规则确定驾驶策略的设备1的示意图，其中，所述设备1包括第一驾驶策略信息确定装置21、检测装置22和目标驾驶策略信息确定装置23。

[0055] 其中，第一驾驶策略信息确定装置21可以基于车辆的驾驶参数信息，通过强化学习算法确定所述车辆的第一驾驶策略信息；检测装置22可以基于所述驾驶参数信息及所述车辆的驾驶规则信息，对所述第一驾驶策略信息进行合理性检测；目标驾驶策略信息确定装置23可以基于所述合理性检测的检测结果，确定所述车辆的目标驾驶策略信息。

[0056] 在本申请中，所述车辆可以包括但不限于以完全人类驾驶模式、辅助驾驶模式、部分自动驾驶模式、有条件自动驾驶模式、高度自动驾驶模式或完全自动驾驶模式等任意模式行驶的车辆。在一个优选实施例中，所述车辆可以包括无人驾驶车辆或智能驾驶车辆，其中，在一种实现方式中，所述无人驾驶车辆可以包括所述在完全自动驾驶模式下行驶的车辆；所述智能驾驶车辆可以包括在辅助驾驶模式、部分自动驾驶模式、有条件自动驾驶模式、高度自动驾驶模式等模式下行驶的车辆。

[0057] 具体地，第一驾驶策略信息确定装置21可以基于车辆的驾驶参数信息，通过强化学习算法确定所述车辆的第一驾驶策略信息。在本申请的一种实现方式中，可以先通过强化学习算法训练出与车辆控制对应的驾驶策略模型，进而将所述车辆的驾驶参数信息输入到所述驾驶策略模型中，并输出所述第一驾驶策略信息。

[0058] 在此，所述驾驶参数信息可以包括反映车辆行驶环境和车辆行驶状态的各类车辆驾驶信息。在一种实现方式中，所述驾驶参数信息包括但不限于以下至少任一项：车辆的速度信息；车辆的偏离轨道方向信息；车辆与轨道中心线的距离信息；车辆与轨道边沿的距离信息；障碍物感知信息，例如前方障碍物的相对位置和尺寸；交通标志感知信息，例如红绿灯指示标志、指向标志、转弯标志等。在一种实现方式中，所述驾驶参数信息可以是从各类传感器中采集到的车辆驾驶信息，例如，实时的车辆驾驶信息；在另一种实现方式中，所述驾驶参考信息还可以是从其他计算设备，例如仿真器、模拟器，如Torcs模拟器中获得的。

[0059] 在此，本申请中的驾驶策略信息，例如所述车辆的第一驾驶策略信息可以包括对各种所述车辆驾驶行为的控制信息，例如，车辆的方向盘角度控制，车辆的刹车控制，车辆的油门控制等。在此，本领域技术人员应该能够理解，上述各个驾驶策略信息仅为举例，现有或今后出现的其他驾驶策略信息如果能够适用于本申请，也应该包含在本申请的保护范围内，并以引用的形式包含于此。

[0060] 在此，所述强化学习可以指的是在一系列的情景之下，通过多步恰当的决策来达到一个目标的学习过程，是一种序列多步决策的问题。强化学习的目标就是要寻找一个能使得我们获得最大累积奖励的策略。在本申请的车辆控制的应用场景下，一种可能的实现方式中，通过强化学习算法训练出与车辆控制对应的驾驶策略模型的方法包括：车辆在当前的环境和状态下、基于驾驶策略信息执行相应的驾驶操作，从而改变自身的环境和状态，并获得一个奖励，即确定出回馈函数值，所述回馈函数值体现了所述车辆采取驾驶策略信息后，状态发生的变化，在一种实现方式中，可以设置状态变好，则回馈函数值为正数，且回馈函数值越大，则状态越好；反之若状态变坏，则回馈函数值为负数。通过回馈函数的设置，控制所车辆与其所处环境发生交互的循环过程，调整车辆的驾驶策略信息，从而逐步训练并完善与车辆控制对应的驾驶策略模型。在本申请中，所述强化学习算法还可以包括在强化学习基础上融合了深度学习的深度强化学习算法，进而，通过强化学习算法训练出与车辆控制对应的驾驶策略模型可以包括强化学习神经网络模型。在此，所述深度强化学习算法可以包括但不限于Deep Q Learning、Double Q-Network、Deep Deterministic Policy Gradient(深度决策梯度方法)等。

[0061] 进而，可以基于车辆的驾驶参数信息，通过强化学习算法确定所述车辆的第一驾驶策略信息。例如，所述驾驶参数信息包括车辆的速度信息、车辆的偏离轨道方向信息、车辆与轨道中心线的距离信息和车辆与轨道边沿的距离信息，则基于通过强化学习算法，例如，将上述驾驶参数信息输入到强化学习神经网络中，则可以通过输出车辆的方向盘角度控制、刹车控制、油门控制等第一驾驶策略信息。

[0062] 在此，检测装置22可以基于所述驾驶参数信息及所述车辆的驾驶规则信息，对所述第一驾驶策略信息进行合理性检测。进而，目标驾驶策略信息确定装置23可以基于所述合理性检测的检测结果，确定所述车辆的目标驾驶策略信息。

[0063] 在本申请中，所述驾驶规则信息包括基于输入的驾驶参数信息或历史驾驶参数信息，通过预定的逻辑公式推导，得到一定的驾驶策略信息的过程。在此，所述驾驶规则信息可以包括现有的驾驶场景、已知的驾驶经验，设置的输出控制策略的各类规则。在一种实现方式中，所述驾驶规则信息可以包括但不限于避障规则、路径规划规则、预瞄准规则等各类规则中的一项或多项。例如，若所述驾驶规则信息包括预瞄准规则，输入的历史驾驶参数信息包括障碍物感知信息，如前方障碍物的相对位置和尺寸、当前车辆的速度信息和车辆的偏离轨道方向信息，则通过规则算法公式计算出车辆的方向盘角度控制、刹车控制或油门控制等相应的驾驶策略信息，如当前方向偏离轨道方向Θ，基于规则，计算出方向盘就应该反方向转2Θ。

[0064] 在本申请的一个实施例中，所述检测装置22可以包括第一单元(未示出)和第二单元(未示出)，所述第一单元可以基于所述驾驶参数信息及所述车辆的驾驶规则信息，确定所述车辆的第二驾驶策略信息。在一种实现方式中，所述驾驶规则信息可以对应于具体的规则算法公式，输入信息是驾驶参数信息，通过计算输出第二驾驶策略信息，例如，输入的所述驾驶参数信息包括障碍物感知信息，如前方障碍物的相对位置和尺寸、当前车辆的速度信息和车辆的偏离轨道方向信息，则通过规则算法公式计算出车辆的方向盘角度控制、刹车控制或油门控制等第二驾驶策略信息，如当前方向偏离轨道方向Θ，基于规则，计算出方向盘就应该反方向转2Θ。

[0065] 在此，所述第二单元可以基于所述第二驾驶策略信息对所述第一驾驶策略信息进行合理性检测。在一种实现方式中，基于所述第二驾驶策略信息对所述第一驾驶策略信息进行合理性检测可以包括对于第二驾驶策略信息和第一驾驶策略信息进行相似性检测。例如，假设第一驾驶策略信息包括：方向盘角度Θ，油门程度η，刹车程度γ，基于所述驾驶规则信息确定的第二驾驶策略信息包括方向盘角度Θ’，油门程度η’，刹车程度γ’，则可以通过比较具体的策略参数，即方向盘角度Θ，油门程度η，刹车程度γ来确定第二驾驶策略信息和第一驾驶策略信息的相似度，例如通过R＝(Θ-Θ’)+(η-η’)+(γ-γ’)计算所述相似度，R的值越小，第二驾驶策略信息和第一驾驶策略信息的相似度越大。在一种实现方式中，可以设置策略的预定阈值，通过所述预定阈值与R值的比较来灵活地设置所述合理性检测的判断规则。例如，若所述第二驾驶策略信息与所述第一驾驶策略信息的距离大于或等于预定阈值，则判断所述第一驾驶策略信息不合理，反之若所述第二驾驶策略信息与所述第一驾驶策略信息的距离小于预定阈值，则判断所述第一驾驶策略信息合理。

[0066] 接着，若所述合理性检测的检测结果包括所述第二驾驶策略信息与所述第一驾驶策略信息的距离大于或等于预定阈值，则目标驾驶策略信息确定装置23可以将所述第二驾驶策略信息确定为所述车辆的目标驾驶策略信息。而若所述合理性检测的检测结果包括所述第二驾驶策略信息与所述第一驾驶策略信息的小于预定阈值，则设备1可以将所述第一驾驶策略信息确定为所述车辆的目标驾驶策略信息。由于强化学习的输出的结果很难预测，而在真实的无人驾驶或是智能驾驶场景下，一个小的失误都可能是致命的。所以在本申请中，将强化学习的输出结果，即第一驾驶策略信息，用驾驶规则信息进行合理性检测，如果第一驾驶策略信息明显不合理，例如所述车辆已经超出轨道线还向着远离方向偏移；又如，前方很近的距离明明有障碍物，第一驾驶策略信息依然选择加速，则通过驾驶规则信息的约束，可以发现其中的错误并可以制止第一驾驶策略信息的实际执行，进而采用基于驾驶规则信息确定的第二驾驶策略信息实现自动驾驶操作。在此，所述驾驶规则信息包括基于输入的驾驶参数信息或历史驾驶参数信息，通过预定的逻辑公式推导，得到一定的驾驶策略信息的过程。所述驾驶规则信息可以包括但不限于避障规则、路径规划规则、预瞄准规则等各类具体规则中的一项或多项。在一种实现方式中，所述合理性检测可以包括对所述驾驶规则信息所包含的各类具体规则依次进行检测。可以设置，若存在不满足任一项具体规则内容时，即判断为不合理，进而将所述第二驾驶策略信息确定为所述车辆的目标驾驶策略信息。

[0067] 在一种实现方式中，若所述合理性检测的检测结果不合理，需要将所述第二驾驶策略信息确定为所述车辆的目标驾驶策略信息，而此时又存在基于多种不同的驾驶规则信息，例如同时存在避障规则、路径规划规则和预瞄准规则，一种确定目标驾驶策略信息的可能的实现方式是，对不同驾驶规则信息确定的多个第二驾驶策略信息进行策略叠加、或是计算各个第二驾驶策略的交集，使得最终确定的所述目标驾驶策略信息可以满足所涉及到的全部驾驶规则。

[0068] 在本申请的一个实施例中，所述检测装置22还包括第三单元(未示出)和第四单元(未示出)，第三单元可以基于所述驾驶参数信息确定所述车辆在虚拟执行所述第一驾驶策略信息后的车辆状态信息。在本申请中，基于所述驾驶参数信息及所述车辆的驾驶规则信息，对所述第一驾驶策略信息进行合理性检测的另一种可能的方法是：在虚拟环境中，在所述车辆当前的环境和状态下、执行所述驾驶参数信息确定出的所述第一驾驶策略信息，从而得到下一个时刻的车辆状态信息，所述车辆状态信息的内容可以与下一个时刻的驾驶参数信息重合，即，可以包括以包括反映车辆行驶环境和车辆行驶状态的各类车辆驾驶信息。进而，所述第四单元可以基于所述车辆的驾驶规则信息，对所述车辆状态信息进行合理性检测。在此，所述车辆状态信息是所述车辆执行所述第一驾驶策略信息的直接结果，因此，所述车辆状态信息是否合理即直接反映了所述第一驾驶策略信息是否合理，而在所述虚拟环境中进行所述第一驾驶策略信息的执行、并生成车辆状态信息可以避免实际驾驶场景下带来的不必要的车辆损害等风险。在此，所述虚拟环境可以通过仿真器、模拟器，如Torcs模拟器等构建。

[0069] 接着，在一个实施例中，若所述合理性检测的检测结果包括所述车辆状态信息属于车辆安全范围，所述目标驾驶策略信息确定装置23可以将所述第一驾驶策略信息作为所述车辆的目标驾驶策略信息；否则，基于所述驾驶参数信息及所述车辆的驾驶规则信息，生成所述车辆的目标驾驶策略信息。例如，执行所述第一驾驶策略信息得到的车辆状态信息是所述车辆撞到障碍物，则超出了车辆安全范围，背离了避障规则，则所述合理性检测的结果不合理，从而基于所述驾驶参数信息及所述车辆的驾驶规则信息，生成所述车辆的目标驾驶策略信息。

[0070] 在本申请的一个实施例中，所述方法还包括执行装置(未示出)，在所述执行装置可以基于所述目标驾驶策略信息执行自动驾驶操作。在此，基于所述通过合理性检测确定的目标驾驶策略信息，可以在真实车辆中执行相应的驾驶操作，例如在无人驾驶车辆或是智能驾驶车辆上执行自动驾驶操作。

[0071] 在本申请的一个实施例中，所述方法还包括更新装置(未示出)，所述更新装置可以基于所述合理性检测的检测结果，更新所述强化学习算法对应的回馈函数值。

[0072] 在此，车辆在当前的环境和状态下、基于驾驶策略信息执行相应的驾驶操作，从而改变自身的环境和状态，并获得一个奖励，即确定出回馈函数值，所述回馈函数值体现了所述车辆采取驾驶策略信息后，状态发生的变化，在一种实现方式中，可以设置状态变好，则回馈函数值为正数，且回馈函数值越大，则状态越好；反之若状态变坏，则回馈函数值为负数。通过回馈函数的设置，控制所车辆与其所处环境发生交互的循环过程，调整车辆的驾驶策略信息，从而逐步训练并完善与车辆控制对应的驾驶策略模型。

[0073] 因此，若基于所述合理性检测的检测结果，确定的所述车辆的目标驾驶策略信息不包括第一驾驶策略信息，即所述检测结果不合理，设置强化学习算法对应的回馈函数值为负数。例如，设定当前回馈函数值为为-100，强化学习神经网络在每次决策后会基于回馈函数值对神经网络参数进行更新。如果回馈函数值值越小，下次做出相似决策的可能性越小，从而可以避免下次类似情况，如不合理情况的发生。反之，若是所述合理性检测结果合理，即目标驾驶策略对应第一驾驶策略信息时，将会设置回馈函数值为正数。

[0074] 本申请基于驾驶参数信息及车辆的驾驶规则信息，对通过强化学习算法确定所述车辆的第一驾驶策略信息进行合理性检测，并基于所述合理性检测的检测结果，确定所述车辆的目标驾驶策略信息以实现对车辆、特别是无人驾驶车辆、智能驾驶车辆的控制。在此，本申请对采用规则算法实现车辆控制与采用强化学习算法实现车辆控制的方法进行了更深层次的融合，对通过强化学习算法计算确定的第一驾驶策略信息用规则进行约束，通过这种新的融合技术，使得本申请的的驾驶策略的确定方法与现有的采用规则算法实现车辆控制的方法、或采用强化学习算法实现车辆控制的方法相比更加智能，并且提高了最终确定的驾驶策略的合理性和稳定性。

[0075] 本申请还提供了一种基于强化学习和规则确定驾驶策略的设备，包括：

[0076] 一个或多个处理器；

[0077] 存储器；以及

[0078] 一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行以下操作：

[0079] 基于车辆的驾驶参数信息，通过强化学习算法确定所述车辆的第一驾驶策略信息；

[0080] 基于所述驾驶参数信息及所述车辆的驾驶规则信息，对所述第一驾驶策略信息进行合理性检测；

[0081] 基于所述合理性检测的检测结果，确定所述车辆的目标驾驶策略信息。

[0082] 进一步，所述设备的所述程序还可以用于执行基于上述操作的其他相关实施例中的对应操作。

[0083] 本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序可被处理器执行以下操作：

[0084] 基于车辆的驾驶参数信息，通过强化学习算法确定所述车辆的第一驾驶策略信息；

[0085] 基于所述驾驶参数信息及所述车辆的驾驶规则信息，对所述第一驾驶策略信息进行合理性检测；

[0086] 基于所述合理性检测的检测结果，确定所述车辆的目标驾驶策略信息。

[0087] 进一步，所述计算机程序还可被处理器执行基于上述操作的其他相关实施例中的对应操作。

[0088] 图3示出了可被用于实施本申请中所述的各个实施例的示例性系统；

[0089] 如图3所示在一些实施例中，系统300能够作为图1、图2所示的实施例或其他所述实施例中的任意一个基于强化学习和规则确定驾驶策略的设备1。在一些实施例中，系统300可包括具有指令的一个或多个计算机可读介质(例如，系统存储器或NVM/存储设备320)以及与该一个或多个计算机可读介质耦合并被配置为执行指令以实现模块从而执行本申请中所述的动作的一个或多个处理器(例如，(一个或多个)处理器305)。

[0090] 对于一个实施例，系统控制模块310可包括任意适当的接口控制器，以向(一个或多个)处理器305中的至少一个和/或与系统控制模块310通信的任意适当的设备或组件提供任意适当的接口。

[0091] 系统控制模块310可包括存储器控制器模块330，以向系统存储器315提供接口。存储器控制器模块330可以是硬件模块、软件模块和/或固件模块。

[0092] 系统存储器315可被用于例如为系统300加载和存储数据和/或指令。对于一个实施例，系统存储器315可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，系统存储器315可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。

[0093] 对于一个实施例，系统控制模块310可包括一个或多个输入/输出(I/O)控制器，以向NVM/存储设备320及(一个或多个)通信接口325提供接口。

[0094] 例如，NVM/存储设备320可被用于存储数据和/或指令。NVM/存储设备320可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。

[0095] NVM/存储设备320可包括在物理上作为系统300被安装在其上的设备的一部分的存储资源，或者其可被该设备访问而不必作为该设备的一部分。例如，NVM/存储设备320可通过网络经由(一个或多个)通信接口325进行访问。

[0096] (一个或多个)通信接口325可为系统300提供接口以通过一个或多个网络和/或与任意其他适当的设备通信。系统300可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信。

[0097] 对于一个实施例，(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器(例如，存储器控制器模块330)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例，(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。

[0098] 在各个实施例中，系统300可以但不限于是：服务器、工作站、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中，系统300可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，系统300包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。

[0099] 显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

[0100] 需要注意的是，本发明可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

[0101] 另外，本发明的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本发明的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

[0102] 对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

[0103] 在权利要求书中规定了各个实施例的各个方面。在下列编号条款中规定了各个实施例的这些和其他方面：

[0104] 1.一种基于强化学习和规则确定驾驶策略的方法，其中，所述方法包括：

[0105] 基于车辆的驾驶参数信息，通过强化学习算法确定所述车辆的第一驾驶策略信息；

[0106] 基于所述驾驶参数信息及所述车辆的驾驶规则信息，对所述第一驾驶策略信息进行合理性检测；

[0107] 基于所述合理性检测的检测结果，确定所述车辆的目标驾驶策略信息。

[0108] 2.根据条款1所述的方法，其中，所述基于所述驾驶参数信息及所述车辆的驾驶规则信息，对所述第一驾驶策略信息进行合理性检测包括：

[0109] 基于所述驾驶参数信息及所述车辆的驾驶规则信息，确定所述车辆的第二驾驶策略信息；

[0110] 基于所述第二驾驶策略信息对所述第一驾驶策略信息进行合理性检测。

[0111] 3.根据条款2所述的方法，其中，所述基于所述合理性检测的检测结果，确定所述车辆的目标驾驶策略信息包括：

[0112] 若所述合理性检测的检测结果包括所述第二驾驶策略信息与所述第一驾驶策略信息的距离大于或等于预定阈值，将所述第二驾驶策略信息确定为所述车辆的目标驾驶策略信息。

[0113] 4.根据条款1所述的方法，其中，所述驾驶参数信息包括以下至少任一项：

[0114] 车辆的速度信息；

[0115] 车辆的偏离轨道方向信息；

[0116] 车辆与轨道中心线的距离信息；

[0117] 车辆与轨道边沿的距离信息；

[0118] 障碍物感知信息；

[0119] 交通标志感知信息。

[0120] 5.根据条款1所述的方法，其中，所述方法还包括：

[0121] 基于所述目标驾驶策略信息执行自动驾驶操作。

[0122] 6.根据条款1所述的方法，其中，所述方法还包括：

[0123] 基于所述合理性检测的检测结果，更新所述强化学习算法对应的回馈函数值。

[0124] 7.根据条款6所述的方法，其中，所述基于所述合理性检测的检测结果，更新所述强化学习算法对应的回馈函数值包括：

[0125] 若基于所述合理性检测的检测结果，确定的所述车辆的目标驾驶策略信息不包括第一驾驶策略信息，设置强化学习算法对应的回馈函数值为负数。

[0126] 8.一种基于强化学习和规则确定驾驶策略的设备，其中，所述方法包括：

[0127] 第一驾驶策略信息确定装置，用于基于车辆的驾驶参数信息，通过强化学习算法确定所述车辆的第一驾驶策略信息；

[0128] 检测装置，用于基于所述驾驶参数信息及所述车辆的驾驶规则信息，对所述第一驾驶策略信息进行合理性检测；

[0129] 目标驾驶策略信息确定装置，用于基于所述合理性检测的检测结果，确定所述车辆的目标驾驶策略信息。

[0130] 9.根据条款8所述的设备，其中，所述检测装置包括：

[0131] 第一单元，用于基于所述驾驶参数信息及所述车辆的驾驶规则信息，确定所述车辆的第二驾驶策略信息；

[0132] 第二单元，用于基于所述第二驾驶策略信息对所述第一驾驶策略信息进行合理性检测。

[0133] 10.根据条款9所述的设备，其中，所述目标驾驶策略信息确定装置用于：

[0134] 若所述合理性检测的检测结果包括所述第二驾驶策略信息与所述第一驾驶策略信息的距离大于或等于预定阈值，将所述第二驾驶策略信息确定为所述车辆的目标驾驶策略信息。

[0135] 11.根据条款8所述的设备，其中，所述驾驶参数信息包括以下至少任一项：

[0136] 车辆的速度信息；

[0137] 车辆的偏离轨道方向信息；

[0138] 车辆与轨道中心线的距离信息；

[0139] 车辆与轨道边沿的距离信息；

[0140] 障碍物感知信息；

[0141] 交通标志感知信息。

[0142] 12.根据条款8所述的设备，其中，所述设备还包括：

[0143] 执行装置，用于基于所述目标驾驶策略信息执行自动驾驶操作。

[0144] 13.根据条款8所述的设备，其中，所述设备还包括：

[0145] 更新装置，用于基于所述合理性检测的检测结果，更新所述强化学习算法对应的回馈函数值。

[0146] 14.根据条款13所述的设备，其中，所述更新装置用于：

[0147] 若基于所述合理性检测的检测结果，确定的所述车辆的目标驾驶策略信息不包括第一驾驶策略信息，设置强化学习算法对应的回馈函数值为负数。

[0148] 15.一种基于强化学习和规则确定驾驶策略的设备，包括：

[0149] 一个或多个处理器；

[0150] 存储器；以及

[0151] 一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如条款1-7中任一项所述的方法。

[0152] 16.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序可被处理器执行如条款1-7中任一项所述的方法。

标题	发布/更新时间	阅读量
一种基于路面学习的障碍物检测方法与装置	2020-05-11	270
一种中药组合物在制备治疗学习记忆障碍的药物中的应用	2020-05-13	229
一种改善学习记忆能力障碍的保健制剂的制备方法及用途	2020-05-13	261
一种基于在线学习的铁路障碍物检测方法	2020-05-11	497
染料木素衍生物在制备治疗学习记忆障碍疾病药中的应用	2020-05-13	206
用于治疗认知障碍及其他障碍的方法	2020-05-14	634
道路障碍物识别方法和装置	2020-05-15	812
用作血清素再摄取抑制剂的吲哚衍生物	2020-05-15	782
含有水芹菜提取物作为有效成分的学习能力或记忆力障碍预防或治疗用组合物及其制造方法	2020-05-14	163
一种基于深度学习的无人驾驶汽车障碍物识别检测方法	2020-05-12	447

一种基于强化学习和规则确定驾驶策略的方法与设备

一种基于强化学习和规则确定驾驶策略的方法与设备

技术领域

背景技术

具体实施方式

该功能需要专业版企业版VIP权限，您可以：