一种基于障碍区域扩张策略的强化学习路径规划方法专利检索-学习障碍认知障碍病理专利检索查询-专利查询网

一种基于障碍区域扩张策略的 强化学习路径规划方法

阅读：742发布：2020-05-12

专利汇可以提供一种基于障碍区域扩张策略的强化学习路径规划方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于障碍区域扩张策略的强化学习路径规划方法，属于路径规划方法技术领域。本发明的基于障碍区域扩张策略的强化学习路径规划方法，在使用强化学习方法进行路径规划时，学习的状态空间会随着环境的逐渐复杂变得庞大。本发明针对复杂环境下强化学习路径规划中智能体探索时间长，算法收敛速度慢的问题，对于环境中存在的凹形障碍区域，通过引入障碍区域扩张策略，既避免了智能体在探索环境时，陷入凹形障碍区域而反复徘徊的困境，同时，将障碍区域扩张后剔除，有效减小了强化学习中状态空间的维度，在明显少于传统方法的学习次数下规划出了最优路径。对于凹形障碍区域较多的地形，本发明提出的算法具有较大的优势。，下面是一种基于障碍区域扩张策略的强化学习路径规划方法专利的具体信息内容。

权利要求

1.一种基于障碍区域扩张策略的强化学习路径规划方法，其特征在于，包括以下步骤：
1)根据智能体所处的工作环境，确定影响路径规划的因素数据；
2)采集影响路径规划的因素数据并模糊分类，得到建立环境模型的基础数据；
3)基于模糊分类后的基础数据，采用栅格法建立环境模型；
4)基于环境模型中存在的凹形障碍区域，采用障碍区域扩张策略，得到环境模型中的障碍栅格；
5)在智能体所处的工作环境中通过试错学习来获得奖赏值，从而规划出一条奖赏值最高的路径。
2.根据权利要求1所述的基于障碍区域扩张策略的强化学习路径规划方法，其特征在于，步骤1)中影响路径规划的因素包括：
障碍物的位置、大小以及障碍区域两侧的高度。
3.根据权利要求1所述的基于障碍区域扩张策略的强化学习路径规划方法，其特征在于，步骤2)具体为：
步骤2.1)对采集到的因素数据进行离散化处理并模糊分类，得到建立环境模型的基础数据；
步骤2.2)根据基础数据的密集程度，通过隶属度函数对基础数据进行模糊分类，得到模糊分类后的观测数据。
4.根据权利要求3所述的基于障碍区域扩张策略的强化学习路径规划方法，其特征在于，步骤3)具体为：
步骤3.1)基于模糊分类后的观测数据，采用Q(λ)学习算法进行结构学习，获得一个网络结构；
步骤3.2)将所述网络结构转化成联接树结构。
5.根据权利要求4所述的基于障碍区域扩张策略的强化学习路径规划方法，其特征在于，所述步骤4)的具体步骤为：
步骤4.1)基于联接树结构中的数据波动，进行障碍关系的判断，若单侧遇到障碍物，转到步骤4.2)；若双侧遇到障碍物，转到步骤4.3)；
步骤4.2)单侧遇到障碍物，标记该障碍状态为inf，继续探索寻找目标点；
步骤4.3)双侧遇到障碍物，中断探索目标，开始进行障碍区域的扩张，将扩张后的障碍状态标记为inf，再进行探索目标点。
6.根据权利要求5所述的基于障碍区域扩张策略的强化学习路径规划方法，其特征在于，所述步骤5)具体为：
步骤5.1)初始化基础数据，将基础数据初始化到隶属度函数可用的数据，然后从起点到终点进行循环；
步骤5.2)根据标记的inf状态，更新地图环境；
步骤5.3)智能体从更新后的地图环境起点出发；
步骤5.4)获取智能体的当前状态的4个相邻状态的值，通过贪婪策略，找出最大值对应的动作，记录为原状态；
步骤5.5)获取智能体的下一个状态并通过Q(λ)算法更新相应的奖励值；其中，在该幕的学习中标记为inf的状态不再进行二次探索；
在下一幕学习之前更新环境，所有的inf状态不再进行Q值的迭代以及路径的规划；
若下一个状态上有障碍物，则返回奖励值-1，并标记障碍物状态为inf，同时执行障碍区域扩张策略；
若下一个状态上无障碍，则返回奖励值0，进入下一个状态；
然后通过Q(λ)算法更新相应的奖励值；
步骤5.6)判断智能体的当前位置是否为终点，若是，则进入步骤5.7)，否则，进入步骤
5.4)；
步骤5.7)判断当前学习次数是否满足设定的学习次数，若满足，则进入步骤5.8)；否则，进入步骤5.2)；
步骤5.8)寻路过程结束。

说明书全文

一种基于障碍区域扩张策略的强化学习路径规划方法

技术领域

[0001] 本发明属于路径规划方法技术领域，具体涉及一种基于障碍区域扩张策略的强化学习路径规划方法。

背景技术

[0002] 近年来，伴随着无人驾驶的兴起，机器人导航技术越来越受到人们的重视。路径规划作为机器人导航技术的一个重要研究方向，其定义为在具有障碍物的环境内，按照一定的评价标准，寻找一条从起始状态到达目标状态的无碰撞路径。传统的路径规划算法有人工势场法、遗传算法、蚁群优化算法等，但这些方法都需要在一个确定的空间内对环境进行建模，面对复杂多变的环境，存在一定的局限性。

[0003] 强化学习算法是近年来发展迅速的一种机器学习算法，并被广泛的应用于移动机器人路径规划，其优势在于不需要精确的环境模型，面对复杂的未知环境，减小了人为的对环境的建模工作。利用强化学习算法的机器人路径规划方法有Q-learning、Sarsa、Q(λ)、Sarsa(λ)等。这些经典的强化学习算法在进行路径规划时，也会随着环境的越来越复杂，导致学习的状态空间越来越庞大，造成智能体探索环境时间长、学习收敛速度慢。为减小状态空间维度，众多学者针对该问题也做了许多研究，文献提出了一种提取状态动作空间的方法，利用机器人的特点和环境来生成新的状态动作空间，从而减小了状态空间维度。文献通过建立神经网络，将强化学习算法和神经网络相结合，减小了状态空间维度。由于采用了函数逼近的方式，这两种减小状态空间维度的方法在一定程度上都会产生误差。

发明内容

[0004] 本发明的目的在于克服复杂未知环境下强化学习路径规划时状态空间庞大的缺点，提供一种基于障碍区域扩张策略的强化学习路径规划方法。

[0005] 为达到上述目的，本发明采用以下技术方案予以实现：

[0006] 一种基于障碍区域扩张策略的强化学习路径规划方法，包括以下步骤：

[0007] 1)根据智能体所处的工作环境，确定影响路径规划的因素数据；

[0008] 2)采集影响路径规划的因素数据并模糊分类，得到建立环境模型的基础数据；

[0009] 3)基于模糊分类后的基础数据，采用栅格法建立环境模型；

[0010] 4)基于环境模型中存在的凹形障碍区域，采用障碍区域扩张策略，得到环境模型中的障碍栅格；

[0011] 5)在智能体所处的工作环境中通过试错学习来获得奖赏值，从而规划出一条奖赏值最高的路径。

[0012] 进一步的，步骤1)中影响路径规划的因素包括：

[0013] 障碍物的位置、大小以及障碍区域两侧的高度。

[0014] 进一步的，步骤2)具体为：

[0015] 步骤2.1)对采集到的因素数据进行离散化处理并模糊分类，得到建立环境模型的基础数据；

[0016] 步骤2.2)根据基础数据的密集程度，通过隶属度函数对基础数据进行模糊分类，得到模糊分类后的观测数据。

[0017] 进一步的，步骤3)具体为：

[0018] 步骤3.1)基于模糊分类后的观测数据，采用Q(λ)学习算法进行结构学习，获得一个网络结构；

[0019] 步骤3.2)将所述网络结构转化成联接树结构。

[0020] 进一步的，所述步骤4)的具体步骤为：

[0021] 步骤4.1)基于联接树结构中的数据波动，进行障碍关系的判断，若单侧遇到障碍物，转到步骤4.2)；若双侧遇到障碍物，转到步骤4.3)；

[0022] 步骤4.2)单侧遇到障碍物，标记该障碍状态为inf，继续探索寻找目标点；

[0023] 步骤4.3)双侧遇到障碍物，中断探索目标，开始进行障碍区域的扩张，将扩张后的障碍状态标记为inf，再进行探索目标点。

[0024] 进一步的，所述步骤5)具体为：

[0025] 步骤5.1)初始化基础数据，将基础数据初始化到隶属度函数可用的数据，然后从起点到终点进行循环；

[0026] 步骤5.2)根据标记的inf状态，更新地图环境；

[0027] 步骤5.3)智能体从更新后的地图环境起点出发；

[0028] 步骤5.4)获取智能体的当前状态的4个相邻状态的值，通过贪婪策略，找出最大值对应的动作，记录为原状态；

[0029] 步骤5.5)获取智能体的下一个状态并通过Q(λ)算法更新相应的奖励值；其中，在该幕的学习中标记为inf的状态不再进行二次探索；

[0030] 在下一幕学习之前更新环境，所有的inf状态不再进行Q值的迭代以及路径的规划；

[0031] 若下一个状态上有障碍物，则返回奖励值-1，并标记障碍物状态为inf，同时执行障碍区域扩张策略；

[0032] 若下一个状态上无障碍，则返回奖励值0，进入下一个状态；

[0033] 然后通过Q(λ)算法更新相应的奖励值；

[0034] 步骤5.6)判断智能体的当前位置是否为终点，若是，则进入步骤5.7)，否则，进入步骤5.4)；

[0035] 步骤5.7)判断当前学习次数是否满足设定的学习次数，若满足，则进入步骤5.8)；否则，进入步骤5.2)；

[0036] 步骤5.8)寻路过程结束。

[0037] 与现有技术相比，本发明具有以下有益效果：

[0038] 本发明的基于障碍区域扩张策略的强化学习路径规划方法，针对复杂未知环境下强化学习路径规划时状态空间庞大的问题，考虑到环境中存在的凹形障碍物，通过引入障碍区域扩张(Obstacle Area Expansion,OAE)的思想，对凹形障碍物进行探索，避免智能体陷入凹形障碍区域造成大量无效动作，同时探索结束后对其扩张，在后续的强化学习中剔除扩张的区域，有效减小了学习的状态空间维度；在Q()学习算法的基础上，结合障碍区域扩张策略，提出了一种改进的OAE-Q(λ)路径规划方法，经过仿真验证，该方法能有效提高路径规划的收敛速度和学习效率，实现了移动机器人在未知环境下的路径规划。附图说明

[0039] 图1为经栅格法建立的环境模型，其中，图1(a)为实验环境，图1(b)栅格法环境模型；

[0040] 图2为路径规划结果，其中，图2(a)为OAE-Q(λ)算法规划出的最优路径，图2(b)为障碍区域扩张后的地图环境。

[0041] 图3为本发明的基于障碍区域扩张策略的强化学习路径规划方法中障碍区域扩张策略流程图；

[0042] 图4为本发明的基于障碍区域扩张策略的强化学习路径规划方法中路径规划流程图。

具体实施方式

[0043] 为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

[0044] 需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

[0045] 下面结合附图对本发明做进一步详细描述：

[0046] 障碍区域扩张策略的定义如下：

[0047] 定义1：智能体在横向上与障碍物的关系为Rx(x,y)，若Rx(x,y)>0表示智能体在处横向的相邻栅格有障碍；

[0048] 定义2：智能体在纵向上与障碍物的关系为Ry(x,y)，若Ry(x,y)>0表示智能体在处纵向的相邻栅格有障碍；

[0049] 定义3：智能体在横向和纵向上与障碍物的关系为Rxy(x,y)，若Rxy(x,y)>0表示智能体在处横向和纵向相邻栅格都有障碍。

[0050] OAE-Q(λ)学习算法的基本思想：智能体在复杂的未知环境中进行强化学习规划路径时，障碍物所处状态本就无法到达，在第一次探索到该障碍后，接下来的学习就不必再对该状态进行规划了，所以每次探索到障碍物后可将其从环境模型中剔除，依据这种思想提出障碍区域扩张策略：针对环境中存在的凹形障碍区域，对其内部状态标记为不可移动状态，扩张地图中的障碍区域。在后续学习中将原障碍状态以及扩张后的不可移动状态一起从环境模型中剔除，大大减小了强化学习的状态空间。

[0051] 采用Q(λ)学习算法(Q(λ)-learning algorithm)解决未知环境下的路径规划问题时，智能体在环境中通过不断试错学习来获得奖赏值，从而规划出一条奖赏值最高的最优路径。多步回溯Q(λ)学习在经典Q学习的基础上结合了瞬时差分算法多步回报的思想。资格迹的设计考虑了未来控制决策的影响，解决了延时强化学习的时间信度分配问题。因此，Q(λ)算法将值函数与资格迹相互结合。

[0052] 传统的Q学习值函数为：

[0053]

[0054] 式中：Q(s,a)为状态下s执行动作a对应的Q值；Q(s',a')为状态下s'执行动作a'对应的Q值；r为环境由状态s经过动作转移到状态s'后给出的立即强化信号，即奖励值；α和γ分别是学习率和折扣因子。

[0055] 引入资格迹后，Q(λ)学习迭代更新公式如式(2)所示：

[0056]

[0057] 式中：E(s,a)为资格迹，资格迹初始值都为0，当智能体经过某个状态时，此刻该状态的资格迹值为1，在执行后续动作时，资格迹E(s,a)中的值依据下式(3)衰减：

[0058] E(s,a)←γλE(s,a) (3)

[0059] 式中：λ为资格迹衰减因子，智能体每执行一次动作，状态s处的资格迹值就根据上式衰减一次。

[0060] 一种基于障碍区域扩张策略的强化学习路径规划方法，包括以下步骤：

[0061] 步骤1、确定影响路径规划的因素，影响路径规划的因素包括：障碍物的位置以及大小、障碍区域两侧高度；

[0062] 步骤2、采集影响路径规划的因素的数据并模糊分类，具体步骤为：

[0063] 步骤2.1、对采集到的数据离散化处理并模糊分类；

[0064] 步骤2.2、根据模糊分类的结果选择合适的隶属度函数，最后得到模糊分类后的观测数据；

[0065] 步骤3、采用栅格法建立环境模型，具体步骤为：

[0066] 步骤3.1、采用Q(λ)学习算法进行结构学习获得一个网络结构；

[0067] 步骤3.2、将所述网络结构转化成联接树的形式；

[0068] 步骤4、对于环境地图上存在的凹形障碍区域，采用障碍区域扩张策略，具体过程参见图3，图3为本发明的基于障碍区域扩张策略的强化学习路径规划方法中障碍区域扩张策略流程图，首先标记sus1，开始进行横向或者纵向搜索sus2，确认凹形障碍区域的存在；然后开始进行区域高度的搜索，找到sus3和sus4；接下来开始进行由底层逐层向外扩张，若凹形障碍区域内部未出现障碍、起点或终点，则扩展到sus3或sus4；若凹形障碍区域内出现障碍、起点或终点，则扩展到障碍物所在层的前一层；接着开始进行两侧逐层扩张，缩小障碍区域宽度；最终通过判断障碍区域顶层外是否有障碍，确定可扩展的区域；具体步骤为：

[0069] 步骤4.1、确认凹形障碍区域是否存在，若Rxy(x,y)>0，标记当前位置为sus1，开始进行横向搜索，并判断Ry(x,y)、Rxy(x,y)的值；若同时满足Rxy(x,y)>0和Ry(x,y)>0，则标记该位置为sus2，此时凹形障碍区域开口方向为纵向，标记sus1和sus2之间的栅格为susd；若出现Ry(x,y)<0，回到sus1开始进行纵向搜索，并判断Rx(x,y)、Rxy(x,y)的值，若同时满足Rxy(x,y)>0和Rx(x,y)>0，则标记该位置为sus2，此时凹形障碍区域开口方向为横向，标记sus1和sus2之间的栅格为susd；若出现Rx(x,y)<0，则该区域不是凹形障碍区域，扩张过程结束；

[0070] 步骤4.2、确定凹形障碍区域两侧高度，从sus2开始纵向搜索，判断Rx(x,y)和Rxy(x,y)，当Rx(x,y)<0，标记(x,y)前一时刻的位置为sus3，或当Rxy(x,y)>0，标记(x,y)为sus3。回到sus1点纵向搜索，判断Rx(x,y)和Rxy(x,y)，当Rx(x,y)<0，标记(x,y)前一时刻的位置为sus4，或当Rxy(x,y)>0，标记(x,y)为sus4。(若障碍区域开口方向为横向，则从sus2和sus1开始横向搜索，判断Ry(x,y)和Rxy(x,y))；

[0071] 步骤4.3、逐层由凹形区域底部向开口方向扩张，缩小深度，以susd为层单位依次向开口方向扩张一层。若该层内部未出现障碍物，则前一层标记的susd转为inf，该层栅格标记为susd，重复步骤4.3；若该层内部出现障碍物，则取消前一层susd，转步骤4.4；若该层内部出现起点或终点，将前一层susd转为inf，转步骤4.4；

[0072] 步骤4.4、逐层扩张凹形区域侧面，缩小宽度，分别以sus1到sus4和sus2到sus3的栅格为层单位依次扩张一层，并将其标记为susw。若该层内部未出现障碍物，则前一层标记的susw转为inf，该层栅格标记为susw，重复步骤4.4；

[0073] 若该层内部出现障碍物，则取消前一层susw，转步骤4.5；若该层内部出现起点或终点，将前一层susw转为inf，转步骤4.5；

[0074] 步骤4.5、判断扩张后的障碍区域顶层是否有障碍物，遍历顶层inf栅格，并判断Ry(x,y)，若存在Ry(x,y)>0，则取消以(x,y)为中心的三个相邻栅格的inf标记。(若障碍区域开口方向为横向，则判断Rx(x,y))；

[0075] 步骤4.6、确定可扩展的区域，地图环境中被标记为inf的栅格为可扩张区域。

[0076] 步骤5、在环境中通过不断试错学习来获得奖赏值，从而规划出一条奖赏值最高的最优路径，参见图4，图4为本发明的基于障碍区域扩张策略的强化学习路径规划方法中路径规划流程图，增加了对障碍区域判定的过程；具体步骤为：

[0077] 步骤5.1、初始化数据，开始从起点到终点进行循环；

[0078] 步骤5.2、根据标记的inf状态更新地图环境；

[0079] 步骤5.3、智能体从起点准备出发；

[0080] 步骤5.4、获取当前状态的4个相邻状态的值，通过贪婪策略，找出最大值对应的动作，记录原状态；

[0081] 步骤5.5、获取下一个状态和获得的奖励值，如果下一个状态上有障碍物，则返回奖励值-1，标记障碍物状态为inf，同时判断是否大于0，若，执行障碍区域扩张策略；如果下一个状态上无障碍，则返回奖励值0，进入下一个状态；如果下一个状态是终点，则返回奖励值1。然后通过算法更新相应的值；

[0082] 步骤5.6、判断当前位置是否是终点，若是，则进入步骤5.7，否则，进入步骤5.4；

[0083] 步骤5.7、判断当前学习次数是否满足设定的学习次数，若满足，则进入步骤8，否则，进入步骤2；

[0084] 步骤5.8、寻路过程结束。

[0085] 仿真实验结构分析：

[0086] 参见图1，图1为经栅格法建立的环境模型，其中，图1(a)为实验环境，实验环境为一个15*15的栅格世界，右下方的方块为智能体的起始点，左上方的方块为目标点，黑色区域为障碍物。环境中的障碍物和目标都是静态的，对智能体而言，环境(即障碍物、边界以及目标的位置)是未知的。图1(b)栅格法环境模型，以智能体为中心的二维空间内平均分布4个运动方向，代表上下左右4个可选动作，智能体上方区域为灰色，说明存在障碍物。

[0087] 在实验中，OAE-Q(λ)学习算法中学习效率，衰减率，资格迹衰减，贪婪策略中贪婪值，学习幕数设为500，奖赏函数如下式所示，

[0088]

[0089] 实验结果及分析：在上述设定的实验环境下，比较了Q(λ)算法和OAE-Q(λ)算法的收敛速度，本发明的OAE-Q(λ)算法能有效提高路径规划的收敛速度和学习效率。

[0090] 参见图2，图2为路径规划结果，其中，图2(a)为OAE-Q(λ)算法规划出的最优路径，图2(b)为障碍区域扩张后的地图环境，由图2(a)可见，第500幕时智能体所规划出的路径为最优路径，图2(b)为学习结束后的地图环境，图2(b)比图2(a)多出来的即为被扩张的凹形障碍区域，可以看出在剔除障碍区域后，原有的强化学习状态空间明显减少，保证了学习效率的提高，加入了障碍区域扩张策略的OAE-Q(λ)算法的收敛速度明显快于传统的Q(λ)算法。Q(λ)算法在进行路径规划时，前期的探索步数较多，花费时间较长，且在学习后期仍会出现较大波动，OAE-Q(λ)算法在250幕之后基本收敛，路径步数稳定在35到38步之间。在学习初期，智能体对环境的认知较少，传统的算法会使得智能体在陷入凹形障碍区域后耗费大量的步骤从中逃逸，且无法避免智能体在后续学习中不再陷入其中。障碍区域扩张策略的加入，既给出了智能体走出凹形障碍区域的方法，同时也避免了智能体二次进入障碍区域的局面。

[0091] 本发明的基于障碍区域扩张策略的强化学习路径规划方法，在使用强化学习方法进行路径规划时，学习的状态空间会随着环境的逐渐复杂变得庞大。本发明针对复杂环境下强化学习路径规划中智能体探索时间长，算法收敛速度慢的问题，对于环境中存在的凹形障碍区域，通过引入障碍区域扩张策略，既避免了智能体在探索环境时，陷入凹形障碍区域而反复徘徊的困境，同时，将障碍区域扩张后剔除，有效减小了强化学习中状态空间的维度，在明显少于传统方法的学习次数下规划出了最优路径。对于凹形障碍区域较多的地形，本发明提出的算法具有较大的优势。

[0092] 以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

标题	发布/更新时间	阅读量
一种基于路面学习的障碍物检测方法与装置	2020-05-11	270
一种基于在线学习的铁路障碍物检测方法	2020-05-11	497
一种治疗学习记忆障碍性疾病的药物组合物及其制备工艺和用途	2020-05-13	183
一种中药组合物在制备治疗学习记忆障碍的药物中的应用	2020-05-13	11
染料木素衍生物在制备治疗学习记忆障碍疾病药中的应用	2020-05-13	206
用作血清素再摄取抑制剂的吲哚衍生物	2020-05-15	885
一种基于深度学习的道路环境障碍物检测系统及方法	2020-05-11	107
一种基于双目视觉的深度学习障碍物测距方法	2020-05-11	92
一种基于在线学习的铁路障碍物检测方法	2020-05-11	244
心脑胶囊在制备学习记忆障碍改善药物中的应用	2020-05-12	244

一种基于障碍区域扩张策略的强化学习路径规划方法

一种基于障碍区域扩张策略的强化学习路径规划方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：