首页 / 专利库 / 显示技术 / 虚拟现实 / 虚拟环境 / 一种基于深度强化学习的多agent避碰方法

一种基于深度强化学习的多agent避碰方法

阅读:663发布:2020-05-13

专利汇可以提供一种基于深度强化学习的多agent避碰方法专利检索,专利查询,专利分析的服务。并且本 发明 公开一种基于深度 强化学习 的多agent避碰方法,首先,对agent可 感知 区域的环境状态、agent状态、起始点信息、目标点信息、动作和奖励进行表达;然后,确定深度强化学习架构;最后采用基于近端策略优化的深度强化学习方法同时对多个场景进行训练,从而获取最优控制策略,使得agent能够成功躲避静态和动态障碍物,顺利到达目标点。本发明提不仅具有较好的逼真性和较强的通用性,还具有良好的扩展性,更大大提高了训练效率,缩短了训练时间;解决了传统的强化学习方法应用于避碰中状态和动作空间必须离散的问题,提高了传统 深度学习 方法的训练效率。,下面是一种基于深度强化学习的多agent避碰方法专利的具体信息内容。

1.一种基于深度强化学习的多agent避碰方法,其特征在于,包括以下步骤:
(1)在每一场景中,对agent可感知区域的环境状态、agent状态、起始点信息、目标点信息、动作和奖励进行表达;
(2)确定深度强化学习架构,该架构以agent的当前状态、可感知区域的虚拟环境状态和目标点信息作为输入,agent的动作作为输出;
(3)采用近端策略优化方法同时对多个场景进行训练,调整网络参数,获取共享策略,训练完成后,即可得到一条从起始点到目标点的无碰撞的路径。
2.根据权利要求1所述的一种基于深度强化学习的多agent避碰方法,其特征在于,所述步骤(1)包括以下步骤:
(11)设定agent可感知的最大视距为a米,最大视为b度,其中,0<a≤5,b≤220;具体描述为:以agent当前位置为参考,向前延伸c米,最大视角为以聚焦方向为对称轴,和两侧的夹角分别为b/2度;
(12)在感知范围内向不同方向发射射线进行采样,地形平坦无障碍物处采样为0,有障碍物处采样为1,将静态障碍物的状态表示为绝对位置pstatic,将动态障碍物的状态表示为绝对位置pdynamic和运动速度vdynamic;
(13)将agent的当前状态表征为C(pc,θc),其中,pc为agent当前状态下的位置,θc为agent当前状态下的朝向;将起始点信息表征为ps,即起始点的位置;将目标点信息表征为ptar,即目标点的位置;将agent的动作表征为A(ρa,θa),其中,ρa为agent的平移速度,θa为旋转速度;
(14)奖励函数设计如下:
R=rgoal+rapproach-(rc_static+rc_dynamic+rc_agents+rtime)
其中,rgoal为到达目标点所给奖励,rapproach为进一步接近目标点所给奖励,rc_xtatic为agent与静态障碍物碰撞所给惩罚,rc_dynamic为agent与动态障碍物碰撞所给惩罚,rc_agents为agent之间发生碰撞所给惩罚,rtime为agent到达目标点花费时间太多时所给惩罚。
3.根据权利要求1所述的一种基于深度强化学习的多agent避碰方法,其特征在于,所述步骤(2)包括以下步骤:
(21)分别为近端策略优化算法中的Actor和Critic构建结构相同的包括m层的深度卷积神经网络,该网络由若干卷积层和全连接层组成;
(22)agent可感知区域的虚拟环境状态首先通过一系列的卷积以及一个全连接层获得一个中间特征向量,然后结合agent的当前状态以及目标点信息再通过两层包含LSTM单元的隐藏层,最后经过一层线性变换输出agent的动作分布,值函数输出层为单一的线性单元。
4.根据权利要求1所述的一种基于深度强化学习的多agent避碰方法,其特征在于,所述步骤(3)包括以下步骤:
(31)对于每一个agent,采用同一策略πθ同时训练T时间步,以获取πθ{st,at,rt};采用广义优势估计算法估计优势
(32)采用随机梯度下降方法更新策略,即最大化
更新θ;
(33)采用时序差分方法更新值函数,即最小化 更新φ;
(34)重复步骤(31)至步骤(32),直到迭代达到最大步数或损失值小于给定阈值

说明书全文

一种基于深度强化学习的多agent避碰方法

技术领域

[0001] 本发明属于虚拟现实人工智能领域,具体涉及一种基于深度强化学习的多agent避碰方法。

背景技术

[0002] 路径规划是人类基本的行为能之一,是保证人类在现实生活中不与其他障碍物和个体发生碰撞,更好地向目标前进的关键。在虚拟人群仿真研究中,也应该体现这一基本行为特性,使得agent能够按照自然合理的路径运动,顺利到达目标位置。而真实有效地模拟路径规划行为,尤其是多agent的避碰行为,不仅能够提高agent的智能性,还能够为更高层的虚拟人群行为仿真提供基础
[0003] 基于人工势场法、速度障碍物方法、栅格的规则等传统的多agent避碰算法虽然对环境未知或者部分未知的情况具有较好的适应性,但是不能保证各agent顺利到达目标点,而且,若想获得很好的避碰效果,需要进行大量的参数调节;而基于强化学习的多agent避碰算法大多要求状态和动作空间必须离散,在规划路径的真实性方面还有待进一步提高,因此,本发明从提高规划路径的真实性和训练效率的度出发,研究基于深度强化学习的多agent避碰算法。通过本发明的研究,不仅能够为多agent找出从起始点到目标点的无碰撞的路径,而且无需对环境进行建模,还使得学习到的避碰策略能够广泛应用到更多场景成为可能。综上所述,研究基于深度强化学习的多agent避碰算法具有重要的理论意义和工程应用价值。

发明内容

[0004] 发明目的:本发明提供一种基于深度强化学习的多agent避碰方法,能够克服具有连续状态和动作空间的多agent强化学习所存在的维数灾难以及多agent深度强化学习训练时间长的问题,使得学习到的避碰策略能够广泛应用到更多场景。
[0005] 技术方案:本发明所述的一种基于深度强化学习的多agent避碰方法,包括以下步骤:
[0006] (1)在每一场景中,对agent可感知区域的环境状态、agent状态、起始点信息、目标点信息、动作和奖励进行表达;
[0007] (2)确定深度强化学习架构,该架构以agent的当前状态、可感知区域的虚拟环境状态和目标点信息作为输入,agent的动作作为输出;
[0008] (3)采用近端策略优化方法同时对多个场景进行训练,调整网络参数,获取共享策略,训练完成后,即可得到一条从起始点到目标点的无碰撞的路径。
[0009] 进一步地,所述步骤(1)包括以下步骤:
[0010] (11)设定agent可感知的最大视距为a米,最大视角为b度,其中,0
[0011] (12)在感知范围内向不同方向发射射线进行采样,地形平坦无障碍物处采样为0,有障碍物处采样为1,将静态障碍物的状态表示为绝对位置pstatic,将动态障碍物的状态表示为绝对位置pdynamic和运动速度vdynamic;
[0012] (13)将agent的当前状态表征为C(pc,θc),其中,pc为agent当前状态下的位置,θc为agent当前状态下的朝向;将起始点信息表征为ps,即起始点的位置;将目标点信息表征为ptar,即目标点的位置;将agent的动作表征为A(ρa,θa),其中,ρa为agent的平移速度,θa为旋转速度;
[0013] (14)奖励函数设计如下:
[0014] R=rgoal+rapproach-(rc_static+rc_dynamic+rc_agents+rtime)
[0015] 其中,rgoal为到达目标点所给奖励,rapproach为进一步接近目标点所给奖励,rc_static为agent与静态障碍物碰撞所给惩罚,rc_dynamic为agent与动态障碍物碰撞所给惩罚,rc_agents为agent之间发生碰撞所给惩罚,rtime为agent到达目标点花费时间太多时所给惩罚。
[0016] 进一步地,所述步骤(2)包括以下步骤:
[0017] (21)分别为近端策略优化算法中的Actor和Critic构建结构相同的包括m层的深度卷积神经网络,该网络由若干卷积层和全连接层组成;
[0018] (22)agent可感知区域的虚拟环境状态首先通过一系列的卷积以及一个全连接层获得一个中间特征向量,然后结合agent的当前状态以及目标点信息再通过两层包含LSTM单元的隐藏层,最后经过一层线性变换输出agent的动作分布,值函数输出层为单一的线性单元。
[0019] 进一步地,所述步骤(3)包括以下步骤:
[0020] (31)对于每一个agent,采用同一策略πθ同时训练T时间步,以获取πθ{st,at,rt};采用广义优势估计算法估计优势
[0021] (32)采用随机梯度下降方法更新策略,即最大化更新θ;
[0022] (33)采用时序差分方法更新值函数,即最小化更新φ;
[0023] (34)重复步骤(31)至步骤(32),直到迭代达到最大步数或损失值小于给定阈值
[0024] 有益效果:与现有技术相比,本发明的有益效果为:1、本发明不受应用场景和环境因素的限制,无需对环境进行建模即可为多agent的高层行为仿真提供技术手段,具有较强的通用性;2、解决了传统的强化学习在求解具有连续状态和动作空间的多agent避碰所出现的维数灾难问题,通过对多个场景同时训练,提高了训练的效率;3、通过训练共享策略使得该避碰策略可以广泛应用到更多场景,因此具有较好的可扩展性。附图说明
[0025] 图1为本发明的示意图;
[0026] 图2为本发明对agent可感知区域的环境信息和agent状态的示意图。

具体实施方式

[0027] 下面结合附图对本发明作进一步的详细说明。如图1所示,本发明具体包括以下步骤:
[0028] 1、在每一场景中,对agent可感知区域的环境状态、agent状态、起始点信息、目标点信息、动作和奖励进行表达。
[0029] 如图2所示,设定agent可感知的最大视距为a米,最大视角为b度,其中,0
[0030] 在感知范围内向不同方向发射射线进行采样,地形平坦无障碍物处采样为0,有障碍物处采样为1,将静态障碍物的状态表示为绝对位置pstatic,将动态障碍物的状态表示为绝对位置pdynamic和运动速度vdynamic。
[0031] 将agent的当前状态表征为C(pc,θc),其中,pc为agent当前状态下的位置,θc为agent当前状态下的朝向;将起始点信息表征为ps,即起始点的位置;将目标点信息表征为ptar,即目标点的位置;将agent的动作表征为A(ρa,θa),其中,ρa为agent的平移速度,θa为旋转速度。
[0032] 设计奖励函数如下:
[0033] R=rgoal+rapproach-(rc_static+rc_dynamic+rc_agents+rtime)
[0034] 其中,rgoal为到达目标点所给奖励,rapproach为进一步接近目标点所给奖励,rc_static为agent与静态障碍物碰撞所给惩罚,rc_dynamic为agent与动态障碍物碰撞所给惩罚,rc_agents为agent之间发生碰撞所给惩罚,rtime为agent到达目标点花费时间太多时所给惩罚。
[0035] 2、确定深度强化学习架构,该架构以agent的当前状态、可感知区域的虚拟环境状态和目标点信息作为输入,agent的动作作为输出;
[0036] 分别为近端策略优化(Proximal PolicyOptimization,PPO)算法中的Actor和Critic构建结构相同的包括m层的深度卷积神经网络,该网络由若干卷积层和全连接层组成。
[0037] agent可感知区域的虚拟环境状态首先通过一系列的卷积以及一个全连接层获得一个中间特征向量,然后结合agent的当前状态以及目标点信息再通过两层包含LSTM单元的隐藏层,最后经过一层线性变换输出agent的动作分布,值函数输出层为单一的线性单元。
[0038] 3、采用PPO方法同时对多个场景进行训练,调整网络参数,获取共享策略,训练完成后,即可得到一条从起始点到目标点的无碰撞的路径。
[0039] (1)对于每一个agent,采用同一策略πθ同时训练T时间步,以获取πθ{st,at,rt};采用GAE(GeneralizedAdvantage  Estimation,广义优势估计)估计优势
[0040] (2)采用随机梯度下降方法更新策略,即最大化更新θ。
[0041] (3)采用时序差分方法更新值函数,即最小化更新φ。
[0042] 重复步骤(1)至步骤(3),直到迭代达到最大步数或损失值小于给定阈值。
[0043] 以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈