专利汇可以提供一种基于深度强化学习的多agent避碰方法专利检索,专利查询,专利分析的服务。并且本 发明 公开一种基于深度 强化学习 的多agent避碰方法,首先,对agent可 感知 区域的环境状态、agent状态、起始点信息、目标点信息、动作和奖励进行表达;然后,确定深度强化学习架构;最后采用基于近端策略优化的深度强化学习方法同时对多个场景进行训练,从而获取最优控制策略,使得agent能够成功躲避静态和动态障碍物,顺利到达目标点。本发明提不仅具有较好的逼真性和较强的通用性,还具有良好的扩展性,更大大提高了训练效率,缩短了训练时间;解决了传统的强化学习方法应用于避碰中状态和动作空间必须离散的问题,提高了传统 深度学习 方法的训练效率。,下面是一种基于深度强化学习的多agent避碰方法专利的具体信息内容。
1.一种基于深度强化学习的多agent避碰方法,其特征在于,包括以下步骤:
(1)在每一场景中,对agent可感知区域的环境状态、agent状态、起始点信息、目标点信息、动作和奖励进行表达;
(2)确定深度强化学习架构,该架构以agent的当前状态、可感知区域的虚拟环境状态和目标点信息作为输入,agent的动作作为输出;
(3)采用近端策略优化方法同时对多个场景进行训练,调整网络参数,获取共享策略,训练完成后,即可得到一条从起始点到目标点的无碰撞的路径。
2.根据权利要求1所述的一种基于深度强化学习的多agent避碰方法,其特征在于,所述步骤(1)包括以下步骤:
(11)设定agent可感知的最大视距为a米,最大视角为b度,其中,0<a≤5,b≤220;具体描述为:以agent当前位置为参考,向前延伸c米,最大视角为以聚焦方向为对称轴,和两侧的夹角分别为b/2度;
(12)在感知范围内向不同方向发射射线进行采样,地形平坦无障碍物处采样为0,有障碍物处采样为1,将静态障碍物的状态表示为绝对位置pstatic,将动态障碍物的状态表示为绝对位置pdynamic和运动速度vdynamic;
(13)将agent的当前状态表征为C(pc,θc),其中,pc为agent当前状态下的位置,θc为agent当前状态下的朝向;将起始点信息表征为ps,即起始点的位置;将目标点信息表征为ptar,即目标点的位置;将agent的动作表征为A(ρa,θa),其中,ρa为agent的平移速度,θa为旋转速度;
(14)奖励函数设计如下:
R=rgoal+rapproach-(rc_static+rc_dynamic+rc_agents+rtime)
其中,rgoal为到达目标点所给奖励,rapproach为进一步接近目标点所给奖励,rc_xtatic为agent与静态障碍物碰撞所给惩罚,rc_dynamic为agent与动态障碍物碰撞所给惩罚,rc_agents为agent之间发生碰撞所给惩罚,rtime为agent到达目标点花费时间太多时所给惩罚。
3.根据权利要求1所述的一种基于深度强化学习的多agent避碰方法,其特征在于,所述步骤(2)包括以下步骤:
(21)分别为近端策略优化算法中的Actor和Critic构建结构相同的包括m层的深度卷积神经网络,该网络由若干卷积层和全连接层组成;
(22)agent可感知区域的虚拟环境状态首先通过一系列的卷积以及一个全连接层获得一个中间特征向量,然后结合agent的当前状态以及目标点信息再通过两层包含LSTM单元的隐藏层,最后经过一层线性变换输出agent的动作分布,值函数输出层为单一的线性单元。
4.根据权利要求1所述的一种基于深度强化学习的多agent避碰方法,其特征在于,所述步骤(3)包括以下步骤:
(31)对于每一个agent,采用同一策略πθ同时训练T时间步,以获取πθ{st,at,rt};采用广义优势估计算法估计优势
(32)采用随机梯度下降方法更新策略,即最大化
更新θ;
(33)采用时序差分方法更新值函数,即最小化 更新φ;
(34)重复步骤(31)至步骤(32),直到迭代达到最大步数或损失值小于给定阈值。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
基于光线追踪技术的航空遥感成像几何变形仿真方法 | 2021-08-05 | 9 |
用于显示图像的方法、设备和计算机程序 | 2020-09-20 | 9 |
Running add-on components in virtual environments | 2021-04-01 | 5 |
Musical action response system | 2021-06-02 | 1 |
SYSTEMS AND METHODS OF MANAGING VIRTUAL WORLD AVATARS | 2021-06-02 | 2 |
VOXEL BASED THREE DIMENSIONAL VIRTUAL ENVIROMENTS | 2021-08-19 | 0 |
Driving simulation apparatus, wide-angle camera video simulation apparatus, and image deforming/compositing apparatus | 2021-02-19 | 7 |
Participant interaction with entertainment in real and virtual environments | 2022-01-25 | 5 |
METHOD AND APPARATUS FOR A VIRTUAL IMAGE WORLD | 2021-09-19 | 9 |
SYSTEM AND METHOD FOR DISPLAYING CURRENT IMAGES OF VIRTUAL MACHINE ENVIRONMENTS | 2022-01-18 | 5 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。