专利汇可以提供一种基于λ-回报的异策略多智能体强化学习协作方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于λ-回报的异策略多智能体 强化学习 协作方法,使用与Sarsa 算法 类似的更新规则来避免传统的基于值分解方法在训练阶段所依赖的中心化贪心假设,通过使用λ-回报来计算损失函数以平衡值函数估计的偏差和方差,并使用经验回放机制来降低算法的样本复杂度。本发明在非 马 尔可夫环境中较好的实现多个智能体的协作任务,为本领域的技术进步拓展了空间,实施效果好。,下面是一种基于λ-回报的异策略多智能体强化学习协作方法专利的具体信息内容。
1.一种基于λ-回报的异策略多智能体强化学习协作方法,其特征在于,包括以下步骤:
(1)使用类似Sarsa的更新规则来避免传统的基于值分解方法在训练阶段所依赖的中心化贪心假设;
(2)通过使用λ-回报来计算的损失函数以平衡值函数估计的偏差和方差;
(3)使用经验回放机制来降低算法的样本复杂度。
2.一种基于λ-回报的异策略多智能体强化学习协作方法,其特征在于,步骤(1)所述的中心化贪心假设通过以下公式实现:
其中,τ是历史轨迹,a是所有智能体的联合动作,Qtot(τ,a)为中心化的状态动作值函数,Qi为第i个智能体的状态动作值函数。
3.一种基于λ-回报的异策略多智能体强化学习协作方法,其特征在于,所述步骤(1)包括以下步骤:
(11)从时刻t=0开始,获取所有智能体的局部观测值 以及全局状态st,
根据智能体i的非中心化值函数Qi,使用∈-greedy策略选择其动作 接着在环境中执行联合动作at={a1,a2,…,aN},获得全局奖励rt+1,智能体i的下一个观测值 以及下一个全局状态st+1;如此反复,直至轨迹结束,得到一条完整的采样轨迹{s0,o0,a0,s1,o1,a1,r1,…,sT,oT,aT,rt};
(12)重复步骤(11)多次,采样足够多的轨迹,并将轨迹存储在经验池D中,如果经验池已满,则用新的轨迹取代旧的轨迹;
(13)从经验池中采样一个大小为b的批轨迹;
(14)根据批轨迹,计算λ-回报目标
(15)通过反向传播最小化损失函数;
(16)每采样完成100条轨迹后,将当前网络的参数复制到目标网络中。
4.根据权利要求3所述的一种基于λ-回报的异策略多智能体强化学习协作方法,其特征在于,所述步骤(14)包括以下步骤:
(141)计算从t时刻开始的n步回报:
其中,θ-为目标网络的参数,γ为奖励值的折扣因子,τ为历史观测,a为联合动作,rt为t时刻智能体得到的奖励值;
(142)根据n步回报,计算λ-回报
5.根据权利要求3所述的一种基于λ-回报的异策略多智能体强化学习协作方法,其特征在于,步骤(15)所述的最小化损失函数为:
其中, 为策略π的中心化状态动作值函数,b为批轨迹的大小。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种基于深度强化学习的Web服务组合方法 | 2020-05-08 | 838 |
基于随机微分方程的连续性强化学习模型构造系统及方法 | 2020-05-13 | 266 |
车门信息检测方法、装置、计算机设备和存储介质 | 2020-05-08 | 449 |
一种用辩证法研究钢琴教学的方法 | 2020-05-13 | 164 |
基于强化学习的波动鳍推进水下作业机器人追踪控制方法 | 2020-05-11 | 144 |
一种基于虚拟训练的机器人智能抓取方法 | 2020-05-11 | 765 |
一种电力信息通信设备自动化测试资源调度方法 | 2020-05-13 | 665 |
一种基于奖励反馈的智能蜜罐系统 | 2020-05-11 | 212 |
机位智能分配方法、计算机装置及存储介质 | 2020-05-11 | 387 |
一种多层级发电厂实时对标优化方法 | 2020-05-13 | 522 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。