首页 / 专利库 / 人工智能 / 机器学习 / 强化学习 / 一种基于多智能体强化学习的合作型智能体的学习方法

一种基于多智能体强化学习的合作型智能体的学习方法

阅读:1012发布:2020-05-30

专利汇可以提供一种基于多智能体强化学习的合作型智能体的学习方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种基于多智能体 强化学习 的合作型智能体的学习方法,步骤一:重置多个目标环境;步骤二:初始化策略网络πθ的模型参数θπ和全局信息预测网络fθ的模型参数θf;步骤三:在环境中对多环境中的多智能体以当前策略π进行 采样 ;每一步中,环境中的多个智能体共享同一状态,针对每个智能体对状态提取特征后作为模型输入的数据;步骤四:对模型参数θπ和θf进行更新;步骤五:直至模型收敛或达到最大步数。本发明在智能体处于合作关系的环境下更好地利用了全局特征信息,通过局部信息预测全局信息的模型令每个智能体学会 感知 局部信息与全局信息的联系,更好地协作;使得不同智能体得以直接共享模型参数,简化模型复杂度,提高效率。,下面是一种基于多智能体强化学习的合作型智能体的学习方法专利的具体信息内容。

1.一种基于多智能体强化学习的合作型智能体的学习方法,其特征在于,包括如下步骤:
步骤一:重置多个目标环境;
步骤二:初始化策略网络πθ的模型参数θπ和全局信息预测网络fθ的模型参数θf;
步骤三:以固定步数在环境中对多环境中的多智能体以当前策略π进行采样;每一步中,同一个环境ei中的多个智能体共享同一状态si,t,针对该状态提取全局特征si,t,global,并针对每个智能体对状态si,t提取局部特征si,t,local,两者合并得智能体特征si,t,comb后作为策略网络模型输入的数据;
步骤四:使用近端策略优化算法对策略网络πθ的模型参数θπ进行更新,算法的目标函数如下:
其中,si,t为环境ei中时刻t的状态,ai,t为智能体在环境ei中时刻t选择的动作,θ为当前模型的参数,θ′为采集数据的模型参数,A为优势函数;
同时,更新全局信息预测网络fθ的模型参数θf;
步骤五:重复步骤三和步骤四,直至模型收敛或达到最大步数。
2.根据权利要求1所述的一种基于多智能体强化学习的合作型智能体的学习方法,其特征在于,全局信息预测网络为通过局部信息进行预测全局信息预测的模型,与策略网络同时训练并共享策略网络参数,模型公式如下:
其中,si,t,global为环境ei中时刻t的全局状态特征;si,t,local为环境ei时刻t下当前智能体的局部状态特征; 为 的模型预测值;为从特征空间到编码向量
的前向模型。
3.根据权利要求2所述的一种基于多智能体强化学习的合作型智能体的学习方法,其特征在于,模型的损失函数如下:
其中,si,t,global为时刻t的全局状态特征;si,t,local为时刻t下当前智能体的局部状态特征; 为 的模型预测值;为从特征空间到编码向量的前向模型。
4.根据权利要求1所述的一种基于多智能体强化学习的合作型智能体的学习方法,其特征在于,在所述步骤三中,采样的方式为并行采样,采集数据时同时对多个环境中的处于合作关系的每个智能体进行采样。
5.根据权利要求4所述的一种基于多智能体强化学习的合作型智能体的学习方法,其特征在于,对每个环境中的智能体按设定的概率抽取一部分,只使用该部分智能体所收集的数据。
6.根据权利要求1所述的一种基于多智能体强化学习的合作型智能体的学习方法,其特征在于,对每个环境中的智能体同步进行状态特征提取,同时考虑全局信息和局部信息分别提取全局特征和局部特征,奖励设计也因此可根据各智能体所对应的不同局部状态特征针对单一智能体进行优化。
7.根据权利要求1所述的一种基于多智能体强化学习的合作型智能体的学习方法,其特征在于,采用梯度下降法更新全局信息预测网络fθ的模型参数θf。

说明书全文

一种基于多智能体强化学习的合作型智能体的学习方法

技术领域

[0001] 本发明涉及机器学习领域,更具体地,涉及一种基于多智能体强化学习的合作型智能体的学习方法。

背景技术

[0002] 强化学习是机器学习的一个子领域,目标是基于环境进行决策行动,从而获得最大收益。其中,强化学习通过引入深度学习技术来作为强化学习中学习值函数、策略的函数逼近方法,相比人工提取特征大大提高了端到端性能,从而解决了一系列传统强化学习未能解决的问题,比如在视频游戏上,深度强化学习甚至取得了超越人类平均平的表现。
[0003] 现有的强化学习方法已有较为成熟的体系,包括基于模型和无模型两大类,而更加常用的无模型方法中,则又分为同策略和异策略两类方法。但无论是哪种算法,大多都只限定适用于单智能体环境而往往无法直接应用到多智能体环境。这是由于多智能体环境引入的问题:每一个智能体都在学习改进的情况下,环境是不稳定的;而不同智能体之间的关系有很多种,包括完全竞争、完全合作以及处于两者之间的各种情况,智能体之间如何共享信息,能共享多少信息,根据具体场景不同会有不同的限制。
[0004] 已有的多智能体深度强化学习方法MADDPG是一个基于Actor-Critic框架的算法,提出集中训练、分散执行的思想,在训练Critic时加入了全局信息,而实际应用的Actor的输入只包含单个智能体的状态特征,从而突破了深度Q网络只能使用单一结构的网络的限制。
[0005] 在一些合作场景中,多智能体的状态信息往往是共享且共同行动的,现有技术MADDPG未特别关注这种情况,而仅考虑到在模型训练过程中利用共享信息,而未关注多智能体共同行动的特性,导致多智能体之间的协作性差的问题;而同样的,基于Actor-Critic的BiCNet虽然在训练和测试时都采用了完全的全局信息,但共享信息的方式为利用RNN网络,导致学习训练的效率低。

发明内容

[0006] 本发明为克服上述现有技术中多智能体在合作环境中协作性差和效率低的问题,提供一种基于多智能体强化学习的合作型智能体的学习方法,提高合作环境下多智能体的协作性和效率,强化智能体的性能。
[0007] 为解决上述技术问题,本发明采用的技术方案是:提供一种基于多智能体强化学习的合作型智能体的学习方法,包括以下步骤:
[0008] 步骤一:重置多个目标环境,该环境满足存在处于合作关系的多智能体共享信息、共同行动的特点;
[0009] 步骤二:初始化策略网络πθ的模型参数θπ和全局信息预测网络fθ的模型参数θf;
[0010] 步骤三:以固定步数在环境中对多环境中的多智能体以当前策略π进行采样;每一步中,环境ei中的多个智能体共享同一状态Si,t,针对该状态提取全局特征si,t,global,并针对每个智能体对状态si,t提取局部特征si,t,local,两者合并得智能体特征si,t,comb后作为策略网络模型输入的数据;
[0011] 步骤四:步骤四:使用近端策略优化算法对策略网络πθ的模型参数θπ进行更新,算法的目标函数如下:
[0012]
[0013] 其中,si,t为环境ei中时刻t的状态,ai,t为智能体在环境ei中时刻t选择的动作,θ为当前模型的参数,θ′为采集数据的模型参数,A为优势函数;
[0014] 同时,更新全局信息预测网络fθ的模型参数θf;
[0015] 步骤五:重复步骤三和步骤四,直至模型收敛或达到最大步数。
[0016] 优选的,全局信息预测网络为通过局部信息进行预测全局信息预测的模型,与策略网络同时训练并共享策略网络参数,模型公式如下:
[0017]
[0018] 其中,si,t,global为环境ei中时刻t的全局状态特征;si,t,local为环境ei时刻t下当前智能体的局部状态特征; 为 的模型预测值;为从特征空间到编码向量的前向模型。
[0019] 优选的,模型的损失函数如下:
[0020]
[0021] 其中,si,t,global为时刻t的全局状态特征;si,t,local为时刻t下当前智能体的局部状态特征; 为 的模型预测值;为从特征空间到编码向量的前向模型。
[0022] 优选的,在所述步骤三中,采样的方式为并行采样,采集数据时同时对多个环境中的处于合作关系的每个智能体进行采样。
[0023] 优选的,对每个环境中的智能体按设定的概率抽取一部分,只使用该部分智能体所收集的数据,可以提高利用数据的效率。
[0024] 优选的,对每个环境中的智能体同步进行状态特征提取对每个环境中的智能体同步进行状态特征提取,同时考虑全局信息和局部信息分别提取全局特征和局部特征,奖励设计也因此可根据各智能体所对应的不同局部状态特征针对单一智能体进行优化。
[0025] 优选的,采用梯度下降法更新全局信息预测网络fθ的模型参数θf。
[0026] 与现有技术相比,本发明的有益效果是:
[0027] 1、本发明在智能体处于合作关系的环境下更好地利用了全局特征信息,不仅在训练时使用全局信息,在应用时也能提供全局信息给处于合作关系、共同行动的智能体;
[0028] 2、通过局部信息预测全局信息的模型令每个智能体学会感知局部信息与全局信息的联系,更好地协作;
[0029] 3、对每一个智能体有针对地进行特征提取,全局信息降低了训练过程中的方差,而同时多对局并行训练则降低了由于多个智能体处于同一对局带来的偏差,使模型训练更加稳定。
[0030] 4、不需使用RNN,通过多局并行采样方式泛化模型表现性能,使得不同智能体得以直接共享模型参数,简化模型复杂度,提高效率。
[0031] 5、使用属于同策略算法的近端策略优化算法代替异策略算法,更加适用于不断变化的多智能体环境;
[0032] 6、使用属于策略梯度算法的近端策略优化算法,解决经验回放方法不适用于多智能体导致的不稳定环境的问题。附图说明
[0033] 图1是本发明的一种基于多智能体强化学习的合作型智能体的学习方法的流程图
[0034] 图2是本发明的一种基于多智能体强化学习的合作型智能体的训练框架图;
[0035] 图3是本发明的一种基于多智能体强化学习的合作型智能体的学习方法的策略网络与预测网络共享参数图。

具体实施方式

[0036] 附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本专利的限制。
[0037] 下面通过具体实施例,并结合附图,对本发明的技术方案作进一步的具体描述:
[0038] 实施例
[0039] 如图1-3所示为一种基于多智能体强化学习的合作型智能体的学习方法的是实施例,包括以下步骤:
[0040] 步骤一:重置多个目标环境,该环境满足存在处于合作关系的多智能体共享信息、共同行动的特点;
[0041] 步骤二:初始化策略网络πθ的模型参数θπ和全局信息预测网络fθ的模型参数θf;
[0042] 步骤三:以固定步数在环境中对多环境中的多智能体以当前策略π进行并行采样;每一步中,环境ei中的多个智能体共享同一状态Si,t,针对该状态提取全局特征si,t,global,并针对每个智能体对状态si,t提取局部特征,两者合并得智能体特征si,t,comb后作为策略网络模型输入的数据;
[0043] 每个环境中的智能体按设定的概率抽取一部分,只使用该部分智能体所收集的数据;
[0044] 步骤四:使用近端策略优化算法对策略网络πθ的模型参数θπ进行更新,算法的目标函数如下:
[0045]
[0046] 其中,si,t为环境ei中时刻t的状态,ai,t为智能体在环境ei中时刻t选择的动作,θ为当前模型的参数,θ′为采集数据的模型参数,A为优势函数;
[0047] 同时,采用梯度下降法更新全局信息预测网络fθ的模型参数θf;
[0048] 步骤五:重复步骤三和步骤四,直至模型收敛或达到最大步数。
[0049] 具体的,全局信息预测网络为通过局部信息进行预测全局信息预测的模型,与策略网络同时训练并共享策略网络参数,模型公式如下:
[0050]
[0051] 其中,si,t,global为环境ei中时刻t的全局状态特征;si,t,local为环境ei时刻t下当前智能体的局部状态特征; 为 的模型预测值;为从特征空间到编码向量的前向模型。
[0052] 模型的损失函数为:
[0053]
[0054] 其中,si,t,global为时刻t的全局状态特征;si,t,local为时刻t下当前智能体的局部状态特征; 为 的模型预测值;为从特征空间到编码向量的前向模型。
[0055] 进一步的,对每个环境中的智能体同步进行状态特征提取对每个环境中的智能体同步进行状态特征提取,同时考虑全局信息和局部信息分别提取全局特征和局部特征,奖励设计也因此可根据各智能体所对应的不同局部状态特征针对单一智能体进行优化。
[0056] 本实施例的有益效果:
[0057] 1、本发明在智能体处于合作关系的环境下更好地利用了全局特征信息,不仅在训练时使用全局信息,在应用时也能提供全局信息给处于合作关系、共同行动的智能体;
[0058] 2、通过局部信息预测全局信息的模型令每个智能体学会感知局部信息与全局信息的联系,更好地协作;
[0059] 3、对每一个智能体有针对地进行特征提取,全局信息降低了训练过程中的方差,而同时多对局并行训练则降低了由于多个智能体处于同一对局带来的偏差,使模型训练更加稳定。
[0060] 4、不需使用RNN,通过多局并行采样方式泛化模型表现性能,使得不同智能体得以直接共享模型参数,简化模型复杂度,提高效率。
[0061] 5、使用属于策略梯度算法的近端策略优化算法,解决经验回放方法不适用于多智能体导致的不稳定环境的问题。
[0062] 显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈