专利汇可以提供一种基于多智能体强化学习的合作型智能体的学习方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种基于多智能体 强化学习 的合作型智能体的学习方法,步骤一:重置多个目标环境;步骤二:初始化策略网络πθ的模型参数θπ和全局信息预测网络fθ的模型参数θf;步骤三:在环境中对多环境中的多智能体以当前策略π进行 采样 ;每一步中,环境中的多个智能体共享同一状态,针对每个智能体对状态提取特征后作为模型输入的数据;步骤四:对模型参数θπ和θf进行更新;步骤五:直至模型收敛或达到最大步数。本发明在智能体处于合作关系的环境下更好地利用了全局特征信息,通过局部信息预测全局信息的模型令每个智能体学会 感知 局部信息与全局信息的联系,更好地协作;使得不同智能体得以直接共享模型参数,简化模型复杂度,提高效率。,下面是一种基于多智能体强化学习的合作型智能体的学习方法专利的具体信息内容。
1.一种基于多智能体强化学习的合作型智能体的学习方法,其特征在于,包括如下步骤:
步骤一:重置多个目标环境;
步骤二:初始化策略网络πθ的模型参数θπ和全局信息预测网络fθ的模型参数θf;
步骤三:以固定步数在环境中对多环境中的多智能体以当前策略π进行采样;每一步中,同一个环境ei中的多个智能体共享同一状态si,t,针对该状态提取全局特征si,t,global,并针对每个智能体对状态si,t提取局部特征si,t,local,两者合并得智能体特征si,t,comb后作为策略网络模型输入的数据;
步骤四:使用近端策略优化算法对策略网络πθ的模型参数θπ进行更新,算法的目标函数如下:
其中,si,t为环境ei中时刻t的状态,ai,t为智能体在环境ei中时刻t选择的动作,θ为当前模型的参数,θ′为采集数据的模型参数,A为优势函数;
同时,更新全局信息预测网络fθ的模型参数θf;
步骤五:重复步骤三和步骤四,直至模型收敛或达到最大步数。
2.根据权利要求1所述的一种基于多智能体强化学习的合作型智能体的学习方法,其特征在于,全局信息预测网络为通过局部信息进行预测全局信息预测的模型,与策略网络同时训练并共享策略网络参数,模型公式如下:
其中,si,t,global为环境ei中时刻t的全局状态特征;si,t,local为环境ei时刻t下当前智能体的局部状态特征; 为 的模型预测值;为从特征空间到编码向量
的前向模型。
3.根据权利要求2所述的一种基于多智能体强化学习的合作型智能体的学习方法,其特征在于,模型的损失函数如下:
其中,si,t,global为时刻t的全局状态特征;si,t,local为时刻t下当前智能体的局部状态特征; 为 的模型预测值;为从特征空间到编码向量的前向模型。
4.根据权利要求1所述的一种基于多智能体强化学习的合作型智能体的学习方法,其特征在于,在所述步骤三中,采样的方式为并行采样,采集数据时同时对多个环境中的处于合作关系的每个智能体进行采样。
5.根据权利要求4所述的一种基于多智能体强化学习的合作型智能体的学习方法,其特征在于,对每个环境中的智能体按设定的概率抽取一部分,只使用该部分智能体所收集的数据。
6.根据权利要求1所述的一种基于多智能体强化学习的合作型智能体的学习方法,其特征在于,对每个环境中的智能体同步进行状态特征提取,同时考虑全局信息和局部信息分别提取全局特征和局部特征,奖励设计也因此可根据各智能体所对应的不同局部状态特征针对单一智能体进行优化。
7.根据权利要求1所述的一种基于多智能体强化学习的合作型智能体的学习方法,其特征在于,采用梯度下降法更新全局信息预测网络fθ的模型参数θf。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种基于深度强化学习的机动通信网智能规划方法 | 2020-05-08 | 882 |
基于改进直流潮流算法的电网无功潮流调整方法及装置 | 2020-05-12 | 141 |
基于强化学习的机器学习模型预测时机估计模型 | 2020-05-11 | 139 |
一种基于λ-回报的异策略多智能体强化学习协作方法 | 2020-05-11 | 89 |
用于控制或调节技术系统的方法 | 2020-05-12 | 965 |
一种城市快速路智慧交通管控方法和系统 | 2020-05-13 | 694 |
神经网络的生成方法、生成装置和电子设备 | 2020-05-08 | 665 |
一种基于LeNet和SSD的点触式验证码自动识别方法 | 2020-05-11 | 42 |
一种多层级发电厂实时对标优化方法 | 2020-05-13 | 206 |
电子系统、非暂时性计算机可读记录媒体及计算装置 | 2020-05-13 | 732 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。