专利汇可以提供基于随机微分方程的连续性强化学习模型构造系统及方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于随机微分方程的连续性 强化学习 模型构造系统及方法,包括动作微分构造模 块 、环境状态微分构造模块、 基础 模型存在性检验模块、基础模型构造模块、值估计器构造模块、环境状态估计器构造模块和动作策略生成器构造模块;值估计器构造模块包含值估计器优化函数构造模块、Q函数更新模块和未来奖励估计模块;环境状态估计器构造模块包含环境状态估计器优化函数构造模块、环境状态估计器优化器附加目标函数构造模块、未来环境状态预测模块和环境状态参数计算模块。应用本发明所构造得到的强化学习模型,能够实现对动作增量的计算,保证动作的连续性,并能够适用于连续物理系统的实际控制。,下面是基于随机微分方程的连续性强化学习模型构造系统及方法专利的具体信息内容。
1.一种基于随机微分方程的连续性强化学习模型构造系统,其特征在于,包括动作微分构造模块(1),环境状态微分构造模块(2),基础模型存在性检验模块(3),基础模型构造模块(4),值估计器构造模块(5),环境状态估计器构造模块(6)和动作策略生成器构造模块(7);
所述动作微分构造模块(1)用于构造动作的微分形式;
所述环境状态微分构造模块(2)用于构造环境状态的微分形式;
所述基础模型构造模块(4)包含F函数构造子模块(41)、G函数构造子模块(42),动作环境组合微分构造子模块(43),分别用于构造F函数 G函数 以及生成
用于强化学习的基础模型dYt;
所述基础模型存在性检验模块(3)用于检验所构造基础模型的唯一性和存在性;
所述值估计器构造模块(5)包含值估计器优化函数构造模块(51),Q函数更新模块(52)和未来奖励估计模块(53),用于构造值估计器的优化函数JQ(θ),更新Q函数并计算输出未来奖励估计值;
所述环境状态估计器构造模块(6)包含环境状态估计器优化函数构造模块(61),环境状态估计器优化器附加目标函数构造模块(62),未来环境状态预测模块(63)和环境状态参数计算模块(64),用于环境状态估计器优化器目标函数JE(θp)的构造,环境状态估计器优化器附加目标函数J′E(θp)的构造以及未来环境状态值s′k的预测和θp计算;
所述动作策略生成器构造模块(7)包含动作增量计算模块(71),下一步动作计算模块(72),下一步环境动作状态构造模块(73),动作策略生成器优化器目标函数构造模块(74)和动作参数计算模块(75),用于动作策略生成器优化函数的构造,当前动作增量Δak计算,下一步动作值ak+1计算以及下一步环境动作状态Yk+1的生成。
2.根据权利要求1所述的一种基于随机微分方程的连续性强化学习模型构造系统,其特征在于,所述基础模型存在性检验模块(3),其具体检验条件如下:
(i)
(ii)
判断F函数 G函数 是否同时满足上述检验条件;若满足条件,则
基础模型构造模块(4)生成的基础模型唯一存在;若不满足,则基础模型构造模块(4)生成的基础模型不是唯一存在的。
3.根据权利要求1所述的一种基于随机微分方程的连续性强化学习模型构造系统,其特征在于,所述值估计器优化函数构造模块(51),包括随机微分方程特征算子构造子模块(511),二阶椭圆随机偏微分算子构造子模块(512),值估器优化函数构造子模块(513),Q函数约束子模块(514)和Q函数存在性验证模块(515);
所述值估计器优化函数构造模块(51)的工作方法包括以下步骤:
步骤a1,将所述F函数构造子模块构造(41)的F函数 与所述G函数构造子模块(42)构造的G函数 输入至随机微分方程特征算子构造子模块(511),随机微分方程特征算子构造子模块(511)构造得到随机微分方程特征算子AY并输出;
步骤a2,将步骤a1中的随机微分方程特征算子AY输入至二阶椭圆随机偏微分算子构造子模块(512),二阶椭圆随机偏微分算子构造子模块(512)生成二阶椭圆随机偏微分算子LY并输出;
步骤a3,将折扣率γ输入至Q函数约束子模块(514),并与Q函数存在性验证模块(515)共同得到及输出存在的Q函数;
步骤a4,将步骤a2得到的二阶椭圆随机偏微分算子LY和步骤a3中得到的Q函数同时输入至值估计器优化函数构造子模块(513)生成值估计器优化函数JQ(θ)。
4.根据权利要求3所述的一种基于随机微分方程的连续性强化学习模型构造系统,其特征在于,所述随机微分方程特征算子构造子模块(511),其具体构造方法为:
所述二阶椭圆随机偏微分算子构造子模块(512),其具体构造方法为:
所述值估器优化函数构造子模块(513),其具体构造方法为:
JQ(θ)=(LYQθ(s,a)+Ey[r])2。
5.根据权利要求1所述的一种基于随机微分方程的连续性强化学习模型构造系统,其特征在于,所述环境状态估计器优化函数构造模块(61)包括u函数构造子模块(611),θp估计函数构造模块(612)和环境状态估计器优化函数构造子模块(613);所述环境状态估计器附加优化函数构造模块(62),包括环境状态估计器附加优化函数构造子模块(621),附加优化函数简化模块(622)和环境状态估计器附加优化函数输出模块(623);
所述环境状态估计器优化函数构造模块(61)的工作方法包括以下步骤:
步骤b1,将环境动作状态Yt和基础模型dYt输入至u函数构造子模块(611),u函数构造子模块(611)构造出u函数;
步骤b2,将步骤b1输出的u函数输入至θp估计函数构造模块(612),θp估计函数构造模块(612)生成θp估计函数;
步骤b3,将步骤b2中生成的θp估计函数输入至环境状态估计器优化函数构造子模块(613),环境状态估计器优化函数构造子模块(613)构造出环境状态估计器优化函数并输出。
6.根据权利要求5所述的一种基于随机微分方程的连续性强化学习模型构造系统,其特征在于,所述环境状态估计器附加优化函数构造模块(62),其工作方法包括以下步骤:
步骤c1,将环境动作状态Yt和基础模型输入至环境状态估计器附加优化函数构造模块(621),环境状态估计器附加优化函数构造模块(621)生成环境状态估计器附加优化函数;
步骤c2,对步骤c1生成的环境状态估计器附加优化函数,判断其是否达到忽略方差项的条件,若达到则进入附加函数简化模块(622)对环境状态估计器附加优化函数进行简化并输出,若未达到则直接输出。
7.根据权利要求5或6所述的一种基于随机微分方程的连续性强化学习模型构造系统,其特征在于,所述u函数构造子模块(611)的具体构造方法为:
所述环境状态估计器优化函数构造子模块(613),其具体构造方法为:
所述环境状态估计器附加优化函数构造子模块(621),其具体构造方法为:
所述附加优化函数简化模块(622),其具体简化方法为:
8.根据权利要求1所述的一种基于随机微分方程的连续性强化学习模型构造系统,其特征在于,所述动作策略生成器优化函数构造模块(74),包括随机微分方程特征算子构造子模块(741),动作策略生成器优化函数构造子模块(742),动作策略生成器优化函数简化子模块(743)和动作策略生成器优化函数输出子模块(744);
所述动作策略生成器优化函数构造模块(74)的工作方法包括以下步骤:
步骤d1,将基础模型构造模块(4)输出的F函数 G函数 和环境动
作状态Yk输入至随机微分方程特征算子构造子模块(741)构造随机微分方程特征算子AY并输出;
步骤d2,将步骤d1构造得到的随机微分方程特征算子AY输入至动作策略生成器优化函数构造子模块(742)生成动作策略生成器优化函数J′A(θv)并输出;
步骤d3,判断动作策略生成器优化函数J′A(θv)是否达到忽略相关性小项条件,若达到则输入至动作策略生成器优化函数简化子模块(743)进行简化计算后输出,若未达到则直接输出动作策略生成器优化函数J′A(θv)。
9.权利要求8所述的一种基于随机微分方程的连续性强化学习模型构造系统,其特征在于,所述随机微分方程特征算子构造子模块(741)的构造方法为:
所述动作策略生成器优化函数构造子模块(742),其具体构造方法为:
所述动作策略生成器优化函数简化子模块(743),其简化计算方法为:
10.一种基于随机微分方程的连续性强化学习模型的构造方法,其特征在于,包括以下步骤:
步骤S1,将环境动作状态Yt=(st,at)输入至动作微分构造模块(1)和环境状态微分构造模块(2),环境状态微分构造模块(2)构造环境状态微分项并输出,动作微分构造模块(1)构造动作微分项并输出;
步骤S2,将步骤S1中输出的环境状态微分项以及动作微分项输入至基础模型构造模块(4),基础模型构造模块(4)构造得到F函数 G函数 和基础模型dYt并
输出;
步骤S3,将步骤S2中输出的F函数 G函数 基础模型dYt以及折扣
率γ输入至值估计器构造模块(5),值估计器优化函数构造模块(51)生成值估计器优化函数JQ(θ),并通过未来奖励值估计模块(53)计算得到未来奖励估计值,Q函数更新模块(52)根据生成的值估计器优化函数JQ(θ)对Q函数进行更新;
步骤S4,将环境动作状态Yk=(sk,ak)和步骤S1输出的环境状态微分项输入至环境状态估计器构造模块(6),环境状态估计器优化函数构造模块(61)构造出环境状态估计器优化函数JE(θp),环境状态估计器附加优化函数构造模块(62)构造出附加优化函数J′E(θp);环境状态参数计算模块(64)根据构造出的环境状态估计器优化函数JE(θp)和环境状态估计器附加优化函数J′E(θp)计算得到环境参数θp并输出;未来环境状态预测模块(63)根据构造出的环境状态估计器优化函数JE(θp)和环境状态估计器附加优化函数J′E(θp)预测未来环境状态估计值;
步骤S5,将环境动作状态Yk=(sk,ak),步骤S2中输出的F函数 G函数
和基础模型dYt输入至动作策略生成器构造模块(7),动作策略生成器构造模块中的动作增量计算模块(71)依据输入的环境动作状态Yk=(sk,ak)计算得到动作增量Δak,下一步动作模块(72)依据动作增量计算模块(71)计算得到的动作增量和当前动作ak计算得到下一步动作ak+1,动作策略动作生成器构造模块(7)中的策略生成器优化函数构造模块(74)依据输入的F函数 G函数 和基础模型dYt构造得到动作策略生
成器的优化函数J′A(θv),并输入至动作参数计算模块计算得到θv。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
用于控制或调节技术系统的方法 | 2020-05-12 | 965 |
一种基于多智能体Q学习的车载通信MAC层信道接入方法 | 2020-05-12 | 593 |
外呼系统的对话管理方法、系统、电子设备和存储介质 | 2020-05-08 | 955 |
一种基于λ-回报的异策略多智能体强化学习协作方法 | 2020-05-11 | 89 |
一种云计算环境下的虚拟集群自动伸缩方法 | 2020-05-12 | 609 |
一种多用户、多任务的移动边缘计算系统中可缓存的任务迁移方法 | 2020-05-12 | 393 |
基于强化学习和双线性卷积网络的车型识别方法 | 2020-05-11 | 740 |
一种多模态智能分析方法及系统 | 2020-05-12 | 447 |
基于改进直流潮流算法的电网无功潮流调整方法及装置 | 2020-05-12 | 141 |
视频摘要模型的训练方法、视频摘要生成方法及装置 | 2020-05-13 | 375 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。