基于随机微分方程的连续性强化学习模型构造系统及方法专利检索-强化学习机器学习人工智能专利检索查询-专利查询网

基于随机微分方程的连续性 强化学习模型构造系统及方法

阅读：26发布：2020-05-13

专利汇可以提供基于随机微分方程的连续性强化学习模型构造系统及方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于随机微分方程的连续性强化学习模型构造系统及方法，包括动作微分构造模块、环境状态微分构造模块、基础模型存在性检验模块、基础模型构造模块、值估计器构造模块、环境状态估计器构造模块和动作策略生成器构造模块；值估计器构造模块包含值估计器优化函数构造模块、Q函数更新模块和未来奖励估计模块；环境状态估计器构造模块包含环境状态估计器优化函数构造模块、环境状态估计器优化器附加目标函数构造模块、未来环境状态预测模块和环境状态参数计算模块。应用本发明所构造得到的强化学习模型，能够实现对动作增量的计算，保证动作的连续性，并能够适用于连续物理系统的实际控制。，下面是基于随机微分方程的连续性强化学习模型构造系统及方法专利的具体信息内容。

权利要求

1.一种基于随机微分方程的连续性强化学习模型构造系统，其特征在于，包括动作微分构造模块(1)，环境状态微分构造模块(2)，基础模型存在性检验模块(3)，基础模型构造模块(4)，值估计器构造模块(5)，环境状态估计器构造模块(6)和动作策略生成器构造模块(7)；
所述动作微分构造模块(1)用于构造动作的微分形式；
所述环境状态微分构造模块(2)用于构造环境状态的微分形式；
所述基础模型构造模块(4)包含F函数构造子模块(41)、G函数构造子模块(42)，动作环境组合微分构造子模块(43)，分别用于构造F函数 G函数以及生成
用于强化学习的基础模型dYt；
所述基础模型存在性检验模块(3)用于检验所构造基础模型的唯一性和存在性；
所述值估计器构造模块(5)包含值估计器优化函数构造模块(51)，Q函数更新模块(52)和未来奖励估计模块(53)，用于构造值估计器的优化函数JQ(θ)，更新Q函数并计算输出未来奖励估计值；
所述环境状态估计器构造模块(6)包含环境状态估计器优化函数构造模块(61)，环境状态估计器优化器附加目标函数构造模块(62)，未来环境状态预测模块(63)和环境状态参数计算模块(64)，用于环境状态估计器优化器目标函数JE(θp)的构造，环境状态估计器优化器附加目标函数J′E(θp)的构造以及未来环境状态值s′k的预测和θp计算；
所述动作策略生成器构造模块(7)包含动作增量计算模块(71)，下一步动作计算模块(72)，下一步环境动作状态构造模块(73)，动作策略生成器优化器目标函数构造模块(74)和动作参数计算模块(75)，用于动作策略生成器优化函数的构造，当前动作增量Δak计算，下一步动作值ak+1计算以及下一步环境动作状态Yk+1的生成。
2.根据权利要求1所述的一种基于随机微分方程的连续性强化学习模型构造系统，其特征在于，所述基础模型存在性检验模块(3)，其具体检验条件如下：
(i)
(ii)
判断F函数 G函数是否同时满足上述检验条件；若满足条件，则
基础模型构造模块(4)生成的基础模型唯一存在；若不满足，则基础模型构造模块(4)生成的基础模型不是唯一存在的。
3.根据权利要求1所述的一种基于随机微分方程的连续性强化学习模型构造系统，其特征在于，所述值估计器优化函数构造模块(51)，包括随机微分方程特征算子构造子模块(511)，二阶椭圆随机偏微分算子构造子模块(512)，值估器优化函数构造子模块(513)，Q函数约束子模块(514)和Q函数存在性验证模块(515)；
所述值估计器优化函数构造模块(51)的工作方法包括以下步骤：
步骤a1，将所述F函数构造子模块构造(41)的F函数与所述G函数构造子模块(42)构造的G函数输入至随机微分方程特征算子构造子模块(511)，随机微分方程特征算子构造子模块(511)构造得到随机微分方程特征算子AY并输出；
步骤a2，将步骤a1中的随机微分方程特征算子AY输入至二阶椭圆随机偏微分算子构造子模块(512)，二阶椭圆随机偏微分算子构造子模块(512)生成二阶椭圆随机偏微分算子LY并输出；
步骤a3，将折扣率γ输入至Q函数约束子模块(514)，并与Q函数存在性验证模块(515)共同得到及输出存在的Q函数；
步骤a4，将步骤a2得到的二阶椭圆随机偏微分算子LY和步骤a3中得到的Q函数同时输入至值估计器优化函数构造子模块(513)生成值估计器优化函数JQ(θ)。
4.根据权利要求3所述的一种基于随机微分方程的连续性强化学习模型构造系统，其特征在于，所述随机微分方程特征算子构造子模块(511)，其具体构造方法为：
所述二阶椭圆随机偏微分算子构造子模块(512)，其具体构造方法为：
所述值估器优化函数构造子模块(513)，其具体构造方法为：
JQ(θ)＝(LYQθ(s,a)+Ey[r])2。
5.根据权利要求1所述的一种基于随机微分方程的连续性强化学习模型构造系统，其特征在于，所述环境状态估计器优化函数构造模块(61)包括u函数构造子模块(611)，θp估计函数构造模块(612)和环境状态估计器优化函数构造子模块(613)；所述环境状态估计器附加优化函数构造模块(62)，包括环境状态估计器附加优化函数构造子模块(621)，附加优化函数简化模块(622)和环境状态估计器附加优化函数输出模块(623)；
所述环境状态估计器优化函数构造模块(61)的工作方法包括以下步骤：
步骤b1，将环境动作状态Yt和基础模型dYt输入至u函数构造子模块(611)，u函数构造子模块(611)构造出u函数；
步骤b2，将步骤b1输出的u函数输入至θp估计函数构造模块(612)，θp估计函数构造模块(612)生成θp估计函数；
步骤b3，将步骤b2中生成的θp估计函数输入至环境状态估计器优化函数构造子模块(613)，环境状态估计器优化函数构造子模块(613)构造出环境状态估计器优化函数并输出。
6.根据权利要求5所述的一种基于随机微分方程的连续性强化学习模型构造系统，其特征在于，所述环境状态估计器附加优化函数构造模块(62)，其工作方法包括以下步骤：
步骤c1，将环境动作状态Yt和基础模型输入至环境状态估计器附加优化函数构造模块(621)，环境状态估计器附加优化函数构造模块(621)生成环境状态估计器附加优化函数；
步骤c2，对步骤c1生成的环境状态估计器附加优化函数，判断其是否达到忽略方差项的条件，若达到则进入附加函数简化模块(622)对环境状态估计器附加优化函数进行简化并输出，若未达到则直接输出。
7.根据权利要求5或6所述的一种基于随机微分方程的连续性强化学习模型构造系统，其特征在于，所述u函数构造子模块(611)的具体构造方法为：
所述环境状态估计器优化函数构造子模块(613)，其具体构造方法为：
所述环境状态估计器附加优化函数构造子模块(621)，其具体构造方法为：
所述附加优化函数简化模块(622)，其具体简化方法为：
8.根据权利要求1所述的一种基于随机微分方程的连续性强化学习模型构造系统，其特征在于，所述动作策略生成器优化函数构造模块(74)，包括随机微分方程特征算子构造子模块(741)，动作策略生成器优化函数构造子模块(742)，动作策略生成器优化函数简化子模块(743)和动作策略生成器优化函数输出子模块(744)；
所述动作策略生成器优化函数构造模块(74)的工作方法包括以下步骤：
步骤d1，将基础模型构造模块(4)输出的F函数 G函数和环境动
作状态Yk输入至随机微分方程特征算子构造子模块(741)构造随机微分方程特征算子AY并输出；
步骤d2，将步骤d1构造得到的随机微分方程特征算子AY输入至动作策略生成器优化函数构造子模块(742)生成动作策略生成器优化函数J′A(θv)并输出；
步骤d3，判断动作策略生成器优化函数J′A(θv)是否达到忽略相关性小项条件，若达到则输入至动作策略生成器优化函数简化子模块(743)进行简化计算后输出，若未达到则直接输出动作策略生成器优化函数J′A(θv)。
9.权利要求8所述的一种基于随机微分方程的连续性强化学习模型构造系统，其特征在于，所述随机微分方程特征算子构造子模块(741)的构造方法为：
所述动作策略生成器优化函数构造子模块(742)，其具体构造方法为：
所述动作策略生成器优化函数简化子模块(743)，其简化计算方法为：
10.一种基于随机微分方程的连续性强化学习模型的构造方法，其特征在于，包括以下步骤：
步骤S1，将环境动作状态Yt＝(st,at)输入至动作微分构造模块(1)和环境状态微分构造模块(2)，环境状态微分构造模块(2)构造环境状态微分项并输出，动作微分构造模块(1)构造动作微分项并输出；
步骤S2，将步骤S1中输出的环境状态微分项以及动作微分项输入至基础模型构造模块(4)，基础模型构造模块(4)构造得到F函数 G函数和基础模型dYt并
输出；
步骤S3，将步骤S2中输出的F函数 G函数基础模型dYt以及折扣
率γ输入至值估计器构造模块(5)，值估计器优化函数构造模块(51)生成值估计器优化函数JQ(θ)，并通过未来奖励值估计模块(53)计算得到未来奖励估计值，Q函数更新模块(52)根据生成的值估计器优化函数JQ(θ)对Q函数进行更新；
步骤S4，将环境动作状态Yk＝(sk,ak)和步骤S1输出的环境状态微分项输入至环境状态估计器构造模块(6)，环境状态估计器优化函数构造模块(61)构造出环境状态估计器优化函数JE(θp)，环境状态估计器附加优化函数构造模块(62)构造出附加优化函数J′E(θp)；环境状态参数计算模块(64)根据构造出的环境状态估计器优化函数JE(θp)和环境状态估计器附加优化函数J′E(θp)计算得到环境参数θp并输出；未来环境状态预测模块(63)根据构造出的环境状态估计器优化函数JE(θp)和环境状态估计器附加优化函数J′E(θp)预测未来环境状态估计值；
步骤S5，将环境动作状态Yk＝(sk,ak)，步骤S2中输出的F函数 G函数
和基础模型dYt输入至动作策略生成器构造模块(7)，动作策略生成器构造模块中的动作增量计算模块(71)依据输入的环境动作状态Yk＝(sk,ak)计算得到动作增量Δak，下一步动作模块(72)依据动作增量计算模块(71)计算得到的动作增量和当前动作ak计算得到下一步动作ak+1，动作策略动作生成器构造模块(7)中的策略生成器优化函数构造模块(74)依据输入的F函数 G函数和基础模型dYt构造得到动作策略生
成器的优化函数J′A(θv)，并输入至动作参数计算模块计算得到θv。

说明书全文

基于随机微分方程的连续性强化学习模型构造系统及方法

技术领域

[0001] 本发明属于强化学习技术领域，更具体的说是涉及一种基于随机微分方程的连续性强化学习模型构造系统及方法。

背景技术

[0002] 强化学习是一种基于环境交互的机器学习方法，是通过与环境交互而进行以目标为导向的学习方法，学习者是从其行为的后果中进行学习的。强化学习使得智能体能够在与环境的交互过程中通过值函数来判断当前的环境状态，并做出相应的动作来获得更好的奖励。目前的强化学习方法主要针对离散状态环境中的模型及应用。

[0003] 尽管现有的经典连续性强化学习方法如DDPG、PPO、A3C等，已初步应用于机械臂动作控制等连续性系统，但是普遍存在不足，例如DDPG在引入噪声后能够保证其控制的动作是连续性的，但是无法控制方差；而高斯策略下的A3C，尽管可以控制方差，却在特定的场合无法满足动作的连续性条件。

[0004] 因此，本发明提供了一种基于随机微分方程的连续性强化学习模型构造系统及方法，用于构造连续性的强化学习模型。

发明内容

[0005] 有鉴于此，本发明提供了一种基于随机微分方程的连续性强化学习模型构造系统及方法，能够构造出一种在任意时间间隔满足连续性条件，并且在连续性动作环境中能够运用的强化学习模型与方法，并能够更好的适应环境。

[0006] 本发明提出的一种基于随机微分方程的连续性强化学习模型构造系统，主要包含如下模块：动作微分构造模块，环境状态微分构造模块，基础模型存在性检验模块，基础模型构造模块，值估计器构造模块，环境状态估计器构造模块和动作策略生成器构造模块。

[0007] 动作微分构造模块用于构造动作的微分形式；环境状态微分构造模块用于构造环境状态的微分形式；基础模型构造模块包括F函数构造子模块、G函数构造子模块，动作环境组合微分构造子模块，用于构造F函数 G函数以及生成用于强化学习的基础模型dYt；基础模型存在性检验模块用于检验所构造基础模型的唯一性和存在性；
值估计器构造模块包括值估计器优化函数构造模块，Q函数更新模块和未来奖励估计模块，用于构造值估计器的优化函数JQ(θ)，更新Q函数并计算输出未来奖励估计值；环境状态估计器构造模块包括环境状态估计器优化函数构造模块，环境状态估计器优化器附加目标函数构造模块，未来环境状态预测模块和环境状态参数计算模块，用于环境状态估计器优化器目标函数JE(θp)的构造，环境状态估计器优化器附加目标函数J′E(θp)的构造以及未来环境状态值s′k的预测和θp计算；动作策略生成器构造模块包括动作增量计算模块，下一步动作计算模块，下一步环境动作状态构造模块，动作策略生成器优化器目标函数构造模块和θv计算模块，用于动作策略生成器优化函数的构造，当前动作增量Δak计算，下一步动作值ak+1计算以及下一步环境动作状态的生成。

[0008] 本发明提出的一种基于随机微分方程的连续性强化学习模型的构造方法，该方法的构造过程包括以下步骤：

[0009] 步骤S1，将环境动作状态Yt＝(st,at)输入至动作微分构造模块和环境状态微分构造模块，环境状态微分构造模块构造环境状态微分项并输出，动作微分构造模块构造动作微分项并输出。

[0010] 步骤S2，将步骤S1中输出的环境状态微分项以及动作微分项输入至基础模型构造模块，基础模型构造模块构造得到F函数 G函数和基础模型dYt并输出；

[0011] 步骤S3，将步骤S2中输出的F函数 G函数基础模型dYt以及折扣率γ输入至值估计器构造模块，值估计器优化函数构造模块生成值估计器优化函数JQ(θ)，并通过未来奖励值估计模块计算得到未来奖励估计值，Q函数更新模块根据生成的值估计器优化函数JQ(θ)对Q函数进行更新；

[0012] 步骤S4，将环境动作状态Yk＝(sk,ak)和步骤S1输出的环境状态微分项输入至环境状态估计器构造模块，环境状态估计器优化函数构造模块构造出环境状态估计器优化函数JE(θp)，环境状态估计器附加优化函数构造模块构造出附加优化函数J′E(θp)；环境状态参数计算模块根据构造出的环境状态估计器优化函数JE(θp)和环境状态估计器附加优化函数J′E(θp)计算得到环境参数θp并输出；未来环境状态预测模块根据构造出的环境状态估计器优化函数JE(θp)和环境状态估计器附加优化函数J′E(θp)预测未来环境状态估计值；

[0013] 步骤S5，将环境动作状态Yk＝(sk,ak)，步骤S2中输出的F函数 G函数和基础模型dYt输入至动作策略生成器构造模块，动作策略生成器构造模块中的动作增量计算模块依据输入的环境动作状态Yk＝(sk,ak)计算得到动作增量Δak，下一步动作模块依据动作增量计算模块计算得到的动作增量和当前动作ak计算得到下一步动作ak+1，动作策略动作生成器构造模块中的策略生成器优化函数构造模块依据输入的F函数G函数和基础模型dYt构造得到动作策略生成器的优化函数J′A(θv)，并输入至动作参数计算模块计算得到动作参数θv。

[0014] 本发明的一种基于随机微分方程的强化学习模型构造系统中的基础模型存在性检验模块，其检验条件具体形式如下：

[0015] (i)

[0016] (ii)

[0017] 该检验模块的检验方法：判断F函数 G函数是否同时满足上述检验条件；若满足条件，则由基础模型构造模块生成的基础模型唯一存在；若不满足则基础模型构造模块生成的基础模型不是唯一存在的。

[0018] 本发明的值估计器优化函数构造模块包括随机微分方程特征算子构造子模块、二阶椭圆随机偏微分算子构造子模块、值估器优化函数构造子模块，Q函数约束子模块和Q函数存在性验证模块。值估计器优化函数构造模块的工作方法包括以下步骤：

[0019] 步骤a1，F函数构造子模块构造的F函数 G函数构造子模块构造的G函数输入至随机微分方程特征算子构造子模块，随机微分方程特征算子构造子模块构造得到随机微分方程特征算子AY并输出；

[0020] 步骤a2，将步骤a1中的随机微分方程特征算子AY输入至二阶椭圆随机偏微分算子构造子模块，二阶椭圆随机偏微分算子构造子模块生成二阶椭圆随机偏微分算子LY并输出；

[0021] 步骤a3，将折扣率γ输入至Q函数约束子模块，同时根据Q函数存在性验证模块，共同输出存在的Q函数；

[0022] 步骤a4，将步骤a2得到的二阶椭圆随机偏微分算子LY和步骤a3中得到的Q函数同时输入至值估计器优化函数构造子模块生成值估计器优化函数JQ(θ)。

[0023] 本发明的环境状态估计器优化函数构造模块包括u函数构造子模块，θp估计函数构造模块和环境状态估计器优化函数构造子模块；本发明的环境状态估计器附加优化函数构造模块包括环境状态估计器附加优化函数构造子模块，附加优化函数简化模块和环境状态估计器附加优化函数输出模块。

[0024] 环境状态估计器优化函数的构造包括以下步骤：

[0025] 步骤b1，将环境动作状态Yt和基础模型输入至u函数构造子模块，u函数构造子模块构造出u函数；

[0026] 步骤b2，将步骤b1中的u函数输入至θp估计函数构造模块，θp估计函数构造模块生成θp估计函数；

[0027] 步骤b3，将步骤b2中生成的θp估计函数输入至环境状态估计器优化函数构造子模块，环境状态估计器优化函数构造子模块构造出环境状态估计器优化函数并输出。

[0028] 环境状态估计器附加优化函数的构造包括以下步骤：

[0029] 步骤c1，将环境动作状态Yt和基础模型输入至环境状态估计器附加优化函数构造模块，环境状态估计器附加优化函数构造模块生成环境状态估计器附加优化函数；

[0030] 步骤c2，对步骤c1生成的环境状态估计器附加优化函数，判断其是否达到忽略方差项的条件，若达到则进入附加函数简化模块对环境状态估计器附加优化函数进行简化并输出，若未达到则直接输出。

[0031] 动作策略生成器优化函数构造模块包括随机微分方程特征算子构造子模块，动作策略生成器优化函数构造子模块，动作策略生成器优化函数简化子模块和动作策略生成器优化函数输出子模块。

[0032] 动作策略生成器优化函数的构造包括以下步骤：

[0033] 步骤d1，将基础模型构造模块输出的F函数 G函数和环境动作状态Yk输入至随机微分方程特征算子构造子模块构造随机微分方程特征算子AY并输出；

[0034] 步骤d2，将步骤d1构造得到的随机微分方程特征算子AY输入至动作策略生成器优化函数构造子模块生成动作策略生成器优化函数J′A(θv)并输出；

[0035] 步骤d3，判断动作策略生成器优化函数J′A(θv)是否达到忽略相关性小项条件，若达到则输入至动作策略生成器优化函数简化子模块进行简化计算后输出，若未达到则直接输出动作策略生成器优化函数J′A(θv)。

[0036] 综上所述，本发明提出一种基于随机微分方程的连续性强化学习模型构造系统及方法，以动作和环境状态的微分形式作为其强化学习模型构建的起点，引入随机微分项，能够构造出处理连续性问题和控制方差的强化学习方法模型，并且构造出的强化学习方法还能够避免经典强化学习中一些弊端的出现。

[0037] 本发明的有益效果在于：

[0038] 1、本发明中值估计器构造模块及其工作方法所构造得到的优化函数，能够完成基于随机微分方程的Q函数网络的参数更新以及Q函数的更新，更新得到的Q函数能满足DDPG、A3C等经典强化学习方法中的Q函数约束条件。

[0039] 2、本发明中环境状态估计器构造模块及其工作方法，基于过去某一时刻的动作微分和环境状态微分所构造的环境状态估计器优化函数和附加优化函数，实现了对未来环境状态的合理估计，相比较于由当前环境状态直接生成动作的方式，提升了动作的连续性；其中所包含的环境状态参数估计函数库，能够提供多种参数估计函数，以实现在不同具体环境类型中的应用。

[0040] 3、本发明中动作策略生成器构造模块实现了对动作增量的计算，保证了动作的连续性，适用于连续物理系统的实际控制；其简化模块能够在某些条件下进一步简化优化函数，以减小计算量，提升系统的计算效率与反应能力。

[0041] 4、本发明中的各模块均面向微分形式的动作和环境状态进行设计，既能够分别独立完成各子函数与子模型的构造，也能够共同构成完整的基于微分方程的强化学习方法构建。附图说明

[0042] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

[0043] 图1是本发明连续性强化学习模型构造系统的整体结构示意图；

[0044] 图2是本发明基础模型构造过程的示意图；

[0045] 图3是本发明值估计器构造模块的示意图；

[0046] 图4是本发明环境状态估计器构造模块的示意图；

[0047] 图5是本发明动作策略生成器构造模块的示意图；

[0048] 图6是本发明的一种应用实例图。

具体实施方式

[0049] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0050] 本发明提供了一种基于随机微分方程的连续性强化学习模型构造系统及方法，能够构造出一种在连续性动作环境中能够运用的强化学习模型与方法，并能够更好的适应环境。

[0051] 参阅图1，本发明提供了一种基于随机微分方程的连续性强化学习模型构造系统，包括动作微分构造模块1，环境状态微分构造模块2，基础模型存在性检验模块3，基础模型构造模块4，值估计器构造模块5，环境状态估计器构造模块6和动作策略生成器构造模块7。

[0052] 动作微分构造模块1用于构造动作的微分形式；

[0053] 环境状态微分构造模块2用于构造环境状态的微分形式；

[0054] 图2是基础模型构造过程的示意图，示出了强化学习方法的基础模型构造过程，该过程包含了动作微分构造模块1、环境状态微分构造模块2、基础模型构造模块4和基础模型存在性检验模块3。

[0055] 基础模型构造模块4包含F函数构造子模块41、G函数构造子模块42，动作环境组合微分构造子模块43，分别用于构造F函数 G函数以及生成用于强化学习的基础模型dYt。

[0056] 基础模型存在性检验模块3用于检验所构造基础模型的唯一性和存在性；

[0057] 图3是值估计器构造模块的示意图，示出了值估计器的构造过程，值估计器构造模块5包含值估计器优化函数构造模块51，Q函数更新模块52和未来奖励估计模块53，用于构造值估计器的优化函数JQ(θ)，更新Q函数并计算输出未来奖励估计值。

[0058] 值估计器优化函数构造模块51包括随机微分方程特征算子构造子模块511，二阶椭圆随机偏微分算子构造子模块512，值估器优化函数构造子模块513，Q函数约束子模块514和Q函数存在性验证模块515。

[0059] 值估计器优化函数构造模块51的工作方法包括以下步骤：

[0060] 步骤a1，将F函数构造子模块构造41的F函数与G函数构造子模块42构造的G函数输入至随机微分方程特征算子构造子模块511，随机微分方程特征算子构造子模块511构造得到随机微分方程特征算子AY并输出；步骤a2，将步骤a1中的随机微分方程特征算子AY输入至二阶椭圆随机偏微分算子构造子模块512，二阶椭圆随机偏微分算子构造子模块512生成二阶椭圆随机偏微分算子LY并输出；步骤a3，将折扣率γ输入至Q函数约束子模块514，并与Q函数存在性验证模块515共同得到及输出存在的Q函数；步骤a4，将步骤a2得到的二阶椭圆随机偏微分算子LY和步骤a3中得到的Q函数同时输入至值估计器优化函数构造子模块513生成值估计器优化函数JQ(θ)。

[0061] 随机微分方程特征算子构造子模块(511)，其具体构造方法为：

[0062]

[0063] 二阶椭圆随机偏微分算子构造子模块(512)，其具体构造方法为：

[0064]

[0065] 值估器优化函数构造子模块(513)，其具体构造方法为：

[0066] JQ(θ)＝(LYQθ(s,a)+Ey[r])2。

[0067] 图4是环境状态估计器构造模块的示意图，示出了环境状态估计器的构造过程，环境状态估计器构造模块6包含环境状态估计器优化函数构造模块61，环境状态估计器优化器附加目标函数构造模块62，未来环境状态预测模块63和环境状态参数计算模块64，用于环境状态估计器优化器目标函数JE(θp)的构造，环境状态估计器优化器附加目标函数J′E(θp)的构造以及未来环境状态值s′k的预测和θp计算。

[0068] 环境状态估计器优化函数构造模块61包括u函数构造子模块611，θp估计函数构造模块612和环境状态估计器优化函数构造子模块613；环境状态估计器附加优化函数构造模块62，包括环境状态估计器附加优化函数构造子模块621，附加优化函数简化模块622和环境状态估计器附加优化函数输出模块623。

[0069] 环境状态估计器优化函数构造模块61的工作方法包括以下步骤：

[0070] 步骤b1，将环境动作状态Yt和基础模型dYt输入至u函数构造子模块611，u函数构造子模块611构造出u函数；步骤b2，将步骤b1输出的u函数输入至θp估计函数构造模块612，θp估计函数构造模块612生成θp估计函数；步骤b3，将步骤b2中生成的θp估计函数输入至环境状态估计器优化函数构造子模块613，环境状态估计器优化函数构造子模块613构造出环境状态估计器优化函数并输出。在图6所示的实例中考虑到各种情况，θp估计函数是从θp估计函数库中选取基于对数似然估计的θp估计函数。

[0071] 环境状态估计器附加优化函数构造模块62，其工作方法包括以下步骤：

[0072] 步骤c1，将环境动作状态Yt和基础模型输入至环境状态估计器附加优化函数构造模块621，环境状态估计器附加优化函数构造模块621生成环境状态估计器附加优化函数；步骤c2，对步骤c1生成的环境状态估计器附加优化函数，判断其是否达到忽略方差项的条件，若达到则进入附加函数简化模块622对环境状态估计器附加优化函数进行简化并输出，若未达到则直接输出。在图6所示的实例中，为了计算和表达方便，忽略附加优化函数中的方差项来简化优化函数。

[0073] 图5是动作策略生成器构造模块的示意图，示出了动作策略生成器构造模块7的组成和动作策略生成器构造过程，动作策略生成器构造模块7包含动作增量计算模块71，下一步动作计算模块72，下一步环境动作状态构造模块73，动作策略生成器优化器目标函数构造模块74和动作参数计算模块75，用于动作策略生成器优化函数的构造，当前动作增量Δak计算，下一步动作值ak+1计算以及下一步环境动作状态Yk+1的生成。

[0074] 动作策略生成器优化函数构造模块74包括随机微分方程特征算子构造子模块741，动作策略生成器优化函数构造子模块742，动作策略生成器优化函数简化子模块743和动作策略生成器优化函数输出子模块744。

[0075] 动作策略生成器优化函数构造模块74的工作方法包括以下步骤：

[0076] 步骤d1，将基础模型构造模块4输出的F函数 G函数和环境动作状态Yk输入至随机微分方程特征算子构造子模块741构造随机微分方程特征算子AY并输出；步骤d2，将步骤d1构造得到的随机微分方程特征算子AY输入至动作策略生成器优化函数构造子模块742生成动作策略生成器优化函数J′A(θv)并输出；步骤d3，判断动作策略生成器优化函数J′A(θv)是否达到忽略相关性小项条件，若达到则输入至动作策略生成器优化函数简化子模块743进行简化计算后输出，若未达到则直接输出动作策略生成器优化函数J′A(θv)。在图6所示的实例中，考虑到参数θp对动作策略生成器的优化函数构造的影响小且相关性小，忽略只与θp相关项，简化动作策略生成器优化函数。

[0077] 随机微分方程特征算子构造子模块(741)的构造方法为：

[0078]

[0079] 动作策略生成器优化函数构造子模块(742)，其具体构造方法为：

[0080]

[0081] 动作策略生成器优化函数简化子模块(743)，其简化计算方法为：

[0082]

[0083] 本发明提出的一种基于随机微分方程的连续性强化学习模型的构造方法，包括以下步骤：

[0084] 步骤S1，将环境动作状态Yt＝(st,at)输入至动作微分构造模块1和环境状态微分构造模块2，环境状态微分构造模块2构造环境状态微分项并输出，动作微分构造模块1构造动作微分项并输出。

[0085] 步骤S2，将步骤S1中输出的环境状态微分项以及动作微分项输入至基础模型构造模块3，基础模型构造模块4构造得到F函数 G函数和基础模型dYt并输出。

[0086] 步骤S3，将步骤S2中输出的F函数 G函数基础模型dYt以及折扣率γ输入至值估计器构造模块5，值估计器优化函数构造模块51生成值估计器优化函数JQ(θ)，并通过未来奖励值估计模块53计算得到未来奖励估计值，Q函数更新模块52根据生成的值估计器优化函数JQ(θ)对Q函数进行更新。

[0087] 步骤S4，将环境动作状态Yk＝(sk,ak)和步骤S1输出的环境状态微分项输入至环境状态估计器构造模块6，环境状态估计器优化函数构造模块61构造出环境状态估计器优化函数JE(θp)，环境状态估计器附加优化函数构造模块62构造出附加优化函数J′E(θp)；环境状态参数计算模块64根据构造出的环境状态估计器优化函数JE(θp)和环境状态估计器附加优化函数J′E(θp)计算得到环境参数θp并输出；未来环境状态预测模块63根据构造出的环境状态估计器优化函数JE(θp)和环境状态估计器附加优化函数J′E(θp)预测未来环境状态估计值。

[0088] 步骤S5，将环境动作状态Yk＝(sk,ak)，步骤S2中输出的F函数 G函数和基础模型dYt输入至动作策略生成器构造模块7，动作策略生成器构造模块中的动作增量计算模块71依据输入的环境动作状态Yk＝(sk,ak)计算得到动作增量Δak，下一步动作模块72依据动作增量计算模块71计算得到的动作增量和当前动作ak计算得到下一步动作ak+1，动作策略动作生成器构造模块7中的策略生成器优化函数构造模块74依据输入的F函数 G函数和基础模型dYt构造得到动作策略生成器的优化函数J′A(θv)，并输入至动作参数计算模块计算得到θv。

[0089] 本发明提出一种基于随机微分方程的连续性强化学习模型构造系统及方法，以动作和环境状态的微分形式作为其强化学习模型构建的起点，引入随机微分项，能够构造出处理连续性问题和控制方差的强化学习方法模型，并且构造出的强化学习方法还能够避免经典强化学习中一些弊端的出现。

[0090] 图6是本发明构造出一个基于随机微分方程的连续性强化学习的实例图，图中所示为本发明构造出的强化学习方法在OpenAI的gym中的经典控制模型车杆游戏中的应用情景。由图6可知，该车杆游戏中，小车上有根杆子，小车需要左右移动来保持杆子竖直，具体而言，该系统的控制须满足下列两个条件：

[0091] 1、杆子倾斜的角度θ不能大于15°；

[0092] 2、小车的位置x需要保持在一定范围内。

[0093] 其中，该实例中的动作ak包括“左移ak＝0”、“右移ak＝0”两种；环境状态sk为四维向量：x(小车在轨道上的位置)、θ(杆子与竖直方向的夹角)、 (小车速度)和 (角度变化率)，奖励值是在完成左移或者右移小车的动作之后，外部环境会返回一个“+1”的奖励值，当奖励值达到预设的合格分数之后，游戏结束。

[0094] 对于实施例公开的结构而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

[0095] 对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

标题	发布/更新时间	阅读量
用于控制或调节技术系统的方法	2020-05-12	965
一种基于多智能体Q学习的车载通信MAC层信道接入方法	2020-05-12	593
外呼系统的对话管理方法、系统、电子设备和存储介质	2020-05-08	955
一种基于λ-回报的异策略多智能体强化学习协作方法	2020-05-11	89
一种云计算环境下的虚拟集群自动伸缩方法	2020-05-12	609
一种多用户、多任务的移动边缘计算系统中可缓存的任务迁移方法	2020-05-12	393
基于强化学习和双线性卷积网络的车型识别方法	2020-05-11	740
一种多模态智能分析方法及系统	2020-05-12	447
基于改进直流潮流算法的电网无功潮流调整方法及装置	2020-05-12	141
视频摘要模型的训练方法、视频摘要生成方法及装置	2020-05-13	375

基于随机微分方程的连续性强化学习模型构造系统及方法

基于随机微分方程的连续性强化学习模型构造系统及方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：