解决H无穷控制问题的无模型在线强化学习方法与系统专利检索-·电的专利检索查询-专利查询网

解决H无穷控制问题的无模型在线 强化学习方法与系统

专利类型	发明公开	法律事件	公开; 实质审查;
专利有效性	实质审查	当前状态	实质审查
申请号	CN202311290077.2	申请日	2023-10-07
公开(公告)号	CN117590742A	公开(公告)日	2024-02-23
申请人	广东工业大学;	申请人类型	学校
发明人	陈辞; 陈宇哲; 谢侃;	第一发明人	陈辞
权利人	广东工业大学	权利人类型	学校
当前权利人	广东工业大学	当前权利人类型	学校
省份	当前专利权人所在省份：广东省	城市	当前专利权人所在城市：广东省广州市
具体地址	当前专利权人所在详细地址：广东省广州市越秀区东风东路729号	邮编	当前专利权人邮编：510080
主IPC国际分类	G05B13/02	所有IPC国际分类	G05B13/02
专利引用数量	0	专利被引用数量	0
专利权利要求数量	10	专利文献类型	A
专利代理机构	广州粤高专利商标代理有限公司	专利代理人	郑堪泳;
摘要	本发明提出了一种解决H无穷控制问题的无模型在线强化学习方法与系统，包括建立线性连续时间系统模型；设置无限时间跨度的性能指标；利用数据离线计算初始的稳定控制反馈矩阵；利用数据在线计算最优控制策略和干扰策略；本发明实现了在线学习线性连续时间H无穷控制问题的最优解，而无需事先了解系统模型的具体参数。通过利用测量的数据，该方法可以根据实时观测的信息优化控制策略。
权利要求	1.一种解决H无穷控制问题的无模型在线强化学习方法，其特征在于，所述方法包括： S1：获取系统数据； S2：基于系统数据，构建线性连续时间系统模型； S3：基于线性连续时间系统模型，设置无限时间跨度的性能指标； S4：基于设置无限时间跨度的性能指标，利用系统数据进行计算，获得初始的稳定控制反馈矩阵； S5：基于初始的稳定控制反馈矩阵，获得最优控制策略和干扰策略。 2.根据权利要求1所述的一种解决H无穷控制问题的无模型在线强化学习方法，其特征在于，所述步骤S2中，所建立的线性连续时间系统模型为：其中，x表示系统的状态，初始状态为x0，表示系统状态的导数，u表示控制输入，w表示满足的外部扰动，状态x，控制输入u和外部扰动w的维数分别为n，m和q，矩阵A，B1和B2是未知的常数矩阵，并且具有适当的维度。 3.根据权利要求1所述的一种解决H无穷控制问题的无模型在线强化学习方法，其特征在于，所述步骤S3中，无限时间跨度的性能指标为：其中，Q为半正定矩阵，R为正定矩阵，γ表示预设的扰动衰减级别。 4.根据权利要求2或3所述的一种解决H无穷控制问题的无模型在线强化学习方法，其特征在于，对于给定的γ，对于系统模型参数存在以下两个设定：设定1：(A,B1)具有能控性；设定2：具有能观测性。 5.根据权利要求1所述的一种解决H无穷控制问题的无模型在线强化学习方法，其特征在于，所述步骤S4的具体方法为： S41：对设置无限时间跨度的性能指标，参数初始化，获得确认的指标参数； S42：基于确认的指标参数，构建对称矩阵进行求解，获得正定矩阵； S43：基于获得的正定矩阵进行计算，获得初始参数计算控制反馈矩阵； S44：基于获得的初始参数计算控制反馈矩阵，获得优化的控制反馈矩阵。 6.根据权利要求5所述的一种解决H无穷控制问题的无模型在线强化学习方法，其特征在于，所述S42的具体方法为：设置初始的β＝0，对于一个n×n维的对称矩阵P，定义增大β，如下等式中解出 0 其中Pi (i＝0)，和分别是n×n维的对称矩阵，n×m维的控制反馈矩阵和n×q维的矩阵；如果解出的不是一个正定矩阵，则继续增大β，求解上述等式，直到解出的是一个正定矩阵。 7.根据权利要求1所述的一种解决H无穷控制问题的无模型在线强化学习方法，其特征在于，所述S5的具体方法为： S51：基于获得的稳定的控制反馈矩阵，设置初始策略； S52：基于设定的初始策略进入外部循环中进行计算，结束后进行内部循环； S53：设定内部循环初始策略，进入内循环中进行计算，获得误差函数； S54，基于误差函数进行更新，获得最优干扰策略和控制策略。 8.根据权利要求7所述的一种解决H无穷控制问题的无模型在线强化学习方法，其特征在于，所述S51的具体方法为：设定初始策略如下：其中，为n×n维的对称矩阵；为n×q维的干扰策略矩阵；为n ×m维外部循环的控制策略矩阵；设置外部循环初始迭代次数i＝0。 9.根据权利要求7所述的一种解决H无穷控制问题的无模型在线强化学习方法，其特征在于，所述设置内部循环初始策略的方法为：其中wi为当前循环的干扰策略；为n×n维的对称矩阵；为n×m维的内部循环控制策略矩阵；并将设置内部循环初始迭代次数j＝0。 10.一种解决H无穷控制问题的无模型在线强化学习系统，用于实现权利要求1‑9任一项所述的方法，其特征在于，所述系统包括：数据获取模块，获取系统数据；模型构建模块，基于系统数据，构建线性连续时间系统模型；参数设置模块，基于线性连续时间系统模型，设置无限时间跨度的性能指标；矩阵获取模块，矩阵基于设置无限时间跨度的性能指标，利用离线系统数据进行计算，获得初始的稳定控制反馈矩阵；策略获取模块，基于初始的稳定控制反馈矩阵，获得最优控制策略和干扰策略。
说明书全文	解决H无穷控制问题的无模型在线强化学习方法与系统技术领域 [0001] 本发明涉及无模型强化学习领域，具体涉及一种解决H无穷控制问题的无模型在线强化学习方法与系统。背景技术 [0002] H无穷控制(H‑infinity control)是控制理论中的一个重要概念，用于设计具有鲁棒性的控制器，以应对系统参数变化、外部干扰和建模不确定性等问题。H无穷控制的目标是设计一个控制器，使得系统对于所有满足一定条件的不确定性都具有良好的鲁棒性，并能满足预先定义的性能指标。这种控制方法通常适用于工业自动化、航空航天、机械控制和电力系统等领域中的复杂控制问题。 [0003] 解决线性连续时间系统的H无穷控制问题可以通过找到两个玩家零和博弈的纳什均衡来实现。然而，对于完全未知动力学的H无穷控制器的设计对于控制实践者来说是一个挑战，因为对于许多工程系统来说，获得精确的模型/动力学先验知识并不容易。 [0004] 强化学习(Reinforcement Learning，RL)和自适应动态规划(Adaptive/Approximate Dynamic Programming，ADP)理论的发展对于解决具有不确定系统的H无穷控制问题具有重要意义。RL是一种机器学习策略，其中通过智能体与环境的交互，根据指定的奖励不断调整动作，从而逐步学习到最优动作或控制策略。中就采用了这种过程。在没有精确环境/系统模型的情况下，ADP通过函数逼近结构近似动态规划方程中的性能指标函数和控制策略。这些控制算法的出现使得在不依赖于精确系统动力学的情况下解决最优控制问题成为可能，从而扩大了这些技术的应用范围。 [0005] 目前的技术通常利用系统数据通过离线或在线迭代计算来求解最优解，但其中大部分仍需要仍然需要先验的系统动力学知识来寻找合适的控制策略。例如，在初始化阶段，需要确定系统的稳定或可容许控制策略，以确保控制器能够从初始状态开始工作。同样，在面对干扰和不确定性时，需要事先定义干扰策略或建立模型来预测干扰影响。这些先验知识的要求可能会限制无模型方法的适用性，特别是在复杂系统和未知环境下。 [0006] 现有技术提供了一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法，包括：利用奇异摄动理论，将原始H无穷控制问题进行分解得到快子问题和慢子问题，并引入坐标转换将快慢子问题重塑成两个标准的子问题；解决快慢子系统数据不可测的问题，进一步推导基于重构数据的H无穷强化学习迭代算法；在快慢时间尺度内分别引入执行‑评价‑扰动神经网络近似控制器、性能指标和扰动，基于最小二乘法迭代更新神经网络的权重，得到基于强化学习的快、慢H无穷控制器；再进行组合，得到非线性双时间尺度工业控制系统跨尺度强化学习组合H无穷控制器。发明内容 [0007] 本发明为克服上述现有技术所述的需要确定系统的稳定和可容许控制策略的缺陷，提供一种解决H无穷控制问题的无模型在线强化学习方法。 [0008] 为解决上述技术问题，本发明的技术方案如下： [0009] 本发明提供了一种解决H无穷控制问题的无模型在线强化学习方法，所述方法包括： [0010] S1：获取系统数据； [0011] S2：基于系统数据，构建线性连续时间系统模型； [0012] S3：基于线性连续时间系统模型，设置无限时间跨度的性能指标； [0013] S4：基于设置无限时间跨度的性能指标，利用系统数据进行计算，获得初始的稳定控制反馈矩阵； [0014] S5：基于初始的稳定控制反馈矩阵，获得最优控制策略和干扰策略。 [0015] 优选地，所述步骤S2中，所建立的线性连续时间系统模型为： [0016] [0017] 其中，x表示系统的状态，初始状态为x0，表示系统状态的导数，u表示控制输入，w表示满足的外部扰动，状态x，控制输入u和外部扰动w的维数分别为n，m和q。矩阵A，B1和B2是未知的常数矩阵，并且具有适当的维度。 [0018] 优选地，所述步骤S3中，H无穷大控制的无限时间跨度的性能指标为： [0019] [0020] 其中，Q为半正定矩阵，R为正定矩阵，γ表示预设的扰动衰减级别。 [0021] 优选地，对于给定的γ，对于系统模型参数存在以下两个设定： [0022] 设定1：(A,B1)具有能控性； [0023] 设定2：具有能观测性。 [0024] 优选地，所述步骤S4的具体方法为： [0025] S41：对设置无限时间跨度的性能指标，参数初始化，获得确认的指标参数； [0026] S42：基于确认的指标参数，构建对称矩阵进行求解，获得正定矩阵； [0027] S43：基于获得的正定矩阵进行计算，获得初始参数计算控制反馈矩阵； [0028] S44：基于获得的初始参数计算控制反馈矩阵，获得优化的控制反馈矩阵。 [0029] 优选地，所述S41的具体方法为： [0030] 需要计算初始参数，设置和其中为设定的正定矩阵，β为待确定的参数，对于一个n×m维的矩阵X，vec(X)的定义如下： [0031] [0032] 其中xi代表矩阵X的列向量。 [0033] 优选地，所述S42的具体方法为： [0034] 设置初始的β＝0，对于一个n×n维的对称矩阵P，定义 [0035] [0036] 增大β，如下等式中解出 [0037]0 [0038] 其中Pi (i＝0)，和分别是n×n维的对称矩阵，n×m维的控制反馈矩阵和n×q维的矩阵。如果解出的不是一个正定矩阵，则继续增大β，求解上述等式，直到解出的是一个正定矩阵。 [0039] 优选地，所述S43的具体方法为： [0040] [0041] [0042] 其中α0＝0，对于每一个i＝0,1,2,…，解出Pi0，和从如下等式 [0043] [0044] 对于每一个i＝0,1,2,…，从如下不等式选择αi+1： [0045] [0046] 其中σmin和σmax分别代表矩阵的最小奇异值和最大奇异值。 [0047] 优选地，所述S44的具体方法为：需要利用系统的数据来计算计算初始的稳定控制反馈矩阵，在系统中加入输入和干扰探索信号，其为不同幅值和频率的正弦与余弦信号的组合，对于状态x＝[x1,x2,…,xn]，定义 [0048] [0049] 将收集得到数据放入如下矩阵： [0050] [0051] [0052] [0053] [0054] [0055] 其中，表示Kronecker积，T>0表示时间间隔，s表示收集的次数满足如下条件：即s足够大使得满足。 [0056] 优选地，对于某一个i满足如下条件： [0057] [0058] 则获得了一个稳定的控制反馈矩阵 [0059] 优选地，所述S5的具体方法为： [0060] S51：基于获得的稳定的控制反馈矩阵，设置初始策略； [0061] S52：基于设定的初始策略进入外部循环中进行计算，结束后进行内部循环； [0062] S53：设定内部循环初始策略，进入内循环中进行计算，获得误差函数； [0063] S54，基于误差函数进行更新，获得最优干扰策略和控制策略。 [0064] 优选地，所述S51的具体方法为： [0065] 设定初始策略如下： [0066] [0067] 其中，为n×n维的对称矩阵；为n×q维的干扰策略矩阵；为n×m维外部循环的控制策略矩阵；设置外部循环初始迭代次数i＝0。 [0068] 优选地，所述S52中，设定初始策略之后进入外部循环，设定内部循环初始策略如下： [0069] [0070] 其中wi为当前循环的干扰策略，为n×n维的对称矩阵，为n×m维的内部循环控制策略矩阵。并将设置内部循环初始迭代次数j＝0。 [0071] 优选地，所述S54中，开始内部循环时设置初始迭代次数j＝0，更新内部循环控制策略加入的探索控制输入信号e1和干扰信号e2为不同幅值和频率的正弦与余弦信号的组合，即控制输入为额外干扰为将收集到的数据放入如下矩阵： [0072] Θu＝[θ1,θ2,…,θs]T [0073] [0074] [0075] [0076] 其中 T>0表示时间间隔，s表示收集的次数满足如下条件：即s足够大使得满足。 [0077] 优选地，所述S53中，利用如下等式来计算内部循环的控制策略和干扰策略： [0078] [0079] 其中为n×n维的对称矩阵，为n×m维的内部循环控制策略矩阵，为n×q维的内部循环干扰策略矩阵。 [0080] 优选地，所述S53中，内部循环中第j次迭代与第j‑1次迭代计算出的控制策略矩阵之间的误差函数可以表示为： [0081] [0082] 其中\|\|·\|\|代表矩阵的范数，选取一个极小的正数ε1，当满足mj≤ε1时跳出循环；否则，将迭代次数j加1并继续内部循环。 [0083] 优选地，所述S54中，结束内部循环之后，更新的外部循环干扰策略和控制策略分别为: [0084] [0085] 优选地，所述S53中，内部循环中第i次迭代与第i‑1次迭代计算出的控制策略矩阵之间的误差函数可以表示为： [0086] [0087] 选取一个极小的正数ε2，当满足mi≤ε2时,获取最优的最优控制策略与干扰策略，即为和否则，将迭代次数i加1并继续外部循环。 [0088] 本发明还提供了一种解决H无穷控制问题的无模型在线强化学习系统，用于实现上述的方法，所述系统包括： [0089] 数据获取模块，获取系统数据； [0090] 模型构建模块，基于系统数据，构建线性连续时间系统模型； [0091] 参数设置模块，基于线性连续时间系统模型，设置无限时间跨度的性能指标； [0092] 矩阵获取模块，矩阵基于设置无限时间跨度的性能指标，利用离线系统数据进行计算，获得初始的稳定控制反馈矩阵； [0093] 策略获取模块，基于初始的稳定控制反馈矩阵，获得最优控制策略和干扰策略。 [0094] 与现有技术相比，本发明技术方案的有益效果是： [0095] 本发明实现了在线学习线性连续时间H无穷控制问题的最优解，而无需事先了解系统模型的具体参数。通过利用测量的数据，该方法可以根据实时观测的信息优化控制策略；利用测量的数据来计算初始化策略，而无需系统模型的具体参数来寻找合适的控制策略。附图说明 [0096] 图1为实施例1中所述的解决H无穷控制问题的无模型在线强化学习方法的流程图； [0097] 图2为实施例2中所述的计算初始的稳定控制反馈矩阵的流程图； [0098] 图3为实施例2中所述的计算最优控制策略和干扰策略的流程图； [0099] 图4为实施例2中所述的的控制策略与干扰策略的收敛速率； [0100] 图5为实施例2中所述的应用最优控制策略后各个状态量的变化情况； [0101] 图6为实施例3中所述的解决H无穷控制问题的无模型在线强化学习系统的结构示意图。具体实施方式 [0102] 附图仅用于示例性说明，不能理解为对本专利的限制； [0103] 为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸； [0104] 对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。 [0105] 下面结合附图和实施例对本发明的技术方案做进一步的说明。 [0106] 实施例1 [0107] 本实施例提供了一种解决H无穷控制问题的无模型在线强化学习方法，如图1所示，所述方法包括： [0108] S1：获取系统数据； [0109] S2：基于系统数据，构建线性连续时间系统模型； [0110] S3：基于线性连续时间系统模型，设置无限时间跨度的性能指标； [0111] S4：基于设置无限时间跨度的性能指标，利用系统数据进行计算，获得初始的稳定控制反馈矩阵； [0112] S5：基于初始的稳定控制反馈矩阵，获得最优控制策略和干扰策略。 [0113] 首先需要获取系统数据，然后基于这些数据构建线性连续时间的系统模型；接下来，在系统模型的基础上，设置无限时间跨度的性能指标；随后，利用系统数据进行计算，得到初始的稳定控制反馈矩阵；最后，根据初始的稳定控制反馈矩阵，确定最优的控制策略和干扰策略。 [0114] 实施例2 [0115] 本实施例提供了一种解决H无穷控制问题的无模型在线强化学习方法，所述方法包括： [0116] S1：获取系统数据； [0117] S2：基于系统数据，构建线性连续时间系统模型；所建立的线性连续时间系统模型为： [0118] [0119] 其中，x表示系统的状态，初始状态为x0，表示系统状态的导数，u表示控制输入，w表示满足的外部扰动，状态x，控制输入u和外部扰动w的维数分别为n，m和q。矩阵A，B1和B2是未知的常数矩阵，并且具有适当的维度。 [0120] S3：基于线性连续时间系统模型，设置无限时间跨度的性能指标；H无穷大控制的无限时间跨度的性能指标为： [0121] [0122] 其中，Q为半正定矩阵，R为正定矩阵，γ＞0是一定的预设的扰动衰减级别。 [0123] S4：基于设置无限时间跨度的性能指标，利用系统数据进行计算，获得初始的稳定控制反馈矩阵； [0124] 所述步骤S4的具体方法为： [0125] S41：对于设置无限时间跨度的性能指标，参数初始化，获得确认的指标参数；需要计算初始参数，设置和其中为设定的正定矩阵，β为待确定的参数，对于一个n×m维的矩阵X，vec(X)的定义如下： [0126] [0127] 其中xi代表矩阵X的列向量； [0128] S42：基于确认的指标参数，构建对称矩阵进行求解，获得正定矩阵；设置初始的β＝0，对于一个n×n维的对称矩阵P，定义 [0129] [0130] 增大β，如下等式中解出 [0131] [0132] 其中Pi0(i＝0)，和分别是n×n维的对称矩阵，n×m维的控制反馈矩阵和n×q维的矩阵。如果解出的不是一个正定矩阵，则继续增大β，求解上述等式，直到解出的是一个正定矩阵； [0133] S43：基于获得的正定矩阵进行计算，获得初始参数计算控制反馈矩阵； [0134] [0135] [0136] 其中α0＝0，对于每一个i＝0,1,2,…，解出Pi0，和从如下等式 [0137] [0138] 对于每一个i＝0,1,2,…，从如下不等式选择αi+1： [0139] [0140] 其中σmin和σmax分别代表矩阵的最小奇异值和最大奇异值； [0141] S44：基于获得的初始参数计算控制反馈矩阵，获得优化的控制反馈矩阵。 [0142] 需要利用系统的数据来计算计算初始的稳定控制反馈矩阵，在系统中加入输入和干扰探索信号，其为不同幅值和频率的正弦与余弦信号的组合，对于状态x＝[x1,x2,…,xn]，定义 [0143] [0144] 将收集得到数据放入如下矩阵： [0145] [0146] [0147] [0148] [0149] [0150] 其中，表示Kronecker积，T>0表示时间间隔，s表示收集的次数满足如下条件：即s足够大使得满足。 [0151] S5：基于初始的稳定控制反馈矩阵，获得最优控制策略和干扰策略。 [0152] S51：基于获得的稳定的控制反馈矩阵，设置初始策略；设定初始策略如下： [0153] [0154] 其中，为n×n维的对称矩阵；为n×q维的干扰策略矩阵；为n×m维外部循环的控制策略矩阵；设置外部循环初始迭代次数i＝0； [0155] S52：基于设定的初始策略进入外部循环中进行计算，结束后进行内部循环；设定初始策略之后进入外部循环，设定内部循环初始策略如下： [0156] [0157] 其中wi为当前循环的干扰策略，为n×n维的对称矩阵，为n×m维的内部循环控制策略矩阵。并将设置内部循环初始迭代次数； [0158] S53：设定内部循环初始策略，进入内循环中进行计算，获得误差函数；所述S53中，利用如下等式来计算内部循环的控制策略和干扰策略： [0159] [0160] 其中为n×n维的对称矩阵，为n×m维的内部循环控制策略矩阵，为n×q维的内部循环干扰策略矩阵； [0161] 所述S53中，内部循环中第j次迭代与第j‑1次迭代计算出的控制策略矩阵之间的误差函数可以表示为： [0162] [0163] 其中\|\|·\|\|代表矩阵的范数，选取一个极小的正数ε1，当满足mj≤ε1时跳出循环；否则，将迭代次数j加1并继续内部循环； [0164] 所述S53中，内部循环中第i次迭代与第i‑1次迭代计算出的控制策略矩阵之间的误差函数可以表示为： [0165] [0166] 选取一个极小的正数ε2，当满足mi≤ε2时,获取最优的最优控制策略与干扰策略，即为和否则，将迭代次数i加1并继续外部循环； [0167] S54，基于误差函数进行更新，获得最优干扰策略和控制策略。 [0168] 结束内部循环之后，更新的外部循环干扰策略和控制策略分别为: [0169] [0170] 开始内部循环时设置初始迭代次数j＝0，更新内部循环控制策略加入的探索控制输入信号e1和干扰信号e2为不同幅值和频率的正弦与余弦信号的组合，即控制输入为额外干扰为将收集到的数据放入如下矩阵： [0171] Θu＝[θ1,θ2,…,θs]T [0172] [0173] [0174] [0175] 其中 T>0表示时间间隔，s表示收集的次数满足如下条件：即s足够大使得满足。 [0176] 对于给定的γ，对于系统模型参数存在以下两个假设： [0177] 假设1：(A,B1)具有能控性； [0178] 假设2：具有能观测性。 [0179] 实施例3 [0180] 本实施例提供了一种解决H无穷控制问题的无模型在线强化学习系统，用于实现实施例1或2所述的方法，如图4所示，所述系统包括： [0181] 数据获取模块，获取系统数据； [0182] 模型构建模块，基于系统数据，构建线性连续时间系统模型； [0183] 参数设置模块，基于线性连续时间系统模型，设置无限时间跨度的性能指标； [0184] 矩阵获取模块，矩阵基于设置无限时间跨度的性能指标，利用离线系统数据进行计算，获得初始的稳定控制反馈矩阵； [0185] 策略获取模块，基于初始的稳定控制反馈矩阵，获得最优控制策略和干扰策略。 [0186] 相同或相似的标号对应相同或相似的部件； [0187] 附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制； [0188] 显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

意见反馈