一种电石炉石灰粉料压球控制系统的积分强化学习控制方法 |
|||||||
申请号 | CN201911088739.1 | 申请日 | 2019-11-08 | 公开(公告)号 | CN111086268B | 公开(公告)日 | 2021-02-23 |
申请人 | 新疆天业(集团)有限公司; 浙江大学宁波理工学院; | 发明人 | 宋晓铃; 马龙华; 文刚; 徐鸣; 姚佳清; 崔家林; 耿润华; | ||||
摘要 | 本 发明 公开了一种电石炉石灰粉料压球控制系统的积分 强化学习 控制方法,该方法提出了积分强化学习自适应 控制器 ,包括两个神经网络(Neural Network,NN):一个估计非二次策略效用函数(Strategy Utility Function,SUF)的评论器NN;另一个生成优化控制输入并使SUF最小化的执行器NN。由于控制以非仿射形式出现,应用隐函数定理得到最优控制律。首次引入离散Nussbaum增益来克服控制方向未知的困难,并采用非二次SUF来处理基于RL控制中的控制约束。采用本发明的电石炉石灰粉料压球控制系统具有调整时间短,超调小的优点,并且鲁棒性更强。 | ||||||
权利要求 | 1.一种电石炉石灰粉料压球控制系统的积分强化学习控制方法,其特征在于,该方法包括以下步骤: |
||||||
说明书全文 | 一种电石炉石灰粉料压球控制系统的积分强化学习控制方法技术领域[0001] 本发明涉及积分强化学习领域,尤其涉及一种电石炉石灰粉料压球控制系统的积分强化学习控制方法。 背景技术[0002] 我国已成为电石世界生产和消费第一大国,但电石行业整体面临能耗较高、安全环保水平低、自动化程度差三大问题。在电石炉石灰粉料压球生产过程中,压球机电流控制是其中极为重要的一个环节,对最后加工出来的球团质量起着重要的作用。现代电石炉石灰粉料压球电流控制基本上采用手动控制,这不仅使得操作人员劳动强度大、生产效率低,而且加工出来的球团质量难以保证,因此实现电石炉石灰粉料生产过程中压球机电流的自动控制是一个亟待解决的问题。 [0003] 在正常生产情况下,进料绞刀的供料量必须等于或稍大于压球机的需要量,所以操作人员应根据电机电流大小和出球情况适时地调节振动给料机和进料绞刀电机的转速。这种通过间接控制两机转速的方法虽然能够保证电流稳定在一定的范围内,但这一调节过程对人工经验要求高并且需要一定的调节时间,系统具有一定的时滞性;同时,在复杂的工况下,系统难免存在时变、非线性及现场随机干扰多等特点。针对以上控制难点,如果单纯地采用常规PID控制,难以整定PID参数,进而难以达到预期的控制效果。 发明内容[0004] 本发明的目的在于针对一种电石炉石灰粉料压球控制系统非线性、大时滞和被控对象不确定等控制难点,提出一种电石炉石灰粉料压球控制系统的积分强化学习控制方法, [0005] 本发明的目的是通过以下技术方案来实现的:一种电石炉石灰粉料压球控制系统的积分强化学习控制方法,包括以下步骤: [0006] S1:首先采集电石炉石灰粉料压球机进料铰刀电机的转速来获得电机的电流作为输出信号,利用电机的输入电压对电机电流进行控制;并定义非二次策略效用函数,使得输出信号跟踪给定的电流期望轨迹,并且使所用的输入电压信号波动最小。具体如下: [0007] 定义非二次策略效用函数SUF; [0008] [0009] 式中,k为采样步数, 为正常数,u(k)为控制输入信号,y(k)为输出信号,r>0,v为控制输入的饱和界限, 为有界的一对一函数,满足而且 为单调递增奇函数; 的梯度是有界的;q(y(k))=(y(k)-yr(k))2,其中,y(k)为输出信号,yr(k)为期望轨迹,是紧子集R上的一个已知的光滑有界函数,由于是单调奇函数,W(u(·))是正定的; [0010] 根据Bellman最优化原理,得到最优的SUF值J*(·),满足以下HJB方程: [0011] [0012] q(k)为q(y(k))的简写。 [0013] S2:在每一个采样周期内,根据隐函数定理,由最优的SUF值J*(·),得到一个最优控制律u*(k),作为电机的输入电压,可以使电石炉石灰粉料压球机电机电流跟踪给定的电流期望轨迹,最优控制律如下: [0014] [0015] 式中, τ为系统时延。 [0016] S3:利用评论器NN神经网络近似最优SUF值J*(·);评论器NN神经网络的预测误差ec(k)为: [0017] [0018] 式 中 表 示 评 论器 N N 神 经 网 络 的 输 出 ,0<rc<1; 为回归向量,由输入和输出测量值的回归值组 成,z(k)为由输入信号和输出信号的反馈值组成的向量,作为评论器NN神经网络的输入;,a(k)是开关信号;评论器NN神经网络具有双层结构, 和 分别表示其 输出的实际权向量和隐藏层的权矩阵;nc项表示隐藏层神经元的数量,nz=m+n+1,m和n分别为输入和输出信号的阶次;隐藏层的激活函数向量 简写为φc(k);评论器NN神经网络近似最优SUF值J*(·)的公式如下: [0019] [0020] 式中,T为转置符号,Wc为最优SUF的期望权矩阵,为公式中需要更新的参数,为J*(k)的有界的最优逼近误差,根据需求精度进行选择。 [0021] 评论器NN网络的权值估计误差 为: [0022] [0023] 近似权值估计误差ζc(k)表示为: [0024] [0025] 因此,预测误差为: [0026] [0027] 其中, [0028] [0029] [0030] G(k)=1+|N(x(k))| [0031] 其中,e(k)为时刻的跟踪误差,N(x(k))为Nussbaum增益,λ为一个阈值,λ>0。将预测误差的二次函数Ec(k)定义为评论器NN神经网络的最小化对象,进而确定预测误差中的ζc(k); [0032] [0034] [0035] 式中, αc∈R是可调节的自适应增益;然后根据以下引理,得到权重更新律。 [0036] 引理:考虑到矩阵A∈Rm×m,X∈Rn×m和向量b∈Rn,q∈Rm,下面的二次项关于矩阵X的导数为: [0037] [0038] 式中,矩阵A,向量b和q与矩阵X无关; [0039] 可得评论器NN的权值更新规律为 [0040] [0041] 根据得到的权值更新规律和确定的近似权值估计误差,得到需要更新的最优SUF的期望权矩阵,进而得到最优SUF值。 [0042] S4:利用执行器NN生成电石炉石灰粉料压球机输入电压信号来近似最优控制律u*(k),具体如下: [0043] 利用执行器NN近似电石炉石灰粉料压球机输入电压的控制律表达式: [0044] [0045] 式中,u(k)为控制律,是执行器的输入, 为执行器NN的输出; 和 分别为输出层的加权向量和隐含层的加权矩阵,Z(k)是 输入和输出信号的反馈信号组成的向量;S(Vaz(k))简写为S(z(k)),表示隐含层的激活函数向量,na为隐含层神经元的数量;nz=m+n+1,m和n分别为输入和输出信号的阶次; [0046] 定义辅助变量: [0047] [0048] 式中 ,Wa为期望加权向量,是需要更新的参数,则最优控制律为d*(k)表示有界误差; [0049] k+τ时刻的跟踪误差为: [0050] [0051] 式中,φ(z(k),u(k))=y(k+τ)-dt(k),dφ(k)=dt(k)-yr(k+τ)+φ(z (k),u*(k));其中,dt(k)为干扰信号,Φ(·,·)满足Lipschitz条件,并且 有界,即式中 为正常数; [0052] 因此,k+τ时刻的跟踪误差可表示为: [0053] [0054] 式中,和δ分别表示δ的上界和下界; [0055] 因此,跟踪误差的动态表达式为 [0056] [0057] 式中 为执行器的 近似权值估计误差,其中 [0058] 执行器NN的自适应律的设计原则是最小化SUF函数并跟踪期望轨迹。执行器NN的预测误差定义为 [0059] [0060] 式中, [0061] [0062] [0063] 根据Δx(k)可计算出Nussbaum增益N(x(k)); [0064] G(k)=1+|N(x(k))| [0065] [0066] [0067] 其中,λ是一个阈值,λ>0。 [0068] 调整执行器NN的权重 来最小化目标函数Ea(k)。 [0069] [0070] 评论器NN神经网络的权值更新规则是一个基于梯度的自适应算法: [0071] [0072] 式中, αa∈R+为执行器NN的自适应增益;然后根据以下引理,得到权重更新律。 [0073] 引理:考虑到矩阵A∈Rm×m,X∈Rn×m和向量b∈Rn,q∈Rm,下面的二次项关于矩阵X的导数为: [0074] [0075] 式中,矩阵A,向量b和q与矩阵X无关; [0076] [0077] 因此,得到执行器NN的权值更新规律为 [0078] [0079] 根据得到的权值更新规律和确定的跟踪误差,得到需要更新的期望加权向量Wa,进而得到最优控制律u*(k)。 [0080] 进一步地,步骤S1中 可为双曲正切函数,即 [0081] 进一步地,步骤S2具体为:根据隐函数定理,存在一个最优控制律u*(k),定义为[0082] [0083] 假设J*(·)是光滑的,J*(k)的最小值通过令q(k)+W(u(k))+J*(k+1)对于u(k)的梯度为零来精确求解,即 [0084] [0085] 求解后,可得相应的最优控制律u*(k)。 [0086] 本发明与由于采用以上技术方案,与现有技术相比,具有的优点和效果为: [0087] 现代电石炉石灰粉料压球电流控制基本上采用手动控制,这不仅使得操作人员劳动强度大、生产效率低,而且加工出来的球团质量难以保证,因此实现电石炉石灰粉料生产过程中压球机电流的自动控制是一个亟待解决的问题。现代电石炉石灰粉料控制具有严重的时滞性、非线性及不确定性等控制难点。针对以上控制难点,如果单纯地采用常规PID控制,难以整定PID参数,进而难以达到预期的控制效果。为了解决这一问题,本发明提出了积分强化学习自适应控制方法,对电石炉石灰粉料压球过程进行控制,有效地降低了操作人员的劳动强度,使石灰粉料压球生产均衡稳定。附图说明 [0088] 附图1电石炉石灰粉料压球工艺流程; [0089] 附图2电石炉石灰粉料压球机积分强化学习控制系统结构图; [0090] 附图3单位阶跃响应作用下控制系统响应曲线; [0091] 附图4模型参数失配下控制系统响应曲线。 [0092] 具体的实现方法 [0093] 本发明主要针对电石炉石灰粉料压球机的电流控制问题,提出基于积分强化学习的自适应控制方法。 [0094] 图1为电石炉石灰粉料压球工艺流程。振动给料机通过人字纹皮带将石灰粉传送给中间料斗,然后由另一个振动给料机将中间料斗中的石灰粉料送入压球机的进料铰刀,经进料铰刀充分搅碎的石灰粉料进入压球机生产压球,出球皮带把石灰球团送入振动筛,合格的石灰球团经大倾角皮带进入成品料仓待用,未成形的石灰粉料经返灰皮带返回至人字纹皮带,重新进入中间料斗再生产。 [0095] 图2为电石炉石灰粉料压球机积分强化学习控制系统结构图。采集电石炉石灰粉料压球机进料铰刀电机的转速来获得电机的电流作为输出信号,利用电机的输入电压对电机电流进行控制;考虑由非仿射纯反馈形式下的电石炉石灰粉料压球系统为下述的离散时间系统: [0096] [0097] 式中 为系统的状态变量,fi(·,·)和fn(·,·,·)是系统函数,u(k)∈R和y(k)∈R分别为系统的输入和输出,|u(k)|≤υ,式中υ是饱和界限,并且d(k)为有界的外部扰动,其界限为 即 [0098] 假设1:系统函数fi(·,·)和fn(·,·,0),i=1,···…,n-1对所有参数都是连续的,并且对第二个参数是连续可微的。 [0099] 假设2:存在常数 使得 [0100] 式中 和 [0101] 偏导数gi(·)是系统表达式的控制增益。每个控制增益的符号是固定的,但是其值和方向是未知的。 [0102] 假设3:系统函数fi(·,0)和fn(·,0,·)在Ωi和Ωn×Ωd上是Lipschitz连续的,Ωd是干扰信号所在的空间。 [0103] 为了简化控制器的设计,将系统表达式转化为无未来状态的输入输出形式: [0104] y(k+τ)=φ(z(k),u(k))+dt(k) [0105] 式中z(k)=[y(k),···…,y(k-n+1),u(k-1),···…,u(k-m+1)],τ≥1为控制延迟,m≥1,φ(·,·):Rn+m→R是未知的非线性函数.存在一个有限常数 使得[0106] 一般最优控制目标是获得可容许控制u(k)可以保证系统稳定性,来最小化定义的非二次SUF,使得输出信号跟踪给定的电流期望轨迹,并且使所用的输入电压信号波动最小: [0107] [0108] 式中, 为正常数, 为有界的一对一函数满足属于L2(Ωn).而且 为单调递增奇函数。 的梯度受到常数M的限制,可选择为双曲正切函数即 yr(k)为期望轨迹,是紧子集R 上的一个已知的光滑有界函数。因为 是单调奇函数,并且r为正数,所以W(u(·))是正定的。 [0109] 根据Bellman最优化原理,得到了最优的SUF值J*(·)应满足以下HJB方程: [0110] [0111] 在每一个采样周期内(本发明中采样周期ts=0.1s),根据隐函数定理,存在一个最优控制律u*(k)定义为 [0112] [0113] 假设函数J*(·)是光滑的,HJB方程的右边的最小值通过令q(k)+W(u(k))+J*(k+1)对于u(k)的梯度为零来精确求解,即 [0114] [0115] 因此,由上式可得相应的最优控制律u*(k),即 [0116] [0117] 式中 [0118] 根据Nussbaum增益的定义,进行评论器NN和执行器NN的设计,通过评论器NN近似最优的SUF值J*(·),通过执行器NN近似最优控制律u*(k),Nussbaum增益的定义如下。 [0119] 考虑一个离散的非线性函数N(x(k))由序列x(k)和 定义。N(x(k))是一个离散Nussbaum增益,当且仅当它满足以下两个性质: [0120] a.如果xs(k)可无限增大,那么对于任意给定的常数δ0 [0121] [0122] b.如果xs(k)≤δ1,则|SN(x(k))|≤δ2,δ1和δ2为正常量。 [0123] 式中SN(x(k))是由Δx(k)=x(k+1)-x(k)定义的: [0124] [0125] 离散的Nussbaum增益N(x(k)),被定义为: [0126] [0127] 式中 [0128] [0129] 令{x(k)}为一个离散序列,满足 [0130] [0131] 并且 [0132] 式中c1是一个常数.则s(x(k))定义如下: [0133] s(x(0))=+1。 (1) [0134] 当k=k1,如果s(x(k1))=+1,并且如果 [0135] [0136] 令s(x(k1+1))=-1否则,令s(x(k1+1))=1.但是如果s(x(k1))=-1则如果[0137] [0138] 令s(x(k1+1))=+1,否则令s(x(k1+1))=-1. [0139] 设计评论器NN近似SUFJ(k)。由于J(k)在第k步是不能得到的,评论器NN在线调整,以确保其输出收敛到接近J(k). [0140] 将评论器NN的预测误差定义为: [0141] [0142] 式中 表示评论器NN的输出 0<rc<1.评论器NN具有双层结构, 和 分别表示其输出的实际权向量 和隐含层的权矩阵。nc项表示隐藏层神经元的数量,nz=m+n+1. 为回归向量,它由输入和输出测量值的过去值组成,被选择为评论器NN的输入。隐藏层的激活函数向量可以简写为 如果隐藏层中有足够数量的神经元,评论器网络 可以以任意小的估计误差εc(k)近似最优SUF J*: [0143] [0144] 式中,Wc为最优SUF的期望权矩阵, 为有界误差。 [0145] 该网络的权值估计误差定义为 [0146] [0147] 近似权值误差表示为 [0148] [0149] 因此,预测误差为 [0150] [0151] 将预测误差的二次函数定义为评论器神经网络的最小化对象: [0152] [0153] 评论器神经网络的权值更新规则是一个基于梯度的自适应算法 [0154] [0155] 式中 [0156] [0157] 式中,αc∈R是自适应增益。然后根据以下引理,得到权重更新律。 [0158] 引理:考虑到矩阵A∈Rm×m,X∈Rn×m和向量b∈Rn,q∈Rm,下面的二次项关于矩阵X的导数是 [0159] [0160] 式中,矩阵A,向量b和q与矩阵X无关。 [0161] 结合(11)-(13)和(15),可得评论器NN的权值更新规律为 [0162] [0163] 设计执行器NN来生成输入信号来近似所需的控制输入u*(k)。所需控制信号可近似为 [0164] [0165] 式中, 为执行器NN的输出。 和分别为输出层的加权向量和隐含层的加权矩阵。S(z(k))为S(Vaz(k))的简写,表示隐含层的激活函数向量,na为隐藏层神经元的数量。 [0166] 定义辅助变量: [0167] [0168] 式中,Wa为期望加权向量,令 d*(k)表示有界误差。 [0169] 定义k时刻的跟踪误差为 [0170] [0171] 式中, 和dφ(k)=dt(k)-yr(k+τ)+φ(z(k),u*(k)).从假设3,我们知道Φ(·,·)是Lipschitz函数,并且具有有界性,即 式中 为正常数。然后,(20)可化为 [0172] [0173] 式中, 简单表示为δ(k),Uc(k)∈[min{U*(z(k)),U(k)},max{U*(z(k)),U(k)}]和 [0174] 因此,闭环跟踪误差的动态表达式为 [0175] [0176] 式中 并且 [0177] [0178] 执行器NN的自适应律的设计原则是最小化SUF函数并跟踪期望轨迹。执行器NN的预测误差定义为 [0179] [0180] 式中 [0181] [0182] [0183] G(k)=1+|N(x(k))| [0184] [0185] [0186] 式中,λ是一个阈值,λ>0。 [0187] 调整执行器NN的权重 来最小化误差 [0188] [0189] 结合(23)(24)(30)和引理2,可以得到 [0190] [0191] 式中αa∈R+为执行器NN的自适应增益。因此,得到执行器NN的权值更新算法为[0192] [0193] 图3给出了对电石炉石灰粉料压球机电流控制回路单位阶跃响应作用下的响应曲线。对电石炉石灰粉料压球机电流控制回路采取简化一阶惯性加延时环节,通过阶跃响应作图方法来获取其数学模型: [0194] [0195] 分别采用本发明提出的积分强化学习控制方法,参数为评论器NN和执行器NN的调节速率分别为αa=4.7和αc=0.01.选择阈值为λ=0.001。采用PID控制作为对比方法,通过Z-N法,并通过人工调整正定得到PID参数分别为Kp=0.45,ki=0.0017,kd=0.0075。通过仿真结果可以看出,本发明所提的控制方法具有超调量小,调节时间短的优势。 [0196] 附图4为模型参数失配下控制系统响应曲线。为了保证控制系统的效果,通过改变被控对象的参数说明所发明的控制方法的鲁棒性,被控参数K、T、τ都增加20%,所发明就积分强化学习控制方法与PID控制方法的响应结果对比在附图4中。通过比较可以看出,在模型失配情况下,积分强化学习控制明显具有调整时间短,超调小的优点,可见积分强化学习控制系统的鲁棒性更强。 |