一种基于Q-learning的柴油机空气系统多变量自抗扰控制方法专利检索-两种或多种功能的电气联合控制如点火燃料—空气混合再循环增压废气处理专利检索查询-专利查询网

一种基于Q-learning的柴油机空气系统多变量自抗扰控制方法

专利类型	发明公开	法律事件	公开; 实质审查;
专利有效性	实质审查	当前状态	实质审查
申请号	CN202310780502.X	申请日	2023-06-28
公开(公告)号	CN117028040A	公开(公告)日	2023-11-10
申请人	天津大学;	申请人类型	学校
发明人	宋康; 任玉茹; 谢辉; 薛文超; 汤国杰;	第一发明人	宋康
权利人	天津大学	权利人类型	学校
当前权利人	天津大学	当前权利人类型	学校
省份	当前专利权人所在省份：天津市	城市	当前专利权人所在城市：天津市南开区
具体地址	当前专利权人所在详细地址：天津市南开区卫津路92号	邮编	当前专利权人邮编：300072
主IPC国际分类	F02D41/00	所有IPC国际分类	F02D41/00 ; F02D41/24 ; F02D43/00 ; G06N20/00
专利引用数量	0	专利被引用数量	0
专利权利要求数量	10	专利文献类型	A
专利代理机构	天津创智睿诚知识产权代理有限公司	专利代理人	李薇;
摘要	本发明公开了一种基于Q‑learning的柴油机空气系统多变量自抗扰控制方法，包括以下步骤：建立TVA‑VGT‑EGR柴油机空气系统面向控制模型实时算出增压压力 p22、涡前压力p3以及EGR率XEGE；简化的TVA‑VGT‑EGR柴油机空气系统面向控制模型表达式写成状态空间方程形式，基于多变量自抗扰控制算法设计三输入三输出的空气系统控制器及相应扩张状态观测器和控制律，实现对p22、p3和XEGR的控制；根据所述空气系统控制器实际情况设计状态空间S和行动集A，初始化相应的状态‑行动值函数Q(s,a)＝0；设定Q‑learning算法中的折扣因子γ∈(0,1)与学习率序列并选择状态转移概率；设计回报函数，通过Q学习调节扩张状态观测器的参数，对扩张状态观测器带宽进行调节。本发明可以提高对关键参数的控制精度和抗干扰能力。
权利要求	1.一种基于Q‑learning的柴油机空气系统多变量自抗扰控制方法，其特征在于，包括以下步骤：步骤1，根据空气系统进排气部分核心动态方程，建立TVA‑VGT‑EGR柴油机空气系统面向控制模型，所述TVA‑VGT‑EGR柴油机空气系统面向控制模型包括增压压力动态方程、涡前压力动态方程和EGR率动态方程，所述TVA‑VGT‑EGR柴油机空气系统面向控制模型实时算出增压压力p22、涡前压力p3以及EGR率XEGR；步骤2，简化步骤1中的TVA‑VGT‑EGR柴油机空气系统面向控制模型表达式写成状态空间方程形式，基于多变量自抗扰控制算法设计三输入三输出的空气系统控制器及相应扩张状态观测器和控制律，实现对p22、p3和XEGR的控制；步骤3，根据所述空气系统控制器实际情况设计状态空间S和行动集A，对所有的状态s∈S和行动a∈A，初始化相应的状态‑行动值函数Q(s,a)＝0；步骤4，设定Q‑learning算法中的折扣因子γ∈(0,1)与满足如下条件的学习率序列并选择状态转移概率，下角标j表示第j次进行Q学习；步骤5，设计回报函数：在系统运行过程中，每q次采样进行一次学习，从t＝jqh时刻到t＝(j+1)qh时刻之间的带宽是一个常数，记为 ωj＝ω(t)，t∈[jqh，(j+1)qh]，j＝1，2，... h为时间步长；通过Q学习调节扩张状态观测器的参数，当系统运行到t＝jqh，j＝1,2,…时刻时，当前状态sj,并选取行动aj，然后对扩张状态观测器带宽进行调节。 2.如权利要求1所述的基于Q‑learning的柴油机空气系统多变量自抗扰控制方法，其特征在于，增压压力动态方程如下：式中，涡前压力动态方程为：式中， EGR率动态方程为：式中，其中，ATVA为TVA 阀有效流通截面积；AVGT为VGT阀有效流通截面积；AEGR为EGR阀有效流通截面积；p21为TVA阀门前压力；p22为节流阀后压力；为节流阀后压力的动态变化，p3为涡前压力，表示涡前压力的动态变化；R为理想气体常数；T22为进气温度；V22为进气歧管容积；T3为涡前温度；V3为排气歧管容积；为燃油质量流量；T21为TVA阀门前温度；1为待标定系数；T3为涡前温度；2为待标定系数；ηvol为充气效率；Vd为气缸容积；NEng为发动机转速；β为待标定系数，p4为涡后压力，XEGR为EGR率，为EGR率的动态变化，ρ2为气缸进气气体密度。 3.如权利要求1所述的基于Q‑learning的柴油机空气系统多变量自抗扰控制方法，其特征在于，步骤2中，状态空间方程如下：式中， ATVA、AVGT、AEGR分别表示TVA阀门、VGT阀门、EGR阀门的有效流通面积，f1、f2、f3分别为p22、p3和XEGR通道的总扰动，将f1、f2、f3扩张成两个状态，由此建立扩张状态观测器ESO。 4.如权利要求3所述的基于Q‑learning的柴油机空气系统多变量自抗扰控制方法，其特征在于，所述扩张状态观测器ESO为：式中，分别为增压压力、涡前压力和EGR率的ESO估计值；分别为p22、p3和XEGR通道扰动的ESO估计值；l1、l2、l3、l4、l5、l6为待整定参数。 5.如权利要求4所述的基于Q‑learning的柴油机空气系统多变量自抗扰控制方法，其特征在于，。 6.如权利要求1所述的基于Q‑learning的柴油机空气系统多变量自抗扰控制方法，其特征在于，所述步骤2中，控制律形式如下：式中， k1、k2、k3为待整定参数；为被控量目标值。 Xdes、为模型参数需求值，由经过跟踪微分器(TD)过渡产生，p22ref、 p3ref、XEGRref分别是p22、p3和XEGR的目标值。 7.如权利要求6所述的基于Q‑learning的柴油机空气系统多变量自抗扰控制方法，其特征在于，采用极点配置法整定参数Kp，将极点配置到ωc上，得到待整定参数k1、k2、k3： 8.如权利要求1所述的基于Q‑learning的柴油机空气系统多变量自抗扰控制方法，其特征在于，所述步骤3中，对于状态‑行动值函数Q，采用如下更新准则：其中，下角标j表示第j次进行Q学习，下角标n表示第n次在状态sj选择了行动aj；j+1表示选择行动a后的下一个状态，γ为折扣因子。 9.如权利要求1所述的基于Q‑learning的柴油机空气系统多变量自抗扰控制方法，其特征在于，所述步骤5中，第j次进行Q学习时通过以下公式计算系统所在状态，选取动作并计算奖励： 1)状态：第j次进行Q学习时的状态定义为 sj＝[sj，1，sj，2]，sj，1，sj，2为状态的两个分量，sj,1为第一个分量，sj,2为第二个分量。其中sj,1,sj,2的定义为： x为状态量，为p22、p3或XEGR，为x的观测值，为一段时间内的累积误差； 2)行动：第j次进行Q学习时行动aj的选取规则如下： 3)奖励：第j次进行Q学习所获得的奖励计算公式为： rj＝λsj，2 通过Q学习调节扩张状态观测器的参数，当系统运行到t＝jqh，j＝1,2,…时刻时，计算当前状态sj,并)选取行动aj。 10.如权利要求9所述的基于Q‑learning的柴油机空气系统多变量自抗扰控制方法，其特征在于，通过如下规则对观测器带宽进行调节: 其中，和ω为带宽的上限和下限，ωj‑1为第j‑1次学习的带宽，aj为第j次学习所采取的动作，调整带宽后，计算奖励函数rj和下一个状态sj+1，并更新Q表。
说明书全文	一种基于Q‑learning的柴油机空气系统多变量自抗扰控制方法技术领域 [0001] 本发明涉及发动机空气系统控制技术领域，特别是涉及一种基于Q‑learning的柴油机空气系统多变量自抗扰控制方法。背景技术 [0002] 柴油机作为一种高效清洁的内燃机，应用广泛，处在所属产业链的相对核心的位置。其中柴油机的空气系统，是一种典型的多输入、多输出，且存在较强的输出信号噪声的动态系统。其动态过程的精确控制对发动机的动力性、经济性有重要影响。但是为了追求更快的响应速度，且输出信号中存在噪声、其控制过程容易发生执行机构的抖动。 [0003] 因此，设计更快更稳定，控制效果更好的算法一直是近年来国内外学者关注的问题，并为此投入了许多精力，取得了诸多成果。文献(Rate‑based model predictive controller for diesel engine air path:Design and experimental evaluation)对柴油机空气系统进行基于速率的模型预测控制，协调控制EGR 阀、EGR节气门及VGT阀从而使进气歧管压力和EGR率达到目标值。文献(Robust rate‑based Model Predictive Control of diesel engine air path)将模型适当降阶后，设计了模型预测控制以控制EGR阀和VGT阀门开度，使得进气歧管压力和EGR率能够快速达到目标值。 [0004] 中国专利CN114704397A公开一种基于反步结构的VGT‑EGT柴油机空气系统多变量自抗扰控制方法，通过设计两输入两输出的内环控制器实现内环中对涡前压力和EGR率的控制；设计单输入单输出的外环控制器实现外环中对增压压力的控制，实现空气系统的解耦控制，但内外环的结构涉及较为复杂。 [0005] 中国专利CN 111894752 A公开了一种基于模型预测控制算法的柴油机VGT‑EGR控制方法。通过对柴油机空气系统非线性模型进行准线性处理,使其能够在发动机整个工作范围内保持原有的非线性特性,使所设计的空气系统控制器能够在稳态工况与瞬态工况均达到较高精度。但该方法计算过程复杂，计算成本高，且依赖于模型精度，因此在实际应用中存在着局限性。 [0006] 根据上述调研结果，现有针对柴油机空气系统的控制策略研究一般都集中在对EGR‑VGT协调控制，少有考虑在控制系统中加入节气门。由于EGR、VGT的耦合作用本就较为复杂，在加入节气门之后，对整个空气系统的控制难度又一步加大，需要更深一步的对节气门、EGR、VGT进行协调控制器设计。同时大部分控制器设计均未考虑实际发动机中存在输出信号噪声对动态系统的影响。综上，本专利提出基于Q‑learning的柴油机空气系统多变量自抗扰控制器的观测带宽自趋优算法，在实现解耦控制的同时提高动态系统的抗干扰能力。发明内容 [0007] 本发明的目的是针对现有技术中存在的技术缺陷，而提供一种基于Q‑learning的柴油机空气系统多变量自抗扰控制方法，以解决空气系统各控制回路间复杂的交叉耦合关系以及相互之间的耦合影响，在自抗扰控制快速抑制高频的干扰的同时，最小化控制系统的实际输出与期望输出之间误差，持续搜寻不同跟踪误差下的最佳观测器带宽，实现控制效果的不断改善。 [0008] 为实现本发明的目的所采用的技术方案是： [0009] 一种基于Q‑learning的柴油机空气系统多变量自抗扰控制方法，包括以下步骤： [0010] 步骤1，根据空气系统进排气部分核心动态方程，建立TVA‑VGT‑EGR柴油机空气系统面向控制模型，所述TVA‑VGT‑EGR柴油机空气系统面向控制模型包括增压压力动态方程、涡前压力动态方程和EGR率动态方程，所述TVA‑VGT‑EGR柴油机空气系统面向控制模型实时算出增压压力p22、涡前压力p3以及EGR率XEGR； [0011] 步骤2，简化步骤1中的TVA‑VGT‑EGR柴油机空气系统面向控制模型表达式写成状态空间方程形式，基于多变量自抗扰控制算法(TITOADRC)设计三输入三输出的空气系统控制器及相应扩张状态观测器(ESO)和控制律，实现对p22、p3和XEGR的控制； [0012] 步骤3，根据所述空气系统控制器实际情况设计状态空间S和行动集A，对所有的状态s∈S和行动a∈A，初始化相应的状态‑行动值函数Q(s，a)＝0； [0013] 步骤4，设定Q‑learning算法中的折扣因子γ∈(0，1)与满足如下条件的学习率序列 [0014] [0015] 并选择状态转移概率，下角标j表示第j次进行Q学习； [0016] 步骤5，设计回报函数：在系统运行过程中，每q次采样进行一次学习，从t＝jqh时刻到t＝(j+1)qh时刻之间的带宽是一个常数，记为 [0017] ωj＝ω(t)，t∈[jqh，(j+1)qh]，j＝1，2，... [0018] h为时间步长； [0019] 通过Q学习调节扩张状态观测器的参数，当系统运行到t＝jqh，j＝1，2，...时刻时，当前状态sj，并选取行动aj，然后对扩张状态观测器带宽进行调节。 [0020] 在上述技术方案中，增压压力动态方程如下： [0021] [0022] 式中， [0023] 涡前压力动态方程为： [0024] [0025] 式中， [0026] EGR率动态方程为： [0027] [0028] 式中， [0029] 其中，ATVA为TVA阀有效流通截面积；AVGT为VGT阀有效流通截面积；AEGR为EGR阀有效流通截面积；p21为TVA阀门前压力；p22为节流阀后压力；为节流阀后压力的动态变化，p3为涡前压力，表示涡前压力的动态变化；R为理想气体常数；T22为进气温度；V22为进气歧管容积；T3为涡前温度；V3为排气歧管容积；为燃油质量流量；T21为TVA阀门前温度；σ1为待标定系数；T3为涡前温度；σ2为待标定系数；ηvol为充气效率；Vd为气缸容积；NEng为发动机转速；β为待标定系数，p4为涡后压力，XEGR为EGR率，为EGR率的动态变化，ρ2为气缸进气气体密度。 [0030] 在上述技术方案中，步骤2中，状态空间方程如下： [0031] [0032] 式中，ATVA、AVGT、AEGR分别表示TVA阀门、VGT阀门、EGR阀门的有效流通面积。f1、 f2、f3分别为p22、p3和XEGR通道的总扰动，将f1、f2、f3扩张成两个状态，由此建立ESO： [0033] [0034] 式中，分别为增压压力、涡前压力和EGR率的ESO估计值；分别为p22、p3和XEGR通道扰动的ESO估计值；l1、l2、l3、l4、l5、l6为待整定参数。 [0035] 在上述技术方案中， [0036] [0037] 在上述技术方案中，所述步骤2中，控制律形式如下： [0038] [0039] 式中， k1、k2、k3为待整定参数；为被控量目标值。Xdes、为模型参数需求值，由经过跟踪微分器(TD)过渡产生，p22ref、 p3ref、XEGRref分别是p22、p3和XEGR的目标值。 [0040] 在上述技术方案中，采用极点配置法整定参数Kp，将极点配置到ωc上，得到待整定参数k1、k2、k3： [0041] [0042] 在上述技术方案中，所述步骤3中，对于状态‑行动值函数Q，采用如下更新准则： [0043] [0044] 其中，下角标j表示第j次进行Q学习，下角标n表示第n次在状态sj选择了行动aj；sj+1表示选择行动a后的下一个状态，γ为折扣因子。 [0045] 在上述技术方案中，所述步骤5中，第j次进行Q学习时通过以下公式计算系统所在状态，选取动作并计算奖励： [0046] 2)状态：第j次进行Q学习时的状态定义为 [0047] sj＝[sj，1，sj，2]，sj，1，sj，2为状态的两个分量，sj，1为第一个分量，sj，2为第二个分量。 [0048] 其中sj，1，sj，2的定义为： [0049] [0050] x为状态量，为p22、p3或XEGR，为x的观测值，为一段时间内的累积误差。 [0051] 2)行动：第j次进行Q学习时行动aj的选取规则如下： [0052] [0053] 4)奖励：第j次进行Q学习所获得的奖励计算公式为： [0054] rj＝λsj，2 [0055] 通过Q学习调节扩张状态观测器的参数，当系统运行到t＝jqh，j＝1，2，...时刻时，计算当前状态sj，并)选取行动aj。 [0056] 在上述技术方案中，通过如下规则对观测器带宽进行调节： [0057] [0058] 其中，和ω为带宽的上限和下限，ωj‑1为第j‑1次学习的带宽，aj为第j次学习所采取的动作，调整带宽后，计算奖励函数rj和下一个状态sj+1，并更新Q表。 [0059] 与现有技术相比，本发明的有益效果是： [0060] 1、相比较于传统控制结构，本发明可以提高对关键参数的控制精度和抗干扰能力，使系统动态响应过程更平滑。 [0061] 2、本发明研发控制器带宽自学习算法，与传统的常值ESO相比，具有更精确跟踪内部不确定动态和外部扰动的能力。附图说明 [0062] 图1 TVA‑VGT‑EGR空气系统整体控制框架图 [0063] 图2 Q‑leaning步骤示意图 [0064] 图3控制器对ωo的参数敏感型曲线 [0065] 图4 FTP75循环测试工况仿真曲线 [0066] 图5噪声条件下常值带宽与自适应带宽扰动观测对比 [0067] 图6干扰情况下QL控制器仿真曲线具体实施方式 [0068] 以下结合具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。 [0069] 实施例1 [0070] 一种基于Q‑learning的柴油机空气系统多变量自抗扰控制方法，包括以下步骤： [0071] 步骤1，根据空气系统进排气部分核心动态方程，建立TVA‑VGT‑EGR柴油机空气系统面向控制模型，TVA‑VGT‑EGR柴油机空气系统面向控制模型包括增压压力动态方程、涡前压力动态方程和EGR率动态方程，TVA‑VGT‑EGR柴油机空气系统面向控制模型实时算出增压压力p22、涡前压力p3以及EGR率XEGR。 [0072] 增压压力动态方程如下： [0073] [0074] 式中， [0075] 涡前压力动态方程为： [0076] [0077] 式中， [0078] EGR率动态方程为： [0079] [0080] 式中， [0081] 式(1)‑式(3)中，ATVA为TVA阀有效流通截面积；AVGT为VGT阀有效流通截面积；AEGR为EGR阀有效流通截面积；p21为TVA阀门前压力；p22为节流阀后压力；为节流阀后压力的动态变化，p3为涡前压力，表示涡前压力的动态变化；R为理想气体常数；T22为进气温度；V22为进气歧管容积；T3为涡前温度；V3为排气歧管容积；为燃油质量流量；T21为TVA阀门前温度；σ1为待标定系数；T3为涡前温度；σ2为待标定系数；ηvol为充气效率；Vd为气缸容积；NEng为发动机转速；β为待标定系数，p4为涡后压力，XEGR为EGR率，为EGR率的动态变化，ρ2为气缸进气气体密度。 [0082] 步骤2，简化步骤1中的TVA‑VGT‑EGR柴油机空气系统面向控制模型表达式写成状态空间方程形式，基于多变量自抗扰控制算法(TITOADRC)设计三输入三输出的控制器(空气系统多变量自抗扰控制器)及相应ESO和控制律，实现对p22、p3和XEGR的控制。 [0083] 状态空间方程如下： [0084] [0085] 式中，ATVA、AVGT、AEGR分别表示TVA阀门、VGT阀门、EGR阀门的有效流通面积。f1、 f2、f3分别为p22、p3和XEGR通道的总扰动，将f1、f2、f3扩张成两个状态，由此建立ESO： [0086] [0087] 式中，分别为增压压力、涡前压力和EGR率的ESO估计值；分别为p22、p3和XEGR通道扰动的ESO估计值；l1、l2、l3、l4、l5、l6为待整定参数。 [0088] 控制律形式如下： [0089] [0090] 式中， k1、k2、k3为待整定参数；为被控量目标值。Xdes、为模型参数需求值，由经过跟踪微分器(TD)过渡产生，p22ref、 p3ref、XEGRref分别是p22、p3和XEGR的目标值。 [0091] 根据步骤2中简化的TVA‑VGT‑EGR柴油机空气系统面向控制模型表达式搭建空气系统多变量自抗扰控制器，在此基础上设计Q‑learning算法，具体如以下步骤3‑步骤5： [0092] 步骤3，根据空气系统控制器实际情况设计状态空间S和行动集A，对所有的状态s∈S和行动a∈A，初始化相应的状态‑行动值函数Q(s，a)＝0， [0093] 对所有的状态s∈S和行动a∈A，初始化相应的状态‑行动值函数Q(s，a)＝0，对于状态‑行动值函数Q，采用如下更新准则： [0094] [0095] 其中，下角标j表示第j次进行Q学习，下角标n表示第n次在状态sj选择了行动aj；sj+1表示选择行动a后的下一个状态，γ为折扣因子； [0096] 步骤4，设定Q‑learning算法中的折扣因子γ∈(0，1)与满足如下条件的学习率序列 [0097] [0098] 并选择状态转移概率； [0099] 步骤5，设计回报函数：在系统运行过程中，每q次采样进行一次学习，从t＝jqh时刻到t＝(j+1)qh时刻之间的带宽是一个常数，记为 [0100] ωj＝ω(t)，t∈[jqh，(j+1)qh]，j＝1，2，... (8) [0101] h为时间步长。 [0102] 第j次进行Q学习时通过以下公式计算系统所在状态，选取动作并计算奖励： [0103] 3)状态：第j次进行Q学习时的状态定义为 [0104] sj＝[sj，1，sj，2]，sj，1，sj，2为状态的两个分量，sj，1为第一个分量，sj，2为第二个分量。 [0105] 其中sj，1，sj，2的定义为： [0106] [0107] x为状态量，如p22、p3或XEGR，为x的观测值，，为一段时间内的累积误差。 [0108] 2)行动：第j次进行Q学习时行动aj的选取规则如下： [0109] [0110] 5)奖励：第j次进行Q学习所获得的奖励计算公式为： [0111] rj＝λsj，2 (11) [0112] 通过Q学习调节扩张状态观测器的参数，当系统运行到t＝jqh，j＝1，2，...时刻时，依照(9)计算当前状态sj，并依据(10)选取行动aj，然后通过如下规则对观测器带宽进行调节： [0113] [0114] 其中，和ω为带宽的上限和下限。ωj‑1为第j‑1次学习的带宽，aj为第j次学习所采取的动作。调整带宽后，根据(11)计算奖励函数rj和下一个状态sj+1，并按式(7)更新Q表。 [0115] 实施例2 [0116] 所述步骤1中，TVA‑VGT‑EGR柴油机空气系统面向控制模型的建立方法如下： [0117] 根据理想气体状态方程和质量守恒原理，柴油机增压压力满足如下微分方程： [0118] [0119] 式中，p22为节流阀后压力；为节流阀后压力的动态变化，R为理想气体常数；T22为进气温度；V22为进气歧管容积；分别为节气门质量流量、EGR质量流量和发动机进气量。 [0120] 增压器涡前压力满足如下微分方程： [0121] [0122] 式中，表示涡前压力的动态变化；T3为涡前温度；p3为涡前压力，V3为排气歧管容积；为燃油质量流量；为VGT质量流量，即涡轮机质量流量。 [0123] 式(13)与(14)中各质量流量子模型简述如下： [0124] 因此节气门质量流量模型如式(15)所示： [0125] [0126] 式中，ATVA为TVA阀有效流通截面积；T21为TVA阀门前温度；p21为TVA阀门前压力；σ1为待标定系数； [0127] EGR质量流量按照孔板流量方程建模，如式(16)所示： [0128] [0129] 式中，AEGR为EGR阀有效流通截面积；T3为涡前温度；p3为涡前压力；σ2为待标定系数。 [0130] 采用速度密度法建立发动机充气量模型，可计算得到发动机进气量如式(17)所示： [0131] [0132] 式中，ηvol为充气效率；Vd为气缸容积；NEng为发动机转速。 [0133] VGT质量流量按照孔板流量方程建模，如式(18)所示： [0134] [0135] 式中，AVGT为VGT阀有效流通截面积；β为待标定系数，p4为涡后压力。 [0136] 根据EGR率的定义式有： [0137] [0138] 式中，XEGR为EGR率，mEGR为EGR流量，mEng为发动机进气量。 [0139] 根据EGR流量变化占进气歧管总气体的比例得到EGR率的动态方程： [0140] [0141] 对面向控制模型做进一步简化，建立由增压压力动态方程、涡前压力动态方程和EGR率动态方程组成的TVA‑VGT‑EGR柴油机空气系统面向控制模型。 [0142] 增压压力动态方程可写为： [0143] [0144] 式中， [0145] 涡前压力动态方程可写为： [0146] [0147] 式中， [0148] EGR率动态方程可写为： [0149] [0150] 式中， [0151] 所述步骤2中，根据式(21)、式(22)、式(23)，系统状态空间方程可写为： [0152] [0153] 式中，将f1、f2、f3扩张成两个状态，由此建立ESO： [0154] [0155] 式中，分别为增压压力、涡前压力和EGR率的ESO估计值；分别为增压压力、涡前压力和EGR率的ESO估计值的变化率；分别为 p22、p3和XEGR通道扰动的ESO估计值；分别为p22、p3和XEGR通道扰动的ESO估计值的变化率；l1、l2、l3、l4、l5、l6为待整定参数。采用极点配置法降低参数整定难度，将ESO极点配置到ωo上，得到待整定参数l1、l2、l3、l4、l5、l6： [0156] [0157] ESO收敛后，分别逼近p22、p3和XEGR，同理分别逼近f1、f2和f3，f1、f2和f3可以实时被观测。 [0158] 控制律基本形式如下： [0159] [0160] 式中U为控制输入，U0为虚拟控制量，为F的观测值，式(28)可表示为一个简化的比例控制器形式： [0161] U0＝Kp(Xdes‑X) (28) [0162] 式中， k1、k2、k3为待整定参数；为被控量目标值，p22des、p3des、XEGRdes分别为p22、p3以及XEGR的需求值。 [0163] 联立式(27)和式(28)，并引入模型信息前馈及被控量目标值变化率前馈，得到完整控制律如式(29)： [0164] [0165] 其中，项为被控量目标值变化率前馈，‑AXdes‑Q项为模型信息前馈项。采用极点配置法整定参数Kp，将极点配置到ωc上，得到待整定参数k1、k2、k3： [0166] [0167] Q学习算法包含状态、行动、奖励和状态‑行动值函数四个主要组成部分，其中状态‑价值函数包含了两个可以调节的因素：学习率与折扣因子。 [0168] 将Q‑learning的方法运用到柴油机空气系统自抗扰控制器中，把当前观测器带宽及控制系统的实际输出与期望输出之间误差e作为强化学习过程中的状态，对带宽的调整组合作为动作集，通过设定奖励，实现Q学习。具体执行步骤如下： [0169] 具体的，所述步骤3‑步骤5如下所述： [0170] 步骤3根据空气系统控制器实际情况设计状态空间S，将实际输出与期望输出之间误差e根据数值划分为10段，同时根据仿真结果曲线如图3，选择合理的参数范围，取ω＝0.5，和ω为带宽的上限和下限，从而得到400个不同状态。将带宽调整动作定义为行动集A∈[‑0.5，0，0.5]，表示将保持当前的带宽不变或者在当前带宽数值的基础上加0.5或减0.5。因此，Q表的维数为400×3的矩阵，Q表的表达式为 [0171] [0172] 步骤4，选择折扣因子γ∈(0，1)和学习率α及状态转移概率。在本研究中γ＝0.9，α＝0.3，状态转移概率选择ε‑greedy概率。为了更快速地跟踪上目标压力的目标值，采用rand生成(0，1)之间的随机数执行贪心策略，小于贪心率则按Q表格选取行动，否则随机行动。在本研究中ε＝0.27。 [0173] 步骤5，设计回报函数，在本文中，h＝0.001，q＝100λ＝‑1，将一段时间内误差的累积作为奖励，误差越大，奖励越小。根据实际控制系统误差范围进行调整。 [0174] 每100次采样进行一次学习，按照公式(9)计算当前状态sj并按照公式(10)选取行动aj，然后按照(12)调整观测器带宽。其他采样时刻观测器带宽保持不变。在调整带宽的同时，通过公式(11)计算上一次行动的奖励并根据公式(7)更新Q值。 [0175] 图4在FTP75驾驶循环工况下Q‑leaming与全局优化的PID算法进气歧管压力回路对比曲线，结果表明，该算法在跟踪效果上明显优于PID控制。 [0176] 考虑到输出信号中存在噪声、其控制过程容易发生执行机构的抖动。以进气歧管压力回路为例，稳态工况下，在p22参数中引入白噪声，频率为0.1，其仿真结果如图5所示。带宽通过Q学习在线调整，观测器带宽在50s时达到稳定，并且在稳定扰动处于[‑6.6‑0.005，‑6.6+0.005]之间，由于初始阶段数据不足，Q‑learning的调节效果较差，但在后续阶段得到了良好的性能。此过程中ωo参数的不断变化，可以看出QL通过降低带宽达到提高滤波性能的效果。 [0177] 为验证Q‑learning算法的自抗扰能力，模拟实际发动机稳态工况突然受到外部干扰进行仿真验证，如图6，从仿真曲线上看，在控制过程收到外部干扰使控制误差突然增大时，观测带宽可以快速增加以提高扰动抑制速度。 [0178] 以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

意见反馈