一种有刷直流电机强化学习自适应控制方法专利检索-强化学习机器学习人工智能专利检索查询-专利查询网

一种有刷直流电机 强化学习自适应控制方法

阅读：1022发布：2020-12-13

专利汇可以提供一种有刷直流电机强化学习自适应控制方法专利检索，专利查询，专利分析的服务。并且一种有刷直流电机强化学习自适应控制方法，属于电机技术领域。本发明的目的是通过参数鲁棒自适应律在线辨识齿槽转矩、非线性摩擦力模型参数以及基于强化学习的未知扰动估计补偿策略，解决了有刷直流电机转速控制过程中死区、爬行及低速不平稳问题的有刷直流电机转速非线性控制方法。本发明步骤是：建立有刷直流电机的数学模型；有刷直流电机鲁棒自适应控制方法。本发明基于微分平坦设计前馈加反馈的二自由度控制结构。相对于传统的双环PI控制方法，该方法引入的前馈控制能够在参考输入作用瞬间而不是出现偏差后作用于被控对象，且在前馈中引入了非线性补偿信号，能够抑制扰动对电机低速控制的影响，提升转速跟踪精度。，下面是一种有刷直流电机强化学习自适应控制方法专利的具体信息内容。

权利要求

1.一种有刷直流电机强化学习自适应控制方法，其特征在于：其步骤是：
(1)建立有刷直流电机的数学模型
有刷直流电机的等效电路为电感、电阻及电动势的串联，U表示有刷直流电机电刷两端的电压，电机电枢回路平衡方程：
式中ε为电机电枢反电动势；i为电机电枢回路电流；R为电机电枢回路电阻；L为电机电枢回路电感；
推导出直流电机的感应电动势方程：
ε＝keω  (2)
式中，ε是有刷直流电机的感应电动势(V)；ke是反电势常数(V·s/rad)；
建立电机电枢力矩平衡方程：
式中，J是电机转子的转动惯量(N·m2)；T是电枢的电磁转矩(N·m)；ω是电机转速(rad/s)；Tf是电机电枢摩擦力矩(N·m)；Tcog是电机电枢与永磁体产生的齿槽转矩(N·m)；
d是电机的未知扰动(N·m)，t是时间(s)；
其中电磁转矩T由下式计算：
T＝kti (4)
其中kt是转矩灵敏度系数(N·m/A)；
摩擦力矩Tf采用LuGre动态摩擦力模型，由下式计算：
其中，σ0是鬃毛的刚度，σ1是阻尼系数，σ2是粘滞系数，z代表鬃毛的平均形变量，ωs为stribeck速率，ω为电机转速；
齿槽转矩由下式计算：
其中，Ti和分别为第i阶谐波的基频和相位，λi＝iλ1，对于有λi≠λj，θ为电机的机械角位移；基频λi是换相片的个数；
(2)有刷直流电机鲁棒自适应控制方法
①模型参数鲁棒自适应律设计
有刷直流电机中的LuGre动态摩擦力模型如式(5)(6)(7)所示，考虑到LuGre模型内部状态z在电机高速状态下容易产生不稳定现象，同时在高速时起到主导作用的摩擦力为静摩擦力，因此改进LuGre模型为如下形式：
其中：
在低速时LuGre模型不变，在高速时LuGre模型变换为静摩擦力模型：
Tf＝Fcsgn(ω)+Fvω (11)
齿槽转矩模型为如下形式：
将上式展开：
定义
齿槽转矩模型变换为如下形式：
Tcog＝Tcsin(λ1θ)+Tscos(λ1θ)  (15)
定义齿槽转矩和摩擦力模型参数
θ＝[θ1，θ2，θ3，θ4，θ5，θ6]T＝[σ0，σ1，Fc，α2，Tc，Ts]，令为真值θ的估计值；
定义
·i表示向量θ中第i个元素，θi max为的上限，θi min为的下限；
设计如下自适应律：
其中Γ＞0为对角矩阵，值与自适应收敛速度有关；
式中的自适应函数定义为如下形式：
ωe＝ω*-ω为速度跟踪误差，ω*为期望转速，定义为如下形式：
齿槽转矩和摩擦力矩为
②基于强化学习的未知扰动估计补偿策略
下式为转速环方程：
未知扰动d基本结构由两部分组成，一部分为评价器神经网络，一部分为执行器神经网络；
I、执行器ActorRBF神经网络设计
设d的最优估计为：
ω1为神经网络的逼近误差，ξa为基向量，为神经网络的最优参数权值；
为了获得接近最优的权值向量，通过强化学习自适应方法更新，执行器网络权值更新律为：
执行器网络输出为
II、评价器CriticRBF神经网络设计
评价器网络输出强化学习信号r
评价器网络权重更新律：
(23)(24)(25)式中Γa＝diag(va，va)，Γc＝diag(vc，vc)；va，vc，ηa，ηc为正的常数；ξa＝T T
[ca1，...，cal]，ξc＝[cc1，...，ccl]为径向基向量，采用高斯函数，表达式为：
μi为第i个节点的中心点，ηi为高斯函数的基带宽度，ψ＝[ωr，ω，eω]T为神经网络输入；
③基于微分平坦的控制器设计
I、电流环控制器设计：
定义平坦输出y1，控制量u1，状态量x1：
y1＝i，u1＝U，x1＝i  (27)
状态量x被写为：
前馈控制量uf1被平坦输出y及其微分表示为如下形式：
因此电流环系统是微分平坦的；
设计反馈控制器为PI形式：
Kp1(y1REF-y1)+KI1∫(y1REF-y1)dt＝λ1  (30)
电流环总的控制律为：
u1＝uf1+λ1  (31)
其中y1REF为转速环输出的期望电流值，Kp1，KI1为电流环反馈控制器可调参数；
II、转速环控制器设计：
定义平坦输出y2，控制量u2，状态量x2
y2＝ω，u2＝i，x2＝ω  (32)
转速环控制器输出为期望电流值：
i＝iacom  (33)
转速环前馈控制量可以表示为：
上式重写为：
反馈控制器设计为PI形式：
Kp2(y2REF-y2)+KI2∫(y2REF-y2)dt＝λ2  (36)
转速环总的控制律为：
式中y2REF为期望转速，Kp2，KI2为转速环反馈控制器可调参数。

说明书全文

一种有刷直流电机 强化学习自适应控制方法

技术领域

[0001] 本发明属于电机技术领域。

背景技术

[0002] 有刷直流电机是一种重要的工业基础零部件，具有力矩系数大、过载能力强、可靠性高等优点，在汽车、机器人、航空航天等领域有着广泛的应用。随着现代科学技术的飞速发展，特别是电力电子、数字控制技术和现代控制理论的巨大进步，为有刷直流电机的高精度转速控制发展创造了有利条件，有刷直流电机高精度转速控制受到了越来越多的关注。众多领域对有刷直流电机控制性能的要求在不断地提升，高精度电机转速控制方法的开发难度也因此变高。

[0003] 摩擦力矩和齿槽转矩是影响电机转速跟踪精度提升的两个关键因素。电机摩擦力矩是由电枢与电刷以及壳体等部件相互接触产生的，因此摩擦力矩是无法避免的。摩擦力矩的存在使电机转速跟踪过程中产生了低速爬行现象。电机永磁体与电枢齿槽之间相互作用产生了周期性扰动力矩，即齿槽转矩，这种力矩也是无法避免的。齿槽转矩的存在影响了电机的转速跟踪平稳度。

[0004] 在传统的有刷直流电机转速控制领域，主要存在以下的问题：

[0005] (1)在有刷直流电机的控制系统中，控制器设计往往需要精确的电机参数值。但是随着温度等外界环境的变化，有刷直流电机的摩擦力模型参数和齿槽转矩参数都会随之而变化。当常温下设定的控制器参数值相对于电机当前运行实际参数值发生较大变化时，转速控制系统的控制性能会降低，甚至无法正常工作。

[0006] (2)电机负载变化、模型不确定性等未知扰动的存在对电机转速控制系统性能有较大的影响。这种影响主要表现在电机跟踪期望转速或者精确定位时产生的波动现象，它影响了运动控制系统的控制性能。

[0007] 目前为了解决有刷直流电机转速跟踪控制器开发过程中所遇到的问题，许多专家学者在算法方面进行了努力，针对有刷直流电机转速控制问题已经提出了许多成型的方法：中国专利公开号106647254A，公开日2017年5月10日，专利申请号为201610867744.2，专利申请名称为“一种基于膜算法的永磁直流电动机转速在线控制方法”。专利申请中描述了一种基于膜算法的永磁直流电动机转速控制方法，能够在参数灵敏性低，涉及参数较少的情况下实现转速控制。该方法首先收集不同工况下转速与控制电压的数据，分别构造高斯过程模型和二阶多项式模型。然后，根据所构造的多项式响应模型和高斯过程预测模型构造三层膜的膜算法框架。最后根据膜算法框架中输入下一周期期望转速，得到预测控制电压，将输出层预测控制电压输出并作用到电机。该方法在一定程度上实现了有刷直流电机的转速控制，但是算法需要在线求解优化问题，算法过于复杂并且计算周期长，不易于工业实现。

[0008] 中国专利公开号106602945A，公开日2017年4月26日，专利申请号为20161169775.7，专利申请名称为“一种直流有刷电机转速离散控制和显式预测控制方法”。
专利申请中描述了一种基于显示预测控制有刷直流电机转速控制方法，该方法简历有刷直流电机调速系统子采样周期离散状态空间模型，能够反映直流电机调速系统本质的混杂特性，克服了传统方案开关周期内系统动态行为无法描述的缺点。但是该方法基于线性模型，没有考虑电机在低速运行过程中扰动对转速跟踪效果的影响，使该方法在低速情况下无法以较高精度控制电机转速。

[0009] 工业中常用的直流电机调速方法主要是单环或双环的PID控制方法。该方法虽然具有调试简单、工程易实现的优点，但是在电机运行过程中对扰动的抑制能力不够，导致转速跟踪误差变大，在低转速工况下这种现象尤为明显。

发明内容

[0010] 本发明的目的是通过参数鲁棒自适应律在线辨识齿槽转矩、非线性摩擦力模型参数以及基于强化学习的未知扰动估计补偿策略，解决了有刷直流电机转速控制过程中死区、爬行及低速不平稳问题的有刷直流电机转速非线性控制方法

[0011] 本发明步骤是：

[0012] (1)建立有刷直流电机的数学模型

[0013] 有刷直流电机的等效电路为电感、电阻及电动势的串联，U表示有刷直流电机电刷两端的电压，电机电枢回路平衡方程：

[0014]

[0015] 式中ε为电机电枢反电动势；i为电机电枢回路电流；R为电机电枢回路电阻；L为电机电枢回路电感；

[0016] 推导出直流电机的感应电动势方程：

[0017] ε＝keω (2)

[0018] 式中，ε是有刷直流电机的感应电动势(V)；ke是反电势常数(V·s/rad)；

[0019] 建立电机电枢力矩平衡方程：

[0020]

[0021] 式中，J是电机转子的转动惯量(N·m2)；T是电枢的电磁转矩(N·m)；ω是电机转速(rad/s)；Tf是电机电枢摩擦力矩(N·m)；Tcog是电机电枢与永磁体产生的齿槽转矩(N·m)；d是电机的未知扰动(N·m)，t是时间(s)；

[0022] 其中电磁转矩T由下式计算：

[0023] T＝kti (4)

[0024] 其中kt是转矩灵敏度系数(N·m/A)；

[0025] 摩擦力矩Tf采用LuGre动态摩擦力模型，由下式计算：

[0026]

[0027]

[0028]

[0029] 其中，σ0是鬃毛的刚度，σ1是阻尼系数，σ2是粘滞系数，z代表鬃毛的平均形变量，ωs为stribeck速率，ω为电机转速；

[0030] 齿槽转矩由下式计算：

[0031]

[0032] 其中，Ti和分别为第i阶谐波的基频和相位，λi＝iλ1，对于有λi≠λj，θ为电机的机械角位移；基频λi是换相片的个数；

[0033] (2)有刷直流电机鲁棒自适应控制方法

[0034] ①模型参数鲁棒自适应律设计

[0035] 有刷直流电机中的LuGre动态摩擦力模型如式(5)(6)(7)所示，考虑到LuGre模型内部状态z在电机高速状态下容易产生不稳定现象，同时在高速时起到主导作用的摩擦力为静摩擦力，因此改进LuGre模型为如下形式：

[0036]

[0037] 其中：

[0038]

[0039] 在低速时LuGre模型不变，在高速时LuGre模型变换为静摩擦力模型：

[0040] Tf＝Fcsgn(ω)+Fvω (11)

[0041] 齿槽转矩模型为如下形式：

[0042]

[0043] 将上式展开：

[0044]

[0045] 定义

[0046]

[0047] 齿槽转矩模型变换为如下形式：

[0048] Tcog＝Tcsin(λ1θ)+Tscos(λ1θ) (15)

[0049] 定义齿槽转矩和摩擦力模型参数

[0050] θ＝[θ1，θ2，θ3，θ4，θ5，θ6]T＝[σ0，σ1，Fc，α2，Tc，Ts]，令为真值θ的估计值；

[0051] 定义

[0052]

[0053] ·i表示向量θ中第i个元素，θi max为的上限，θi mim为的下限。

[0054] 设计如下自适应律：

[0055]

[0056] 其中Γ＞0为对角矩阵，值与自适应收敛速度有关；

[0057] 式中的自适应函数定义为如下形式：

[0058]

[0059] ωe＝ω*-ω为速度跟踪误差，ω*为期望转速，定义为如下形式：

[0060]

[0061] 齿槽转矩和摩擦力矩为

[0062]

[0063] ②基于强化学习的未知扰动估计补偿策略

[0064] 下式为转速环方程：

[0065]

[0066] 未知扰动d基本结构由两部分组成，一部分为评价器神经网络，一部分为执行器神经网络；

[0067] I、执行器ActorRBF神经网络设计

[0068] 设d的最优估计为：

[0069]

[0070] ω1为神经网络的逼近误差，ξa为基向量，为神经网络的最优参数权值；

[0071] 为了获得接近最优的权值向量，通过强化学习自适应方法更新，执行器网络权值更新律为：

[0072]

[0073] 执行器网络输出为

[0074]

[0075] II、评价器CriticRBF神经网络设计

[0076] 评价器网络输出强化学习信号r

[0077]

[0078] 评价器网络权重更新律：

[0079]

[0080] (23)(24)(25)式中Γa＝diag(va，va)，Γc＝diag(vc，vc)；va，vc，ηa，ηc为正的常数；ξa＝[ca1，...，cal]T，ξc＝[cc1，...，ccl]T为径向基向量，采用高斯函数，表达式为：

[0081]

[0082] μi为第i个节点的中心点，ηi为高斯函数的基带宽度，ψ＝[ωr，ω，eω]T为神经网络输入；

[0083] ③基于微分平坦的控制器设计

[0084] I、电流环控制器设计：

[0085] 定义平坦输出y1，控制量u1，状态量x1：

[0086] y1＝i，u1＝U，x1＝i (27)

[0087] 状态量x被写为：

[0088]

[0089] 前馈控制量uf1被平坦输出y及其微分表示为如下形式：

[0090]

[0091] 因此电流环系统是微分平坦的；

[0092] 设计反馈控制器为PI形式：

[0093] Kp1(y1REF-y1)+KI1∫(y1REF-y1)dt＝λ1 (30)

[0094] 电流环总的控制律为：

[0095] u1＝uf1+λ1 (31)

[0096] 其中y1REF为转速环输出的期望电流值，Kp1，KI1为电流环反馈控制器可调参数；

[0097] II、转速环控制器设计：

[0098] 定义平坦输出y2，控制量u2，状态量x2

[0099] y2＝ω，u2＝i，x2＝ω (32)

[0100] 转速环控制器输出为期望电流值：

[0101] i＝iacom (33)

[0102] 转速环前馈控制量可以表示为：

[0103]

[0104] 上式重写为：

[0105]

[0106] 反馈控制器设计为PI形式：

[0107] Kp2(y2REF-y2)+KI2∫(y2REF-y2)dt＝λ2 (36)

[0108] 转速环总的控制律为：

[0109]

[0110] 式中y2REF为期望转速，Kp2，KI2为转速环反馈控制器可调参数。

[0111] 本发明的有益效果是：

[0112] 1、本发明中，考虑参数的未知性和时变性，设计有刷直流电机齿槽转矩和摩擦力矩参数鲁棒自适应律，在线辨识模型参数，实现齿槽转矩和非线性摩擦力矩的精确补偿。

[0113] 2、本发明中，将负载力矩和建模误差考虑为系统扰动，设计了基于强化学习的未知扰动在线估计补偿策略，能够进一步提升控制系统的扰动抑制效果。

[0114] 3、本发明基于微分平坦设计前馈加反馈的二自由度控制结构。相对于传统的双环PI控制方法，该方法引入的前馈控制能够在参考输入作用瞬间而不是出现偏差后作用于被控对象，且在前馈中引入了非线性补偿信号，能够抑制扰动对电机低速控制的影响，提升转速跟踪精度。附图说明

[0115] 图1为本发明所述的有刷直流电机电枢回路等效电路图；

[0116] 图2为本发明所述有刷直流电机转速控制系统控制框图；

[0117] 图3为空载下，采用传统双闭环PI控制方法的正弦信号期望转速跟踪实验曲线，红线为期望转速，蓝线为实测转速，其中纵坐标为转速，单位为rad/s，横坐标为时间，单位为s；

[0118] 图4为空载下，采用传统双闭环PI控制方法的正弦信号期望转速跟踪误差曲线，其中纵坐标为转速跟踪误差，单位为rad/s，横坐标为时间，单位为s；

[0119] 图5为空载下，采用本发明所述控制方法的正弦信号期望转速转速跟踪误差曲线，红线为期望转速，蓝线为实测转速，其中纵坐标为转速，单位为rad/s，横坐标为时间，单位为s；

[0120] 图6为空载下，采用本发明所述控制方法的正弦信号期望转速跟踪误差曲线，其中纵坐标为转速跟踪误差，单位为rad/s，横坐标为时间，单位为s；

[0121] 图7为空载下，采用传统双闭环PI控制方法的跟踪1rad/s稳态低转速的跟踪曲线，其中纵坐标为实测转速，单位为rad/s，横坐标为时间，单位为s；

[0122] 图8为空载下，采用本发明所述控制方法的跟踪1rad/s稳态低转速的跟踪曲线，其中纵坐标为实测转速，单位为rad/s，横坐标为时间，单位为s。

具体实施方式

[0123] 通过不断地研究和实践，本发明的发明人发现合适的自适应率可以在线估计摩擦力矩和齿槽转矩参数，达到精确补偿电机摩擦力矩和齿槽转矩的目的；同时设计基于强化学习的未知扰动估计补偿策略，能够抑制未知扰动对电机稳态运行平稳度造成的影响，这样的方法能够给电机带来更好的转速跟踪性能。本发明以有刷直流电机数学模型为基础，设计了基于强化学习的有刷直流电机自适应控制方法。

[0124] 本发明步骤是：

[0125] (1)建立有刷直流电机的数学模型

[0126] 图1为有刷直流电机电路原理图，可以看出有刷直流电机的等效电路为电感、电阻及电动势的串联，U表示有刷直流电机电刷两端的电压，根据基尔霍夫电压定律，可以得到电机电枢回路平衡方程：

[0127]

[0128] 式中ε为电机电枢反电动势；i为电机电枢回路电流；R为电机电枢回路电阻；L为电机电枢回路电感。

[0129] 根据电磁感应定律可以推导出直流电机的感应电动势方程：

[0130] ε＝keω (2)

[0131] 式中，ε是有刷直流电机的感应电动势(V)；ke是反电势常数(V·s/rad)。

[0132] 根据牛顿第二定律建立电机电枢力矩平衡方程：

[0133]

[0134] 式中，J是电机转子的转动惯量(N·m2)；T是电枢的电磁转矩(N·m)；ω是电机转速(rad/s)；Tf是电机电枢摩擦力矩(N·m)；Tcog是电机电枢与永磁体产生的齿槽转矩(N·m)；d是电机的未知扰动(N·m)，t是时间(s)；

[0135] 其中电磁转矩T由下式计算：

[0136] T＝kti (4)

[0137] 其中kt是转矩灵敏度系数(N·m/A)；

[0138] 摩擦力矩Tf采用LuGre动态摩擦力模型，由下式计算：

[0139]

[0140]

[0141]

[0142] 其中，σ0是鬃毛的刚度，σ1是阻尼系数，σ2是粘滞系数，z代表鬃毛的平均形变量，ωs为stribeck速率，ω为电机转速。

[0143] 齿槽转矩由下式计算：

[0144]

[0145] 其中，Ti和分别为第i阶谐波的基频和相位，λi＝iλ1，对于有λi≠λj，θ为电机的机械角位移；基频λi是换相片的个数，是由电机本体的结构决定的，可以通过离线辨识的方法获取。载波的幅值和相位是预先不知道的。

[0146] (2)基于强化学习的有刷直流电机鲁棒自适应控制方法

[0147] 本实施方式所述控制方法首先针对电机中存在的齿槽转矩和非线性摩擦力，考虑到齿槽转矩参数和LuGre摩擦力模型参数存在不确定性和时变性，设计鲁棒自适应律在线估计模型参数。其次，考虑到电机未知扰动，采用强化学习方法，设计了基于Actor-Critic机制的模型不确定性估计补偿算法。最后，证明了系统是微分平坦的，设计基于微分平坦的有刷直流电机非线性转速控制器。控制系统框图如图2所示。

[0148] ①模型参数鲁棒自适应律设计

[0149] 有刷直流电机中的LuGre动态摩擦力模型如式(5)(6)(7)所示，考虑到LuGre模型内部状态z在电机高速状态下容易产生不稳定现象，同时在高速时起到主导作用的摩擦力为静摩擦力，因此改进LuGre模型为如下形式：

[0150]

[0151] 其中：

[0152]

[0153] 这样在低速时LuGre模型不变，在高速时LuGre模型变换为静摩擦力模型：

[0154] Tf＝Fcsgn(ω)+Fvω (11)。

[0155] 本发明采用占据主导作用的一阶谐波的基频，因此齿槽转矩模型为如下形式：

[0156]

[0157] 为了计算齿槽转矩，将上式展开：

[0158]

[0159] 定义

[0160]

[0161] 齿槽转矩模型变换为如下形式：

[0162] Tcog＝Tcsin(λ1θ)+Tscos(λ1θ) (15)

[0163] 由于在每次运行时齿槽转矩的相位都不相同，因此Ts，Tc为未知参数。

[0164] 自适应方法可以在线的辨识齿槽转矩和摩擦力矩模型的参数。定义齿槽转矩和摩擦力模型参数

[0165] θ＝[θ1，θ2，θ3，θ4，θ5，θ6]T＝[σ0，σ1，Fc，α2，Tc，Ts]，令为真值θ的估计值；

[0166] 定义

[0167]

[0168] ·i表示向量θ中第i个元素，θi max为的上限，θi min为的下限。

[0169] 设计如下自适应律：

[0170]

[0171] 其中Γ＞0为对角矩阵，值与自适应收敛速度有关；

[0172] 式中的自适应函数定义为如下形式：

[0173]

[0174] 这里的ωe＝ω*-ω为速度跟踪误差，ω*为期望转速，定义为如下形式：

[0175]

[0176] 因此估计出的齿槽转矩和摩擦力矩为

[0177]

[0178] ②基于强化学习的未知扰动估计补偿策略

[0179] 针对转速环存在的未知扰动，采用强化学习中的Actor-Critic机制在线估计未知扰动d。

[0180] 下式为转速环方程：

[0181]

[0182] 基于Actor-Critic机制估计系统未知扰动d基本结构由两部分组成，一部分为评价器神经网络，用于评价系统的运行状况，产生对评价信号的预报。一部分为执行器神经网络，，执行器神经网络根据评价器神经网络输出的评价信号产生动作，作用到系统中。这里执行器神经网络的输出为未知扰动d。

[0183] I、执行器ActorRBF神经网络设计

[0184] 设d的最优估计为：

[0185]

[0186] ω1为神经网络的逼近误差，ξa为基向量，为神经网络的最优参数权值。

[0187] 为了获得接近最优的权值向量，通过强化学习自适应方法更新，执行器网络权值更新律为：

[0188]

[0189] 执行器网络输出为

[0190]

[0191] II、评价器CriticRBF神经网络设计

[0192] 评价器网络输出强化学习信号r

[0193]

[0194] 评价器网络权重更新律：

[0195]

[0196] (23)(24)(25)式中Γa＝diag(va，va)，Γc＝diag(vc，vc)；va，vc，ηa，ηc为正的常数；ξa＝[ca1，...，cal]T，ξc＝[cc1，...，ccl]T为径向基向量，采用高斯函数，表达式为：

[0197]

[0198] μi为第i个节点的中心点，ηi为高斯函数的基带宽度，ψ＝[ωr，ω，eω]T为神经网络输入；

[0199] ③基于微分平坦的控制器设计

[0200] I、电流环控制器设计：

[0201] 在设计微分平坦前馈控制器之前，首先证明系统是微分平坦的。定义平坦输出y1，控制量u1，状态量x1：

[0202] y1＝i，u1＝U，x1＝i (27)

[0203] 状态量x被写为：

[0204]

[0205] 根据电机模型，前馈控制量uf1被平坦输出y及其微分表示为如下形式：

[0206]

[0207] 因此电流环系统是微分平坦的。

[0208] 设计反馈控制器为PI形式：

[0209] Kp1(y1REF-y1)+KI1∫(y1REF-y1)dt＝λ1 (30)

[0210] 电流环总的控制律为：

[0211] u1＝uf1+λ1 (31)

[0212] 其中y1REF为转速环输出的期望电流值，Kp1，KI1为电流环反馈控制器可调参数。

[0213] II、转速环控制器设计：

[0214] 首先证明转速环系统是微分平坦的，定义平坦输出y2，控制量u2，状态量x2[0215] y2＝ω，u2＝i，x2＝ω (32)

[0216] 转速环控制器输出为期望电流值：

[0217] i＝iacom (33)

[0218] 转速环前馈控制量可以表示为：

[0219]

[0220] 因此系统是微分平坦的。由于摩擦力矩和齿槽转矩模型参数采用自适应律在线估计出，未知扰动采用强化学习方法估计，因此上式重写为：

[0221]

[0222] 反馈控制器设计为PI形式：

[0223] Kp2(y2REF-y2)+KI2∫(y2REF-y2)dt＝λ2 (36)

[0224] 转速环总的控制律为：

[0225]

[0226] 式中y2REF为期望转速，Kp2，KI2为转速环反馈控制器可调参数。

[0227] 实验分析

[0228] 为了验证本发明提出控制方法的有效性吗，建立了基于dSPACE的有刷直流电机转速控制快速原型实验平台。实验电机的参数如下：

[0229]额定电压 12V
额定电流 12A
峰值堵转转矩 1.5N·m
电枢电阻 1Ω
反电势常数 0.016V·s/rad
转矩灵敏度系数 0.125N·m/A
额定转速 753r/min

[0230] 图3为在空载条件下，给定转速为ω＝4sin(t)的正弦信号，控制算法为双环PI的转速跟踪曲线，其中红线代表期望转速，蓝线代表实测转速，从图3中可以看出，在电机换向的过程中出现了死区现象，这是由于摩擦力的存在而造成的，图4为转速跟踪误差曲线，误差峰值约1.7rad/s，跟踪误差较大，说明双环PI控制不能很好的抑制电机扰动。图5为空载条件下，给定转速为ω＝4sin(t)的正弦信号，控制算法为基于强化学习的自适应鲁棒自适应控制方法的转速跟踪曲线，其中红线代表期望转速，蓝线代表实测转速，从图5中可以看出，实测转速能够紧贴期望转速，跟踪效果较好。图6为转速跟踪误差曲线，误差峰值约0.5rad/s，与双环PI控制的方法相比跟踪误差较小，低速区的死区现象得到了很好的抑制，说明本发明的方法具有较好的扰动抑制效果。

[0231] 图7为空载条件下，给定转速为1rad/s时，双环PI控制的转速跟踪曲线。从图7中可以看出在电机运行过程中，电机出现了抖动现象，转速跟踪误差峰值约为1rad/s，几乎为期望转速的100％，说明在低转速工况下，传统的双环PI控制算法扰动抑制能力较弱，电机不能很好的跟踪期望转速。图8为给定转速为1rad/s时基于强化学习的自适应鲁棒自适应控制方法的转速跟踪曲线，从图8中可以看出在电机运行过程中，电机运行较为平稳，转速跟踪误差峰值约0.4rad/s，为期望转速的40％，与传统双环PI方法相比，在低转速工况下本发明方法有着较好的扰动抑制能力。

[0232] 由上述实验结果可以看出，有刷直流电机的转速控制中，本发明提出的基于强化学习的自适应鲁棒自适应控制方法控制性能均优于传统的双环PI控制，本发明方法有较好的扰动抑制能力。

标题	发布/更新时间	阅读量
车门信息检测方法、装置、计算机设备和存储介质	2020-05-08	102
一种基于强化学习的泊车路径规划方法	2020-05-08	273
一种作业推送的方法、系统、设备和存储介质	2020-05-11	982
基于改进直流潮流算法的电网无功潮流调整方法及装置	2020-05-12	141
一种用辩证法研究钢琴教学的方法	2020-05-13	585
用于控制或调节技术系统的方法	2020-05-12	965
基于强化学习的复杂薄壁结构物体3D打印路径规划方法	2020-05-12	230
机器学习装置、控制装置以及机器学习方法	2020-05-11	842
一种多用户、多任务的移动边缘计算系统中可缓存的任务迁移方法	2020-05-12	393
基于反事实回报的多智能体深度强化学习方法、系统	2020-05-08	975

一种有刷直流电机强化学习自适应控制方法

一种有刷直流电机强化学习自适应控制方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：