首页 / 专利库 / 人工智能 / 人工智能 / 机器学习 / 强化学习 / 一种准比例谐振控制器参数调整方法及系统

一种准比例谐振控制器参数调整方法及系统

阅读:859发布:2020-05-14

专利汇可以提供一种准比例谐振控制器参数调整方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种准比例谐振 控制器 参数调整方法,包括如下步骤:获取逆变器及负载的模型,以此作为参数调整 强化学习 训练环境;构建深度确定性策略梯度强化学习 框架 ,定义深度确定性策略梯度强化学习框架参数;深度确定性策略梯度强化学习框架参数包括状态、动作和奖励值;在参数调整强化学习训练环境中训练参数调整强化学习框架的智能体。本发明基于强化学习方法实现多并联准比例谐振控制器控制参数的整定方法,由于强化学习控制 算法 对被控对象的数学模型和运行状态不敏感,其 自学习 能 力 对参数变化或外部干扰具有较强的自适应性和鲁棒性,能够在多准比例谐振控制器并联时满足控制要求,并能够在负载变化时确保控制效果。,下面是一种准比例谐振控制器参数调整方法及系统专利的具体信息内容。

1.一种准比例谐振控制器参数调整方法,其特征在于,基于强化学习进行参数调整,包括如下步骤:
获取逆变器及负载的模型,以此作为参数调整强化学习训练环境;
构建深度确定性策略梯度强化学习框架,定义深度确定性策略梯度强化学习框架参数;所述深度确定性策略梯度强化学习框架参数包括状态、动作和奖励值;
在所述参数调整强化学习训练环境中训练所述参数调整强化学习框架的智能体,并在训练完成后得到最终的准比例谐振控制器参数。
2.根据权利要求1所述的准比例谐振控制器参数调整方法,其特征在于,所述步骤:在所述参数调整强化学习训练环境中训练所述参数调整强化学习框架的智能体中,训练方法包括:
设置准比例谐振控制器参数,得到输出交流量,将所述输出交流量与预设的参考交流量比对得到误差值;
根据所述误差值给出奖励值,根据奖励值和状态做出动作;
重复上述步骤直至达到结束条件,输出最后一次设置的准比例谐振控制器参数。
3.根据权利要求2所述的准比例谐振控制器参数调整方法,其特征在于,所述步骤在所述参数调整强化学习训练环境中训练所述参数调整强化学习框架的智能体中的训练方法中,每个状态对应一个调整大阶段,每个调整大阶段包括若干个调整小阶段,训练方法包括步骤:
设置准比例谐振控制器参数,得到输出交流量,将所述输出交流量与预设的参考交流量比对得到误差值;根据所述误差值给出奖励值,根据奖励值和状态做出动作。
4.根据权利要求3所述的准比例谐振控制器参数调整方法,其特征在于,所述步骤:根据所述误差值给出奖励值,根据奖励值和状态做出动作中,给出奖励值包括:
当前的误差值小于前一状态的误差值时,进行第一奖励;当前的误差值在预设的误差范围内时,进行第二奖励;第一奖励大于第二奖励。
5.根据权利要求4所述的准比例谐振控制器参数调整方法,其特征在于,所述结束条件包括:
当完成一个调整大阶段中所有的小阶段时,达到结束条件;或
当奖励值为第二奖励时,达到结束条件。
6.根据权利要求1所述的准比例谐振控制器参数调整方法,其特征在于,所述模型为仿真工具中的仿真模型,或建模得到的离散迭代模型;所述模型用于在设置准比例谐振控制器参数时得到输出交流量,所述误差值满足如下公式:
其中,N为一个周期采样点,n为谐波次数,An为n次谐波的幅值,uo为输出电压,uref为参考电压。
7.根据权利要求1所述的准比例谐振控制器参数调整方法,其特征在于,所述深度确定性策略梯度强化学习框架参数中,所述状态包括逆变器直流侧电压和负载参数;
所述负载参数通过参数辨识方法获得。
8.根据权利要求3所述的准比例谐振控制器参数调整方法,其特征在于,所述深度确定性策略梯度强化学习框架参数中,所述动作包括:
改变各准比例谐振控制器的谐振参数及总的比例参数。
9.一种准比例谐振控制器参数调整系统,其特征在于,应用于如权利要求1至8任一项所述的方法,包括:
获取模,用于运行逆变器及负载的模型、构建深度确定性策略梯度强化学习框架,以获取状态转移函数和奖励函数;
定义模块,用于根据所述状态转移函数和奖励函数定义状态和奖励值;
训练模块,用于在所述参数调整强化学习训练环境中训练所述参数调整强化学习框架的智能体。
10.根据权利要求9所述的准比例谐振控制器参数调整系统,其特征在于,还包括输出模块,用于输出训练完成后最终的准比例谐振控制器参数。

说明书全文

一种准比例谐振控制器参数调整方法及系统

技术领域

[0001] 本发明涉及自动化技术领域,尤其涉及一种准比例谐振控制器参数调整方法及系统。

背景技术

[0002] 准比例谐振控制可以实现交流量的无差跟踪,在逆变器控制中应用广泛。当逆变器输出多个频点的交流量时,需要多准比例谐振控制器并联。多并联准比例谐振控制器控制参数较多、整定复杂,特别是当负载变化时,固定的准比例谐振控制器控制参数常常不能满足控制要求。
[0003] 目前的多并联准比例谐振控制器控制参数整定多依赖伯德图等经典控制理论方法,整定复杂;并且整定时往往针对某种特定负载情况整定,导致逆变器不能适应多负载情况,当负载变化时,控制效果大打折扣。

发明内容

[0004] 针对现有技术的不足,本发明提供一种准比例谐振控制器参数调整方法及系统,解决现有技术中多并联准比例谐振控制器的控制效果不佳的问题。
[0005] 为实现上述目的,本发明提供以下的技术方案:
[0006] 一种准比例谐振控制器参数调整方法,基于强化学习进行调整,包括如下步骤:
[0007] 获取逆变器及负载的模型,以此作为参数调整强化学习训练环境;
[0008] 构建深度确定性策略梯度强化学习框架,定义深度确定性策略梯度强化学习框架参数;所述深度确定性策略梯度强化学习框架参数包括状态、动作和奖励值;
[0009] 在所述参数调整强化学习训练环境中训练所述参数调整强化学习框架的智能体,并在训练完成后得到最终的准比例谐振控制器参数。
[0010] 可选的,所述步骤:在所述参数调整强化学习训练环境中训练所述参数调整强化学习框架的智能体中,训练方法包括:
[0011] 设置准比例谐振控制器参数,得到输出交流量,将所述输出交流量与预设的参考交流量比对得到误差值;
[0012] 根据所述误差值给出奖励值,根据奖励值和状态做出动作;
[0013] 重复上述步骤直至达到结束条件,输出最后一次设置的准比例谐振控制器参数。
[0014] 可选的,所述步骤在所述参数调整强化学习训练环境中训练所述参数调整强化学习框架的智能体中的训练方法中,每个状态对应一个调整大阶段,每个调整大阶段包括若干个调整小阶段,训练方法包括步骤:
[0015] 设置准比例谐振控制器参数,得到输出交流量,将所述输出交流量与预设的参考交流量比对得到误差值;根据所述误差值给出奖励值,根据奖励值和状态做出动作。
[0016] 可选的,所述步骤:根据所述误差值给出奖励值,根据奖励值和状态做出动作中,给出奖励值包括:
[0017] 当前的误差值小于前一状态的误差值时,进行第一奖励;当前的误差值在预设的误差范围内时,进行第二奖励;第一奖励大于第二奖励。
[0018] 可选的,所述结束条件包括:
[0019] 当完成一个调整大阶段中所有的小阶段时,达到结束条件;或
[0020] 当奖励值为第二奖励时,达到结束条件。
[0021] 可选的,所述模型为仿真工具中的仿真模型,或建模得到的离散迭代模型;所述模型用于在设置准比例谐振控制器参数时得到输出交流量,所述误差值满足如下公式:
[0022]
[0023] 其中,N为一个周期采样点,n为谐波次数,An为n次谐波的幅值,uo为输出电压,uref为参考电压。
[0024] 可选的,所述深度确定性策略梯度强化学习框架参数中,所述状态包括逆变器直流侧电压和负载参数;
[0025] 所述负载参数通过参数辨识方法获得。
[0026] 可选的,所述深度确定性策略梯度强化学习框架参数中,所述动作包括:
[0027] 改变各准比例谐振控制器的谐振参数及总的比例参数。
[0028] 本发明还提供了一种准比例谐振控制器参数调整系统,应用于如上所述的方法,包括:
[0029] 获取模,用于运行逆变器及负载的模型、构建深度确定性策略梯度强化学习框架,以获取状态转移函数和奖励函数;
[0030] 定义模块,用于根据所述状态转移函数和奖励函数定义状态和奖励值;
[0031] 训练模块,用于在所述参数调整强化学习训练环境中训练所述参数调整强化学习框架的智能体。
[0032] 可选的,还包括输出模块,用于输出训练完成后最终的准比例谐振控制器参数。
[0033] 与现有技术相比,本发明具有以下有益效果:
[0034] 本发明提供了一种准比例谐振控制器参数调整方法及系统,基于强化学习方法实现多并联准比例谐振控制器控制参数的整定方法,由于强化学习控制算法对被控对象的数学模型和运行状态不敏感,其自学习对参数变化或外部干扰具有较强的自适应性和鲁棒性,能够在多准比例谐振控制器并联时满足控制要求,并能够在负载变化时确保控制效果。附图说明
[0035] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
[0036] 图1为本发明提供的一种准比例谐振控制器参数调整方法的流程框图
[0037] 图2为本发明提供的一种准比例谐振控制器参数调整方法的原理图;
[0038] 图3为本发明提供的一种准比例谐振控制器参数调整方法与强化学习方法结合解释的原理图;
[0039] 图4为本发明提供的一种准比例谐振控制器参数调整方法与强化学习方法结合解释的又原理图;
[0040] 图5为本发明提供的一种准比例谐振控制器参数调整方法中步骤S3的流程框图。

具体实施方式

[0041] 为使得本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0042] 当逆变器输出多个频点的交流量时,需要多准比例谐振控制器并联;然而,拥有与多并联准比例谐振控制器控制参数较多、整定复杂,特别是当负载变化时,固定的准比例谐振控制器控制参数常常不能满足控制要求。此外,目前的多并联准比例谐振控制器控制参数整定多依赖伯德图等经典控制理论方法,整定复杂;并且整定时往往针对某种特定负载情况整定,导致逆变器不能适应多负载情况,当负载变化时,控制效果大打折扣。
[0043] 由于强化学习控制算法对被控对象的数学模型和运行状态不敏感,其自学习能力对参数变化或外部干扰具有较强的自适应性和鲁棒性,目前在机器人控制、电子游戏上有较多应用。本发明旨在于提供一种基于强化学习的准比例谐振控制器参数调整方法及系统,以实现参数的在线调整。
[0044] 下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
[0045] 请结合参考图1、图2,本发明实施例提供一种准比例谐振控制器参数调整方法,基于强化学习进行调整,包括如下步骤:
[0046] S1、获取逆变器及负载的模型,以此作为参数调整强化学习训练环境。
[0047] 该步骤中,模型为仿真工具中的仿真模型,或建模得到的离散迭代模型;模型用于在设置准比例谐振控制器参数时得到输出交流量,误差值满足如下公式:
[0048]
[0049] 其中,N为一个周期采样点,n为谐波次数,An为n次谐波的幅值,uo为输出电压,uref为参考电压。
[0050] 通过运行该模型,能够得到训练数据集,从而在设置一个准比例谐振控制器参数时能够得到输出交流量,进而得到该输出交流量与参考交流量之间的误差值。
[0051] S2、构建深度确定性策略梯度强化学习框架,定义深度确定性策略梯度强化学习框架参数。
[0052] 其中,深度确定性策略梯度强化学习框架参数包括状态、动作和奖励值。
[0053] 该步骤中,通过获取状态转移函数和奖励函数,并根据状态转移函数和奖励函数定义状态和奖励值。
[0054] 具体的,在运行步骤S1中的模型时所得到的数据集包括:第一状态、动作;在第一状态下执行动作而达到的第二状态;在第一状态下执行动作而得到的奖励值;还包括基于第二状态和奖励值的结束条件。
[0055] S3、在参数调整强化学习训练环境中训练参数调整强化学习框架的智能体,并在训练完成后得到最终的准比例谐振控制器参数。
[0056] 该步骤中,当达到结束条件时,停止训练,并得到训练完成后最终的准比例谐振控制器参数。
[0057] 图3、图4均为将准比例谐振控制器参数调整方法于强化学习方法结合起来的示意图。本发明提供的方法中,强化学习智能体经过训练可以实现准比例谐振控制控制器参数自整定,无需负载的人工整定。此外,通过将强化学习用于准比例谐振控制控制器参数在线调整,逆变器在不同负载条件下均能保证良好的控制效果。
[0058] 请参考图5,具体的,步骤S3中的训练方法包括:
[0059] S301、设置准比例谐振控制器参数,得到输出交流量,将输出交流量与预设的参考交流量比对得到误差值;
[0060] S302、根据误差值给出奖励值,根据奖励值和状态做出动作;
[0061] S303、重复上述步骤直至达到结束条件,输出最后一次设置的准比例谐振控制器参数。
[0062] 其中,步骤S2中定义的深度确定性策略梯度强化学习框架参数中,状态包括逆变器直流侧电压和负载参数;负载参数通过参数辨识方法获得。
[0063] 进一步地,每个状态对应一个调整大阶段,每个调整大阶段包括若干个调整小阶段。训练时,在每个调整小阶段中不断根据状态、动作和奖励值训练网络,动作包括:改变各准比例谐振控制器的谐振参数及总的比例参数。
[0064] 可以理解的是,本实施例中,在每个调整小阶段中执行步骤S301以及步骤S302中的操作:设置准比例谐振控制器参数,得到输出交流量,将输出交流量与预设的参考交流量比对得到误差值;根据误差值给出奖励值,根据奖励值和状态做出动作。
[0065] 进一步地,步骤S302中,给出奖励值的方法如下:
[0066] 当前的误差值小于前一状态的误差值时,进行第一奖励;当前的误差值在预设的误差范围内时,进行第二奖励,第一奖励大于第二奖励。通过该方法不断训练网络,从而得到误差值越来越小的准比例谐振控制器参数。
[0067] 本实施例中,步骤S303中的结束条件包括:
[0068] 当完成一个调整大阶段中所有的小阶段时,达到结束条件;或
[0069] 当奖励值为第二奖励时,达到结束条件。
[0070] 当达到结束条件时,即达到了准比例谐振控制控制器参数在线调整的目的。
[0071] 基于上述实施例,本发明还提供了一种准比例谐振控制器参数调整系统,应用于如上的方法,包括:
[0072] 获取模块,用于运行逆变器及负载的模型、构建深度确定性策略梯度强化学习框架,以获取状态转移函数和奖励函数。
[0073] 定义模块,用于根据状态转移函数和奖励函数定义状态和奖励值。
[0074] 训练模块,用于在参数调整强化学习训练环境中训练参数调整强化学习框架的智能体。
[0075] 输出模块,用于输出训练完成后最终的准比例谐振控制器参数。
[0076] 以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈