基于用户侧需求反应的增强学习的电网服务价值制定方法专利检索-强化学习机器学习人工智能人工智能专利检索查询-专利查询网

基于用户侧需求反应的增强学习的电网服务价值制定方法

阅读：811发布：2020-05-08

专利汇可以提供基于用户侧需求反应的增强学习的电网服务价值制定方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于用户侧需求反应的增强学习的电网服务价值制定方法，涉及一种定价方法。目前，电网服务价值制定的系统成本高。本发明包括步骤：在初始时刻观测当前时刻状态，通过∈-贪婪策略选择相应的行为，对初始电价进行调整；将得到的行为反馈给电网售电市场环境，根据环境信息生成当前时刻状态；根据目标函数计算当前时间的损失函数U(t)，并根据损失函数U(t)更新V值表；利用更新后的V值表，采用∈-贪婪策略选取新的行为，并调整电价；直到V值表收敛到一定程度，获取当前状态下的最优价格。本技术方案利用强化学习来学习用户的反馈函数,使用学习到的反馈函数，LSE可以找到更好的价格，以最大限度地降低系统成本。，下面是基于用户侧需求反应的增强学习的电网服务价值制定方法专利的具体信息内容。

权利要求

1.基于用户侧需求反应的增强学习的电网服务价值制定方法，其特征在于包括以下步骤：
S0：确定模型及目标函数；
S1：确定模型中的状态空间，行为空间；
S2：确定模型中损失函数，及其计算方法；
S3：初始化V值表，并根据现实情况拟定初始电价，V值表即状态的价值表；
S4：在初始时刻观测当前时刻状态，并通过∈-贪婪策略选择相应的行为，对初始电价进行调整；
S5：将步骤S4得到的行为反馈给电网售电市场环境，等待一个时间间隔T，返回环境信息，并根据环境信息生成当前时刻状态；返回环境信息包括用户负荷减少量，能量使用状态，负荷减少目标值；
S6：利用环境反馈信息和上一个状态下拟定的电力价格信息，根据目标函数计算当前时间的损失函数U(t)，并根据损失函数U(t)更新V值表；
S7：利用更新后的V值表，根据当前的状态，采用∈-贪婪策略选取新的行为，并调整电价；
S8：每经过一个时间T，循环以上步骤S4-步骤S7，直到V值表收敛到一定程度，从而根据V值表获取当前状态下的最优价格。
2.根据权利要求1所述的基于用户侧需求反应的增强学习的电网服务价值制定方法，其特征在于：在步骤S1中，模型中状态空间定义为：S＝{(d,e)}，其中d∈D，e∈E；行为空间为：A＝base+a，其中base为基准电价，a表示浮动价格，a∈{-0.9,-0.8,-0.7,-0.6,-0.5,-
0.4,-0.3,-0.2,-0.1,0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9}，其中负数代表降低价格，正数代表提升价格，数字绝对值的大小决定了价格降低或者提升的程度。
3.根据权利要求2所述的基于用户侧需求反应的增强学习的电网服务价值制定方法，其特征在于：在步骤S2)中,损失函数U(t)为收入损失，即因用户用电负荷量减少而产生的成本加上惩罚函数：
U(t)＝销售价格*负荷减少数量+惩罚系数，罚款系数是由在[t-1,t]时刻之间负荷减少总量的目标值与预测值之间的差额计算。
4.根据权利要求3所述的基于用户侧需求反应的增强学习的电网服务价值制定方法，其特征在于：在步骤S3)中，利用强化学习算法对V值表进行求解；
初始化V值表为1，V(t)＝1，其中s∈S；根据实际情况拟定初始的电费价格p1，或该电费价格直接根据市场环境的现实情况观测得到。
5.根据权利要求4所述的基于用户侧需求反应的增强学习的电网服务价值制定方法，其特征在于：在步骤S5)中定价系统开始运行时，观测现实中当前时刻T1的状态，记为S1＝(d1,e1)；
根据随机平均策略π，获取状态S1下的行为A1，并根据行为A1调整相应的电价至p2。
6.根据权利要求5所述的基于用户侧需求反应的增强学习的电网服务价值制定方法，其特征在于：在步骤S6)中，根据以下公式计算[T1,T2]时刻之间产生的收入损失并通过以下公式更新V值表：
式中：t表示时间间隔，这个取值根据系统的离散性能决定；
n表示某一个用户，n∈N，N＝{1,2,3,……,n}.
d(t)表示在[t-1,t]时刻内，系统测定的用户集合N在当前时段内负荷减少的实际总量；
p(t)表示在[t-1,t]时刻内，系统从价格集合P中选择的电力定价，价格的给出用于获得用户的反馈即r(n)；
e(t)∈{E}表示系统能够观测的能量使用状态，由LSE系统观察，其中每个用户n的能量使用en(t)可以通过智能仪表测量，E表示可能的能量使用状态的集合；
x(t)＝{xn(t)}是LSE系统不可观测的位置参数；
r(n)表示在[t-1,t]时刻内，基于系统给定的信息p(t)和观测信息en(t)，以及未知参数xn(t)，由强化学习系统学习的当前时段内负荷减少的预测值；
h(*)为惩罚函数，表示对于目标值与预测值差异的惩罚项，预测值与目标值差异越大，惩罚函数计算的损失越大；
U(p(t),d(t),e(t),x(t))表示在[t-1,t]时刻内收入的损失；
αt为学习率，满足∑αt＝∞,并且
U(t)为每个时间段的系统成本，即损失函数计算的系统代价。
7.根据权利要求6所述的基于用户侧需求反应的增强学习的电网服务价值制定方法，其特征在于：在步骤S7)中，根据S2的状态查询更新后的V值表，采用以下策略：
式中：β为模型探索与利用的权衡系数，当β取值越大，LSE越有可能利用现有计算结果的最优解进行决策；当β取值越小，LSE越有可能采取探索策略，从当前可选择的行为中随机选择进行决策；
表示状态价值函数；
选取S2状态下的行为A2，并根据选取的行为A2调整电费价格。

说明书全文

基于用户侧需求反应的增强学习的电网服务价值制定方法

技术领域

[0001] 本发明涉及一种定价方法，尤其涉及基于用户侧需求反应的增强学习的电网服务价值制定方法。

背景技术

[0002] 传统的电网正在利用先进的信息控制和通信技术转变为智能电网，为电力系统提供更高的可靠性，安全性和效率。为了应对可持续能源未来的巨大挑战，最近对包括风能和太阳能在内的可再生能源资源的兴趣激增。然而，风/太阳能的整合由于其高度可变性而提出了巨大的操作挑战，由于其不可调度性而变得更加严重。作为智能电网的重要组成部分，需求响应(demand response，以下简称DR)在降低负荷峰值和将可再生能源纳入电网方面起着关键作用。

[0003] 现有的需求响应程序通常可以分为直接负载控制和智能定价。通过使用直接负载控制，负载服务实体(load serving entity，以下简称LSE)可以基于LSE与客户(用户)之间的协议来控制操作和能量消耗，然而却可能在用户侧引起严重的隐私问题。通过使用智能定价，鼓励用户单独和自愿管理他们的负荷。例如，已经提出了关键峰值定价(CPP)，使用时间定价(ToUP)和实时定价(RTP)来协调需求响应以提高系统可靠性和性能。这些定价方案允许动态调整电荷弹性负载，以根据能量产生成本调整其消耗水平。值得注意的是，这些基于定价的DR程序是基于用户的响应函数在LSE侧可用或可预测的假设而设计的。

[0004] 通常，为每个用户获取适当的反馈函数对于LSE来说是一项具有挑战性的任务。尽管许多研究已经考虑了基于定价的DR问题的不同模型(例如，线性，指数等)，但由于用户的特殊和不同习惯，这些特定功能无法准确地表征用户的响应，因此导致更高的系统成本。

发明内容

[0005] 本发明要解决的技术问题和提出的技术任务是对现有技术方案进行完善与改进，提供基于用户侧需求反应的增强学习的电网服务价值制定方法，以达到降低成本的目的。为此，本发明采取以下技术方案。

[0006] 基于用户侧需求反应的增强学习的电网服务价值制定方法，包括以下步骤：

[0007] S0：确定模型及目标函数；

[0008] S1：确定模型中的状态空间，行为空间；

[0009] S2：确定模型中损失函数，及其计算方法；

[0010] S3：初始化V值表，并根据现实情况拟定初始电价，V值表即状态的价值表；

[0011] S4：在初始时刻观测当前时刻状态，并通过∈-贪婪策略选择相应的行为，对初始电价进行调整；

[0012] S5：将步骤S4得到的行为反馈给电网售电市场环境，等待一个时间间隔T，返回环境信息，并根据环境信息生成当前时刻状态；返回环境信息包括用户负荷减少量，能量使用状态，负荷减少目标值；

[0013] S6：利用环境反馈信息和上一个状态下拟定的电力价格信息，根据目标函数计算当前时间的损失函数U(t)，并根据损失函数U(t)更新V值表；

[0014] S7：利用更新后的V值表，根据当前的状态，采用∈-贪婪策略选取新的行为，并调整电价；

[0015] S8：每经过一个时间T，循环以上步骤S4-步骤S7，直到V值表收敛到一定程度，从而根据V值表获取当前状态下的最优价格。

[0016] 作为优选技术手段：在步骤S1中，模型中状态空间定义为：S＝{(d,e)}，其中d∈D，e∈E；行为空间为：A＝base+a，其中base为基准电价，a表示浮动价格，a∈{-0.9,-0.8,-0.7,-0.6,-0.5,-0.4,-0.3,-0.2,-0.1,0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9}，其中负数代表降低价格，正数代表提升价格，数字绝对值的大小决定了价格降低或者提升的程度。

[0017] 作为优选技术手段：在步骤S2)中,损失函数U(t)为收入损失，即因用户用电负荷量减少而产生的成本加上惩罚函数：

[0018] U(t)＝销售价格*负荷减少数量+惩罚系数，罚款系数是由在[t-1,t]时刻之间负荷减少总量的目标值与预测值之间的差额计算。

[0019] 作为优选技术手段：在步骤S3)中，利用强化学习算法对V值表进行求解；

[0020] 初始化V值表为1，V(t)＝1，其中s∈S；根据实际情况拟定初始的电费价格p1，或该电费价格直接根据市场环境的现实情况观测得到。

[0021] 作为优选技术手段：在步骤S5)中定价系统开始运行时，观测现实中当前时刻T1的状态，记为S1＝(d1,e1)；

[0022] 根据随机平均策略π，获取状态S1下的行为A1，并根据行为A1调整相应的电价至p2。

[0023] 作为优选技术手段：在步骤S6)中，根据以下公式计算[T1,T2]时刻之间产生的收入损失

[0024]

[0025] 并通过以下公式更新V值表：

[0026]

[0027] 式中：t表示时间间隔，这个取值根据系统的离散性能决定，有些系统半个小时捕捉一次数据，有些系统一个小时捕捉一次数据；

[0028] n表示某一个用户，n∈N，N＝{1,2,3,……,n}.

[0029] d(t)表示在[t-1,t]时刻内，系统测定的用户集合N在当前时段内负荷减少的实际总量；

[0030] p(t)表示在[t-1,t]时刻内，系统从价格集合P中选择的电力定价，价格的给出用于获得用户的反馈即r(n)；

[0031] e(t)∈{E}表示系统能够观测的能量使用状态，由LSE系统观察，其中每个用户n的能量使用en(t)可以通过智能仪表测量，E表示可能的能量使用状态的集合；

[0032] x(t)＝{xn(t)}是LSE系统不可观测的位置参数；

[0033] r(n)表示在[t-1,t]时刻内，基于系统给定的信息p(t)和观测信息en(t)，以及未知参数xn(t)，由强化学习系统学习的当前时段内负荷减少的预测值；

[0034] h(*)为惩罚函数，表示对于目标值与预测值差异的惩罚项，预测值与目标值差异越大，惩罚函数计算的损失越大；

[0035] U(p(t),d(t),e(t),x(t))表示在[t-1,t]时刻内收入的损失。

[0036] αt为学习率，满足∑αt＝∞,并且

[0037] U(t)为每个时间段的系统成本，即损失函数计算的系统代价。

[0038] 作为优选技术手段：在步骤S7)中，根据S2的状态查询更新后的V值表，采用以下策略：

[0039]

[0040] 式中：β为模型探索与利用的权衡系数，当β取值越大，LSE越有可能利用现有计算结果的最优解进行决策；当β取值越小，LSE越有可能采取探索策略，从当前可选择的行为中随机选择进行决策。

[0041] Vsp(t)表示状态价值函数。

[0042] 选取S2状态下的行为A2，并根据选取的行为A2调整电费价格。

[0043] 有益效果：本技术方案利用强化学习来学习用户的反馈函数。使用学习到的反馈函数，LSE可以找到更好的价格，以最大限度地降低系统成本。

[0044] 本技术方案基于强化学习的算法来解决DR的定价策略，而不假设任何特定形式的用户响应函数，不涉及用户侧的隐私问题，且能准确地表征用户的响应，降低系统成本。附图说明

[0045] 图1是本发明的定价原理图。

[0046] 图2是本发明的流程图。

[0047] 图3是不同时隙的价格策略图。

具体实施方式

[0048] 以下结合说明书附图对本发明的技术方案做进一步的详细说明。

[0049] 本发明构造增强学习模型如下：

[0050]

[0051]

[0052] t表示时间间隔，这个取值根据系统的离散性能决定，有些系统半个小时捕捉一次数据，有些系统一个小时捕捉一次数据；

[0053] n表示某一个用户，n∈N，N＝{1,2,3,……,n}.

[0054] d(t)表示在[t-1,t]时刻内，系统测定的用户集合N在当前时段内负荷减少的实际总量。

[0055] p(t)表示在[t-1,t]时刻内，系统从价格集合P中选择的电力定价，价格的给出用于获得用户的反馈即r(n)。

[0056] e(t)∈{E}表示系统能够观测的能量使用状态，由LSE系统观察，其中每个用户n的能量使用en(t)可以通过智能仪表测量，E表示可能的能量使用状态的集合。

[0057] x(t)＝{xn(t)}是LSE系统不可观测的位置参数。

[0058] r(n)表示在[t-1,t]时刻内，基于系统给定的信息p(t)和观测信息en(t)，以及未知参数xn(t)，由强化学习系统学习的当前时段内负荷减少的预测值。

[0059] h(*)为惩罚函数，表示对于目标值与预测值差异的惩罚项，预测值与目标值差异越大，惩罚函数计算的损失越大。

[0060] U(p(t),d(t),e(t),x(t))表示在[t-1,t]时刻内收入的损失。

[0061] 定价系统如图2所示。

[0062] 模型目标：求解当前状态{d(t),e(t)}下系统所要采取的最优价格p(t)。

[0063] 以下就模型及目标函数进行计算以获得最优价格。如图2所示，其包括以下步骤：

[0064] 步骤S1：定义模型中的状态空间，行为空间；

[0065] 步骤S2：定义模型中损失函数的具体计算方法；

[0066] 步骤S3：初始化V值表(即状态的价值表)，并根据现实情况拟定初始电价；

[0067] 步骤S4：定价系统在初始时刻观测当前时刻状态，并通过∈-贪婪策略选择相应的行为，对初始电价进行调整；

[0068] 步骤S5：将步骤S4得到的行为反馈给电网售电市场环境，等待一个时间间隔T(可取值为15分钟，30分钟或1个小时)，返回环境信息(用户负荷减少量，能量使用状态，负荷减少目标值)，并根据环境信息生成当前时刻状态；

[0069] 步骤S6：利用环境反馈信息和上一个状态下拟定的电力价格信息计算当前时间的损失函数U(t)，并根据损失函数U(t)更新V值表；

[0070] 步骤S7：利用更新后的V值表，根据当前的状态，采用∈-贪婪策略选取新的行为，并调整电价；

[0071] 步骤S8：每经过一个时间T，循环以上步骤S4-步骤S7，直到V值表收敛到一定程度。

[0072] 其中所述步骤S1具体包括：

[0073] 模型中状态空间定义：S＝{(d,e)}，其中d∈D，e∈E

[0074] 模型中定义行为空间：A＝base+a，其中base为基准电价，a表示浮动价格(以基准价格为基础)，a∈{-0.9,-0.8,-0.7,-0.6,-0.5,-0.4,-0.3,-0.2,-0.1,0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9}，其中负数代表降低价格，正数代表提升价格，数字绝对值的大小决定了价格降低或者提升的程度。

[0075] 其中，所述步骤S2包括：

[0076] 模型中的损失函数定义为收入损失，即因用户用电负荷量减少而产生的成本加上惩罚函数，如下：

[0077] U(t)＝销售价格*负荷减少数量+惩罚系数，罚款系数是由在[t-1,t]时刻之间负荷减少总量的目标值与预测值之间的差额计算。

[0078] 其中，所述步骤S3包括：

[0079] 该技术利用强化学习算法对V值表进行求解。

[0080] 初始化V值表为1(或者随机值)，V(t)＝1，其中s∈S。根据实际情况拟定初始的电费价格p1，该电费价格也可以直接根据市场环境的现实情况观测得到。

[0081] 其中，所述步骤S4包括：

[0082] 定价系统开始运行时，观测现实中当前时刻(记为T1)的状态，记为S1＝(d1,e1)。

[0083] 根据随机平均策略π，获取状态S1下的行为A1，并根据行为A1调整相应的电价至p2。

[0084] 其中，所述步骤S5包括：

[0085] 等待一个时间间隔T，T1->T2，获得[T1,T2]时刻内的用户反馈信息，即负荷减少总量rn。根据以上信息得出T2时刻的状态S2＝(d2,e2)。

[0086] 其中，所述步骤S6包括：

[0087] 根据以下公式计算[T1,T2]时刻之间产生的收入损失

[0088]

[0089] 并通过以下公式更新V值表：

[0090]

[0091] 其中，所述步骤S7包括：

[0092] 根据S2的状态查询更新后的V值表，采用以下策略，如下：

[0093]

[0094] 选取S2状态下的行为A2，并根据选取的行为A2调整电费价格。

[0095] 其中，所述步骤S8包括：

[0096] 每经过一个时间段T，重复步骤S4-步骤S7。在采样过程中，一边采样一边迭代更新V值表，经过有限次迭代过后，V值表最终能够收敛至某一范围，即对于任意的状态s和行为a有Vt+1(s)-Vt(s)<ε，说明V值表已经收敛，从而得出最优策略。

[0097] 该算法流程如下述算法所示：

[0098]

[0099] 如图3所示，为本具体实施例的中的不同时隙的价格策略，经过有限次迭代计算过后，从而得出最优策略。

[0100] 以上图1、2所示的基于用户侧需求反应的增强学习的电网服务价值制定方法是本发明的具体实施例，已经体现出本发明实质性特点和进步，可根据实际的使用需要，在本发明的启示下，对其进行形状、结构等方面的等同修改，均在本方案的保护范围之列。

标题	发布/更新时间	阅读量
一种基于深度强化学习的Web服务组合方法	2020-05-08	838
基于随机微分方程的连续性强化学习模型构造系统及方法	2020-05-13	266
车门信息检测方法、装置、计算机设备和存储介质	2020-05-08	449
一种用辩证法研究钢琴教学的方法	2020-05-13	164
基于强化学习的波动鳍推进水下作业机器人追踪控制方法	2020-05-11	144
一种基于虚拟训练的机器人智能抓取方法	2020-05-11	765
一种电力信息通信设备自动化测试资源调度方法	2020-05-13	665
一种基于奖励反馈的智能蜜罐系统	2020-05-11	212
机位智能分配方法、计算机装置及存储介质	2020-05-11	387
一种多层级发电厂实时对标优化方法	2020-05-13	522

基于用户侧需求反应的增强学习的电网服务价值制定方法

基于用户侧需求反应的增强学习的电网服务价值制定方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：