专利汇可以提供基于用户侧需求反应的增强学习的电网服务价值制定方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于用户侧需求反应的增强学习的 电网 服务价值制定方法,涉及一种定价方法。目前,电网服务价值制定的系统成本高。本发明包括步骤:在初始时刻观测当前时刻状态,通过∈-贪婪策略选择相应的行为,对初始电价进行调整;将得到的行为反馈给电网售电市场环境,根据环境信息生成当前时刻状态;根据目标函数计算当前时间的损失函数U(t),并根据损失函数U(t)更新V值表;利用更新后的V值表,采用∈-贪婪策略选取新的行为,并调整电价;直到V值表收敛到一定程度,获取当前状态下的最优价格。本技术方案利用 强化学习 来学习用户的反馈函数,使用学习到的反馈函数,LSE可以找到更好的价格,以最大限度地降低系统成本。,下面是基于用户侧需求反应的增强学习的电网服务价值制定方法专利的具体信息内容。
1.基于用户侧需求反应的增强学习的电网服务价值制定方法,其特征在于包括以下步骤:
S0:确定模型及目标函数;
S1:确定模型中的状态空间,行为空间;
S2:确定模型中损失函数,及其计算方法;
S3:初始化V值表,并根据现实情况拟定初始电价,V值表即状态的价值表;
S4:在初始时刻观测当前时刻状态,并通过∈-贪婪策略选择相应的行为,对初始电价进行调整;
S5:将步骤S4得到的行为反馈给电网售电市场环境,等待一个时间间隔T,返回环境信息,并根据环境信息生成当前时刻状态;返回环境信息包括用户负荷减少量,能量使用状态,负荷减少目标值;
S6:利用环境反馈信息和上一个状态下拟定的电力价格信息,根据目标函数计算当前时间的损失函数U(t),并根据损失函数U(t)更新V值表;
S7:利用更新后的V值表,根据当前的状态,采用∈-贪婪策略选取新的行为,并调整电价;
S8:每经过一个时间T,循环以上步骤S4-步骤S7,直到V值表收敛到一定程度,从而根据V值表获取当前状态下的最优价格。
2.根据权利要求1所述的基于用户侧需求反应的增强学习的电网服务价值制定方法,其特征在于:在步骤S1中,模型中状态空间定义为:S={(d,e)},其中d∈D,e∈E;行为空间为:A=base+a,其中base为基准电价,a表示浮动价格,a∈{-0.9,-0.8,-0.7,-0.6,-0.5,-
0.4,-0.3,-0.2,-0.1,0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9},其中负数代表降低价格,正数代表提升价格,数字绝对值的大小决定了价格降低或者提升的程度。
3.根据权利要求2所述的基于用户侧需求反应的增强学习的电网服务价值制定方法,其特征在于:在步骤S2)中,损失函数U(t)为收入损失,即因用户用电负荷量减少而产生的成本加上惩罚函数:
U(t)=销售价格*负荷减少数量+惩罚系数,罚款系数是由在[t-1,t]时刻之间负荷减少总量的目标值与预测值之间的差额计算。
4.根据权利要求3所述的基于用户侧需求反应的增强学习的电网服务价值制定方法,其特征在于:在步骤S3)中,利用强化学习算法对V值表进行求解;
初始化V值表为1,V(t)=1,其中s∈S;根据实际情况拟定初始的电费价格p1,或该电费价格直接根据市场环境的现实情况观测得到。
5.根据权利要求4所述的基于用户侧需求反应的增强学习的电网服务价值制定方法,其特征在于:在步骤S5)中定价系统开始运行时,观测现实中当前时刻T1的状态,记为S1=(d1,e1);
根据随机平均策略π,获取状态S1下的行为A1,并根据行为A1调整相应的电价至p2。
6.根据权利要求5所述的基于用户侧需求反应的增强学习的电网服务价值制定方法,其特征在于:在步骤S6)中,根据以下公式计算[T1,T2]时刻之间产生的收入损失并通过以下公式更新V值表:
式中:t表示时间间隔,这个取值根据系统的离散性能决定;
n表示某一个用户,n∈N,N={1,2,3,……,n}.
d(t)表示在[t-1,t]时刻内,系统测定的用户集合N在当前时段内负荷减少的实际总量;
p(t)表示在[t-1,t]时刻内,系统从价格集合P中选择的电力定价,价格的给出用于获得用户的反馈即r(n);
e(t)∈{E}表示系统能够观测的能量使用状态,由LSE系统观察,其中每个用户n的能量使用en(t)可以通过智能仪表测量,E表示可能的能量使用状态的集合;
x(t)={xn(t)}是LSE系统不可观测的位置参数;
r(n)表示在[t-1,t]时刻内,基于系统给定的信息p(t)和观测信息en(t),以及未知参数xn(t),由强化学习系统学习的当前时段内负荷减少的预测值;
h(*)为惩罚函数,表示对于目标值与预测值差异的惩罚项,预测值与目标值差异越大,惩罚函数计算的损失越大;
U(p(t),d(t),e(t),x(t))表示在[t-1,t]时刻内收入的损失;
αt为学习率,满足∑αt=∞,并且
U(t)为每个时间段的系统成本,即损失函数计算的系统代价。
7.根据权利要求6所述的基于用户侧需求反应的增强学习的电网服务价值制定方法,其特征在于:在步骤S7)中,根据S2的状态查询更新后的V值表,采用以下策略:
式中:β为模型探索与利用的权衡系数,当β取值越大,LSE越有可能利用现有计算结果的最优解进行决策;当β取值越小,LSE越有可能采取探索策略,从当前可选择的行为中随机选择进行决策;
表示状态价值函数;
选取S2状态下的行为A2,并根据选取的行为A2调整电费价格。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种基于深度强化学习的Web服务组合方法 | 2020-05-08 | 838 |
基于随机微分方程的连续性强化学习模型构造系统及方法 | 2020-05-13 | 266 |
车门信息检测方法、装置、计算机设备和存储介质 | 2020-05-08 | 449 |
一种用辩证法研究钢琴教学的方法 | 2020-05-13 | 164 |
基于强化学习的波动鳍推进水下作业机器人追踪控制方法 | 2020-05-11 | 144 |
一种基于虚拟训练的机器人智能抓取方法 | 2020-05-11 | 765 |
一种电力信息通信设备自动化测试资源调度方法 | 2020-05-13 | 665 |
一种基于奖励反馈的智能蜜罐系统 | 2020-05-11 | 212 |
机位智能分配方法、计算机装置及存储介质 | 2020-05-11 | 387 |
一种多层级发电厂实时对标优化方法 | 2020-05-13 | 522 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。