技术领域
[0001] 本
发明属于数据清洗技术领域,具体是一种适用于太阳能光伏数据的数据清洗方法。
背景技术
[0002] 近年,随着技术发展与人们对
能源、环境问题的重视,
可再生能源在整个能源消耗中 的占比正大幅提升。太阳能光伏等作为目前非常有竞争优势的可再生能源,除大规模集中 发电与无电地区离网系统应用外,其在城市与发达农村地区等得以分布式发电方式得以广 泛应用,将是未来
电网不可或缺的重要组成。光伏数据往往贮存于分布式多源异构
数据库 中,具有数据量大而且种类复杂等特征,数据
质量时常由于测量设备的故障与不
稳定性而 降低,产生大量异常数据或形成冗余,又或是在数据传输过程中出现丢包。数据质量的好 坏直接影响了后期根据数据进行的发电预测和能源调度。为了提高
光伏发电预测的准确 性,优化光伏发电及绿色储能蓄能效率与电网的综合匹配,从而达到对分布式能源的充分 合理利用,光伏数据必须有良好的质量,数据清洗环节必不可少。
[0003] 光伏数据自身极大的不稳定性和复杂性给数据清洗带来了巨大的困难。李郅明等对单 独的异常数据取邻近数据的中值纠错,对连续的异常数据进行人工纠错,方法比较简单, 可是人工纠错存在着较大的误差,面对大量异常时效率极低,且这种方式不适用于变化性 极强的光伏数据。李昌华等针对建筑节能
气候数据清洗采用了K-means聚类
算法与BP神 经网络相结合的算法,有效清洗率达到96.3%,可是该方法存在一定的局限性,不适用于 非集群类数据,且BP神经网络结构复杂,收敛速度慢,容易陷入局部极值而训练失败。 沈小军等提出了四分位-变点分组法对
风速及风功率数据进行清洗,虽然清洗效果好效率 高,然而容易剔除变化率大的有效数据,对数据的利用率低且损失了很多有用数据。胡阳 等针对风电运行数据提出了一种基于置信等效边界模型的方法判定异常数据,划分精细然 而效率较低而且难以适用于其他场景,再由三次Hermite插值法重构缺失数据,重构的数 据曲线仍然不够平滑。刘帅等则采用拉格朗日插值法,计算简便但是多项式的次数可能会 很高,结果变化性极大易产生龙格现象。
发明内容
[0004] 本发明的目的是针对
现有技术存在的问题,提供一种适用于太阳能光伏数据的数据清 洗方法,解决现有的太阳能光伏有效数据利用率低,异常数据难识别,异常数据重构效率 低,重构效果不佳等问题。
[0005] 为实现上述目的,本发明采用的技术方案是:
[0006] 一种适用于太阳能光伏数据的数据清洗方法——强关联数据分类清洗法,包括以下步 骤:
[0007] S1,采集光伏数据,在相邻区域(相距不远的区域)设置多组
传感器采集太阳能光伏 数据,得到多组变化趋势高度相似的强关联性数据,将不同组传感器在同一时间采集的数 据在数据库中按列进行排序,将同一组传感器在不同时间采集的数据在数据库中按行进行 排序;
[0008] S2,结合多组数据之间的关系、数据变化率,应用统计学原理挖掘所述光伏数据中的 异常数据,并将所述异常数据分为三类数据,分别为:冗余数据、缺省数据和错误数据;
[0009] S3,清洗异常数据,首先,以时间为主键删除异常数据中的冗余数据;然后,对单组 传感器测得的错误数据(单组错误数据意为有某组传感器采集数据错误,但有其余组传感 器采集数据正常)采用SPGP数据重构法(SeekPartialGuidanceofPearson,对皮尔 逊公式求偏导)进行数据重构;最后,对数据库中整行错误数据(整行错误数据意为所有 组的传感器采集的数据均为错误数据)和整行缺省数据采用基于三次样条插值法的数据重 构法进行数据重构。
[0010] 具体地,步骤S1中,所述传感器包括光照度传感器、光功率传感器,所述光伏数据 包括光照强度、光功率。
[0011] 具体地,步骤S2中,所述异常数据的分类依据为:
[0012] 冗余数据:判断多组传感器采集光伏数据的时间值是否一致,时间值不一致的光伏数 据即为冗余数据;
[0013] 缺省数据:计算多组数据的平均测量时间间隔t,判断每行数据的测量时间与相邻行 数据的测量时间的差值是否超过2t,若超过2t,则该行数据为整行缺省数据;若某行数 据中单个数据的测量时间与相邻行中对应数据的测量时间的差值超过2t,则该单个数据为 单项缺省数据;
[0014] 错误数据:光伏数据自身的变化复杂性很强,辐照度、功率等数据深受实时天气状况 的影响,数据本身
波动起伏较大,而且传感器故障时错误数据常常集群出现;分别计算各 组数据随时间的变化率,判断每列数据的变化率是否大于前列数据变化率的1.25倍,若 是,则进一步判断该列数据是否超出正常数据范围,若两个判断条件均满足,则该列数据 为错误数据。
[0015] 进一步地,由于光伏数据基本遵循正态分布,百分之九十五的数据点在平均值前后两 个标准差的范围之内,故将所述正常数据的范围定义为:
[0016] μ-2σ≤x≤μ+2σ
[0017] 其中,x为正常数据,μ为所有数据的平均值,σ为所有数据的标准差。
[0018] 具体地,步骤S3中,对单组传感器测得的错误数据采用SPGP数据重构法进行数据重 构的方法为:
[0019] 令X,Y分别为两组传感器测同一物理量得到的不同数据值序列,X序列中只有一个错 误数据,设该错误数据值为变量x;Y序列中所有数据均为正常数据值;当X、Y两组数据 的关联性最强时(此时,异常数据基本满足正常数据的变化趋势),错误数据x=x0,x0即 为错误数据x的重构数据;计算X、Y两组数据的皮尔逊相关系数ρX,Y,即
[0020]
[0021] 公式(1)对x求偏导,代入X、Y中的正常光伏数据,令偏导值为0,有[0022]
[0023] 联立公式(1)、(2)解出重构数据值x0;即,当x=x0时,X、Y两组数据的关联性 最强,x0即为错误数据x重构后的数据值。
[0024] 进一步地,步骤S3中,所述基于三次样条插值法的数据重构法具体为:
[0025] 提取所有数据中表现正常的N个数据值作为f(x),将所述N个数据对应的时间序列设 为区间x=[x0,xN];将区间x划分为N个等步长的子区间;设在每个子区间 j=(0,1,…,N-1)内均满足三次多项式Sj(x),有
[0026] Sj(x)=aj0+aj1x+aj2x2+aj3x3,
[0027] j=0,1,...,N-1 (3)
[0028] 由于N个数据均为可用正常数据,令
[0029] S(xj)=f(xj),j=(0,1,...,N) (4)
[0030] 为保证各子区间的曲线合并为大区间时
节点处光滑,令
[0031] S(xj-0)=S(xj+0),j=(0,1,...,N) (5)
[0032] S′(xj-0)=S′(xj+0),j=(1,2,...,N-1) (6)
[0033] S″(xj-0)=S″(xj+0),j=(1,2,...,N-1) (7)
[0034] 令S(xj)=f(xj)=yj (8)
[0035] hj=xj-xj-1 (9)
[0036] S″(xj)=Mj j=(0,1,...,N) (10)
[0037] 由于在子区间[xj,xj+1]内S(x)=Sj(x)为三次多项式,因此S″j(x)为线性函数,根据拉 格朗日插值公式,有
[0038]
[0039] 根据公式(3)~(11),可得
[0040]
[0041] 令
[0042]
[0043]
[0044]
[0045] 则公式(11)可表示为
[0046] αjMj-1+2Mj+βjMj+1=cj j=(1,2,...,N-1) (13)
[0047] 根据光伏数据的正态分布特性,数据两端的曲线处于
水平状态,有Sj(x)满足第一类边 界条件,有
[0048] S′(x1)=S′(xN)=0 (14)
[0049] 联立公式(13)、(14)得到关于Mj的N+1阶线性方程组,其矩阵形式为三对
角线 方程组,即
[0050]
[0051] 代入所有表现正常的光伏数据到公式(15)中,采用追赶法解出Mj,从而得到各子 区间的三次多项式;再将检测到的单组错误数据代入该错误数据对应子区间的三次多项 式,得到该错误数据重构后的数据值。
[0052] 与现有技术相比,本发明的有益效果是:本发明考虑到光伏数据自身极大的复杂性, 传感器在布置时往往是多组一起安装使用,能得到多组变化趋势高度相似的数据;能最大 化地利用所有有效数据对异常数据进行清洗,重构得到的数据误差极小;本发明针对光伏 数据的正态分布特性及数据之间的关联性,通过SPGP数据重构法对单组传感器测得的错 误数据进行重构,通过基于三次样条插值法的数据重构法对整行错误数据和整行缺省数据 进行重构,清洗效果好且清洗效率较高。
附图说明
[0053] 图1为本发明一种适用于太阳能光伏数据的数据清洗方法的总体流程示意图;
[0054] 图2为本发明
实施例中传感器采集到的光伏数据未经处理的时间-功率图;
[0055] 图3为本发明实施例中采用本发明的数据清洗方法处理后光伏数据的时间-功率图。
具体实施方式
[0056] 下面将结合本发明中的附图,对本发明的技术方案进行清楚、完整地描述,显然,所 描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例, 本领域普通技术人员在没有做出创造性劳动条件下所获得的所有其它实施例,都属于本发 明保护的范围。
[0057] 一种适用于太阳能光伏数据的数据清洗方法,包括以下步骤:
[0058] S1,采集光伏数据,在相邻区域(相距不远的区域)设置多组传感器采集太阳能光伏 数据,得到多组变化趋势高度相似的强关联性数据,将不同组传感器在同一时间采集的数 据在数据库中按列进行排序,将同一组传感器在不同时间采集的数据在数据库中按行进行 排序;
[0059] S2,结合多组数据之间的关系、数据变化率,应用统计学原理挖掘所述光伏数据中的 异常数据,并将所述异常数据分为三类数据,分别为:冗余数据、缺省数据和错误数据;
[0060] S3,清洗异常数据,首先,以时间为主键删除删除异常数据中的冗余数据;然后,对 单组传感器测得的错误数据(单组错误数据意为有某组传感器采集数据错误,但有其余组 传感器采集数据正常)采用SPGP数据重构法(Seek Partial Guidance of Pearson,对 皮尔逊公式求偏导)进行数据重构;最后,对数据库中整行错误数据(整行错误数据意为 所有组的传感器采集的数据均为错误数据)和整行缺省数据采用基于三次样条插值法的数 据重构法进行数据重构。
[0061] 具体地,步骤S1中,所述传感器包括光照度传感器、光功率传感器,所述光伏数据 包括光照强度、光功率。
[0062] 具体地,步骤S2中,所述异常数据的分类依据为:
[0063] 冗余数据:判断多组传感器采集光伏数据的时间值是否一致,时间值不一致的光伏数 据即为冗余数据;
[0064] 缺省数据:计算多组数据的平均测量时间间隔t,判断每行数据的测量时间与相邻行 数据的测量时间的差值是否超过2t,若超过2t,则该行数据为整行缺省数据;若某行数 据中单个数据的测量时间与相邻行中对应数据的测量时间的差值超过2t,则该单个数据为 单项缺省数据;
[0065] 错误数据:光伏数据自身的变化复杂性很强,辐照度、功率等数据深受实时天气状况 的影响,数据本身波动起伏较大,而且传感器故障时错误数据常常集群出现;分别计算各 组数据随时间的变化率,判断每列数据的变化率是否大于前列数据变化率的1.25倍,若 是,则进一步判断该列数据是否超出正常数据范围,若两个判断条件均满足,则该列数据 为错误数据。
[0066] 进一步地,由于光伏数据基本遵循正态分布,百分之九十五的数据点在平均值前后两 个标准差的范围之内,故将所述正常数据的范围定义为:
[0067] μ-2σ≤x≤μ+2σ
[0068] 其中,x为正常数据,μ为所有数据的平均值,σ为所有数据的标准差。
[0069] 具体地,步骤S3中,对单组传感器测得的错误数据采用SPGP数据重构法进行数据重 构的方法为:
[0070] 令X,Y分别为两组传感器测同一物理量得到的不同数据值序列,X序列中只有一个错 误数据,设该错误数据值为变量x;Y序列中所有数据均为正常数据值;当X、Y两组数据 的关联性最强时(此时,异常数据基本满足正常数据的变化趋势),错误数据x=x0,x0即 为错误数据x的重构数据;计算X、Y两组数据的皮尔逊相关系数ρX,Y,即
[0071]
[0072] 公式(1)对x求偏导,代入X、Y中的正常光伏数据,令偏导值为0,有[0073]
[0074] 联立公式(1)、(2)解出重构数据值x0;即,当x=x0时,X、Y两组数据的关联性 最强,x0即为错误数据x重构后的数据值。
[0075] 进一步地,步骤S3中,所述基于三次样条插值法的数据重构法具体为:
[0076] 提取所有数据中表现正常的N个数据值作为f(x),将所述N个数据对应的时间序列设 为区间x=[x0,xN];将区间x划分为N个等步长的子区间;设在每个子区间 j=(0,1,...,N-1)内均满足三次多项式Sj(x),有
[0077] Sj(x)=aj0+aj1x+aj2x2+aj3x3,
[0078] j=0,1,...,N-1 (3)
[0079] 由于N个数据均为可用正常数据,令
[0080] S(xj)=f(xj),j=(0,1,...,N) (4)
[0081] 为保证各子区间的曲线合并为大区间时节点处光滑,令
[0082] S(xj-0)=S(xj+0),j=(0,1,...,N) (5)
[0083] S′(xj-0)=S′(xj+0),j=(1,2,...,N-1) (6)
[0084] S″(xj-0)=S″(xj+0),j=(1,2,...,N-1) (7)
[0085] 令S(xj)=f(xj)=yj (8)
[0086] hj=xj-xj-1 (9)
[0087] S″(xj)=Mjj=(0,1,...,N) (10)
[0088] 由于在子区间[xj,xj+1]内S(x)=Sj(x)为三次多项式,因此Sj″(x)为线性函数,根据拉 格朗日插值公式,有
[0089]
[0090] 根据公式(3)~(11),可得
[0091]
[0092] 令
[0093]
[0094]
[0095]
[0096] 则公式(11)可表示为
[0097] αjMj-1+2Mj+βjMj+1=cj j=(1,2,...,N-1) (13)
[0098] 根据光伏数据的正态分布特性,数据两端的曲线处于水平状态,有Sj(x)满足第一类边 界条件,有
[0099] S′(x1)=S′(xN)=0 (14)
[0100] 联立公式(13)、(14)得到关于Mj的N+1阶线性方程组,其矩阵形式为三对角线 方程组,即
[0101]
[0102] 代入所有表现正常的光伏数据到公式(15)中,采用追赶法解出Mj,从而得到各子 区间的三次多项式;再将检测到的单组错误数据代入该错误数据对应子区间的三次多项 式,得到该错误数据重构后的数据值。
[0103] 本实施例的实验仿真结果如下:
[0104] 选取两组传感器测得的数据,随机将其中一组的部分数据值设为异常值,如图2所示, 经过本发明的数据清洗方法处理后,得到如图3所示的时间-功率图;对比图2和图3可以 直观的看出本发明的数据清洗方法能够有效地完成对异常数据的识别和重构;
[0105] 为了比较本发明的数据清洗方法与现有其他重构方法的优劣,比较原始数据和重构后 数据的误差衡量各重构方法的效果,实验计算了不同重构方法重构后的数据和原始数据的 相似程度,用相关系数表示,如表1所示;由表1中的数据可见,本发明的数据清洗方法 得到的数据与原始数据的关联性更强,误差更小,且当异常值增多时相对可靠,能尽可能 地利用更多已有的正常数据。从而可知本发明的数据清洗方法能较好地对光伏数据中的异 常数据进行补齐,且实现了对正常数据的最大化利用。
[0106] 表1本发明数据清洗方法与现有其他重构方法的效果对比表
[0107]
[0108] 尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解 在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、
修改、替换和变 型,本发明的范围由所附
权利要求及其等同物限定。