首页 / 专利库 / 电脑编程 / 算法 / 基于随机森林算法攻击识别方法及储能协调控制装置

基于随机森林算法攻击识别方法及储能协调控制装置

阅读:539发布:2020-05-08

专利汇可以提供基于随机森林算法攻击识别方法及储能协调控制装置专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种基于 随机森林 算法 攻击识别方法包括:获取储能协调控制装置的所有数据流;采用随机森林模型对数据流进行实时检测,输出检测分类结果并根据检测分类结果判断数据流中是否存在攻击行为,当检测分类结果中数据流存在攻击行为时,对正常数据流进行转发;对问题数据流进行攻击分类并拦截,同时发出攻击报警以及生成日志记录后结束;所述攻击报警包括显示攻击行为的类型;当检测分类结果中数据流不存在攻击行为时,对正常的数据流进行转发。本发明还提供了一种储能协调控制装置。与 现有技术 相比,提高储能协调控制装置的信息安全性。,下面是基于随机森林算法攻击识别方法及储能协调控制装置专利的具体信息内容。

1.一种基于随机森林算法攻击识别方法,其特征在于:包括如下步骤:
步骤一、获取储能协调控制装置的所有数据流,所述数据流为是否受到攻击的特征数据流或影响因子,所述数据流包括电网数据,包括公共连接点的电压电流频率、功率因数、谐波、三相电压不平衡度、电压波动和闪变、暂时过电压和瞬态过电压,PCS的上传数据输出有功功率及无功功率电池的SOC、最大可充功率、最大可放功率、额定功率、工作状态;
步骤二、采用随机森林模型对数据流进行实时检测,输出检测分类结果并根据检测分类结果判断数据流中是否存在攻击行为,是则进入步骤三,否则进入步骤四;所述检测分类结果包括正常数据流和/或问题数据流;正常数据流中包括至少一种电网数据;问题数据流中包括至少一种存在攻击行为的电网数据;
步骤三、当检测分类结果中数据流存在攻击行为时,对正常数据流进行转发;对问题数据流进行攻击分类并拦截,同时发出攻击报警以及生成日志记录后结束;所述攻击报警包括显示攻击行为的类型;;
步骤四、当检测分类结果中数据流不存在攻击行为时,对正常的数据流进行转发。
2.根据权利要求1所述的基于随机森林算法攻击识别方法,其特征在于:所述步骤三中对问题数据流进行分类具体为:当问题数据流中的电网数据存在某一类攻击行为时,将该电网数据归入相应的分类中,所述分类包括:Dos攻击、DDos攻击、未授权访问攻击、接口端非正常探测、木攻击、电气量和气象等数据伪造和篡改攻击类型。
3.根据权利要求1所述的基于随机森林算法攻击识别方法,其特征在于:所述步骤二中随机森林模型采用以下方法获得:
一、将数据流作为训练样本,建立N个训练样本集以及M个特征,所述N为训练样本集的个数,M为特征的数目,构建至少一棵树对训练样本集进行训练;
二、确定特征值
通过判断m个特征在单棵树中的重要程度以及计算m个特征在所有树中的重要程度,然后对m个特征的重要程度进行排序,去除重要程度低的部分特征,得到新的特征集;
三、对随机森林模型进行更新迭代,在随机森林模型中找出最优的随机森林模型作为最终的随机森林模型。
4.根据权利要求3所述的基于随机森林散发攻击识别方法,其特征在于:所述确定特征值包括:
(1)通过随机改变某一特征的属性值来判断该特征在这棵树中是否起到了作用或该特征在这棵树中无效;所述属性值为特征的属性,
(2)比较改变前和改变后的测试集误差率,将测试集误差率的差距作为该特征在该树中的重要程度,通过对一棵树中的m个特征计算一次,以获得m个特征在该树中的重要程度;
误差率采用下式获得:
其中,i指特征的编号,TP:正确预测到的正例的数量,TN:正确预测到的负例的数量,FP:把负例预测成正例的数量,FN:把正例预测成负例的数量;所述正例为是,负例为不是;
(3)计算各特征在森林中的重要程度,则取这个特征值在多棵树中的重要程度的均值作为该特征在森林中的重要程度;
其中,MDA表示平均精确率减少----Mean decrease accuracy;Ai中A表示特征,i表示该特征的编号:nsum表示特征Ai在森林中出现的次数,OOBerrta表示第t棵树中Ai属性值改变之后的袋外误差率,OOBerrtb表示第t棵树中正常Ai值的袋外误差率;
所述袋外误差率采用下式获得:
其中,i指特征的编号,TP:正确预测到的正例的数量,TN:正确预测到的负例的数量,FP:把负例预测成正例的数量,FN:把正例预测成负例的数量。
(4)在得到所有特征在森林中的重要程度后,将所有的特征按照重要程度进行排序,去除森林中重要程度低的部分特征,得到新的特征集,从而完成一次迭代。
5.根据权利要求4所述的基于随机森林散发攻击识别方法,其特征在于:所述确定特征值中还包括:重复(1)-(4),逐步去除相对较差的特征,每次都会生成新的随机森林模型,直到剩余的特征数为m为止,然后再这些随机森林模型中找出最优的随机森林模型作为最终的随机森林模型来进行数据流的实时检测。
6.一种储能协调控制装置,其特征在于:包括:通信模、CPU模块、HMI液晶屏、随机森林检测模块、测量模块、日志模块、对时模块、打印模块、滤波模块,所述CPU模块分别与通信模块、HMI液晶屏、随机森林检测模块、测量模块、日志模块、对时模块、打印模块、滤波模块连接;
所述通信模块用于与调度中心主站系统、PCS之间数据流的通信,向调度中心上送数据流;以及将接受到的数据流发送至控制单元;所述数据流包括电网数据以及控制指令;
所述电网数据包括公共连接点的电压、电流、频率、功率因数、谐波、三相电压不平衡度、电压波动和闪变、暂时过电压和瞬态过电压,还PCS的上传数据输出有功功率及无功功率、电池的SOC、最大可充功率、最大可放功率、额定功率、工作状态;
所述电网数据还包括PT二次额定值、CT二次额定值、电流电压变化死区、频率变化死区、对时方式、装置地址、A\B网IP地址及子网掩码、遥设有功功率、遥设无功功率、系统电抗值、并网电压值、无功调节补偿、投入硬压板及开入信号开合状态;
CPU模块用于在接收到通信单元、测量电源以及滤波单元发送的数据流发送至随机森林检测模块进行实时检测分类,并根据检测分类结果判断数据流中是否存在攻击行为;当检测分类结果中电网数据存在攻击行为时,通过HMI液晶屏发出报警以及生成日志记录;当检测分类结果中电网数据不存在攻击行为时,将正常的数据流通过通信模块上送至调度中心主站系统;
所述攻击报警为向HMI液晶屏发出报警信息,报警信息为攻击行为的类型;
测量模块用于获取储能电站系统中的数据流并上传给CPU模块;
滤波模块用于将故障录波及波形的数据流上送至CPU模块;
打印模块用于打印;
日志模块用于对日志记录、数据流以及报警进行存储;对时模块用于装置对时;
HMI液晶屏用于显示;
随机森林检测模块用于对CPU模块发送的数据流通过随机森林模型对数据流进行实时检测,输出检测分类结果后发送至CPU模块。
7.根据权利要求6所述的储能协调控制装置,其特征在于:所述CPU模块还将日志记录发送至日志模块进行保存和/或通过通信模块将攻击报警以及日志记录发送至调度中心主站系统。
8.根据权利要求6所述的储能协调控制装置,其特征在于:所述随机森林模型采用以下方法获得:
一、将数据流作为训练样本,建立N个训练样本集以及M个特征,所述N为训练样本集的个数,M为特征的数目,构建至少一棵树对训练样本集进行训练;
二、确定特征值
通过判断m个特征在单棵树中的重要程度以及计算m个特征在所有树中的重要程度,然后对m个特征的重要程度进行排序,去除重要程度低的部分特征,得到新的特征集;
三、对随机森林模型进行更新迭代,在随机森林模型中找出最优的随机森林模型作为最终的随机森林模型。
9.根据权利要求8所述的储能协调控制装置,其特征在于:所述确定特征值包括:
(1)通过随机改变某一特征的属性值来判断该特征在这棵树中是否起到了作用或该特征在这棵树中无效;所述属性值为特征的属性;
(2)比较改变前和改变后的测试集误差率,将测试集误差率的差距作为该特征在该树中的重要程度,通过对一棵树中的m个特征计算一次,以获得m个特征在该树中的重要程度;
误差率采用下式获得:
其中,i指特征的编号,TP:正确预测到的正例的数量,TN:正确预测到的负例的数量,FP:把负例预测成正例的数量,FN:把正例预测成负例的数量;所述正例为是,负例为不是;
(3)计算各特征在森林中的重要程度,则取这个特征值在多棵树中的重要程度的均值作为该特征在森林中的重要程度;
其中,MDA表示平均精确率减少----Mean decrease accuracy;Ai中A表示特征,i表示该特征的编号:nsum表示特征Ai在森林中出现的次数,OOBerrta表示第t棵树中Ai属性值改变之后的袋外误差率,OOBerrtb表示第t棵树中正常Ai值的袋外误差率;
所述袋外误差率采用下式获得:
其中,i指特征的编号,TP:正确预测到的正例的数量,TN:正确预测到的负例的数量,FP:把负例预测成正例的数量,FN:把正例预测成负例的数量。
(4)在得到所有特征在森林中的重要程度后,将所有的特征按照重要程度进行排序,去除森林中重要程度低的部分特征,得到新的特征集,从而完成一次迭代。
10.根据权利要求9所述的基于随机森林散发攻击识别方法,其特征在于:所述确定特征值中还包括:重复(1)-(4),逐步去除相对较差的特征,每次都会生成新的随机森林模型,直到剩余的特征数为m为止,然后再这些随机森林模型中找出最优的随机森林模型作为最终的随机森林模型来进行数据流的实时检测。

说明书全文

基于随机森林算法攻击识别方法及储能协调控制装置

技术领域

[0001] 本发明涉及一种电网控制,特别涉及一种基于随机森林算法攻击识别方法及储能协调控制装置。

背景技术

[0002] 面对能源危机、金融危机以及气候危机,人们认识到新能源发展的重要性。各国对新能源的投资大幅度增长,新能源产能也急剧扩大,可再生能源发电是新能源发展的核心。但是由于能、太阳能和海洋能等可再生能源发电受季节、气象和地域条件的影响,具有明显的不连续、不稳定性。发出的电波动较大、可调节性差、发电与用电有时差。当电网接入的新能源发电容量过多时,电网的稳定性也会受到影响。通过配套大规模的储能系统,可以解决发电与用电的时差矛盾及间歇式可再生能源发电直接并网对电网冲击,调节电能品质。
[0003] 由于储能系统还有稳定电网电压频率的功能,因此储能系统接入电网时,需及时准确的获取其运行状态信息,储能系统运行状态数据经储能协调控制装置上传至上级调度中心。但是随着电网的智能化和信息化,各种网络攻击手段层出不穷,依赖于网络的信息交互方式存在着各种安全风险,攻击者可以通过对其内的通信协议进行解析,或实现对其的窃听攻击、Dos攻击以及篡改敏感数据等,导致储能协调控制装置获取错误的调度中心下发数据。错误的数据导致储能系统输出功率错误,可能在调节电网电压、频率时起到了相反的调节效果,造成电网电压、频率失衡,带来很大的经济损失,甚至有因设备不正常工作导致的人员伤亡;攻击者也可以通过以该储能协调控制装置为跳板,逐步入侵上层调度中心。
[0004] 现有的储能协调控制装置可能存在的安全隐患。在一般情况下,一个或多个安全漏洞就会使攻击者有机可乘,攻击者可以以该安全漏洞为突破口,通过制造大量无用数据或反复发送请求等手段去占用被攻击者的网络资源或干扰被攻击者的正常通信。在储能协调控制装置中,黑客很容易根据已知的安全漏洞对其发布各种各样的攻击。比如,攻击者可以通过制造大量的无用数据,造成储能协调控制装置的网络拥塞,使得其无法正常与上下级通信;攻击者可以利用储能协调控制装置传输协议上处理重复连接的缺陷,反复高频的发出攻击性的重复连接请求,使得储能协调控制装置无法及时的处理其他正常的请求;攻击者可以向储能协调控制装置注入木,并将其作为跳板逐步入侵上层调度中心;攻击者还可以根储能协调控制装置传输协议缺陷,反复发送畸形的攻击数据,比如篡改储能系统输出功率,引发电网电压振荡或调度中心错误的分配大量系统资源,直接影响电网的安全稳定运行。
[0005] 图1所示现有的储能协调控制装置及系统结构图。由图中可以看出,储能协调控制装置是连接上层调度中心以及下层储能电站监控系统以及其他智能设备的通信桥梁,其对下采集PCS工作状态、PCS充放电功率、SOC值等,接收来自下层的控制器的相关遥信数据,以及对下转发相关遥调、启停命令;对上实时传达储能系统输入输出有功无功,用电量以及并网点电压、电流、功率等数据。
[0006] 储能协调控制装置涉及到开放的运行环境,容易受到各种各样的攻击。储能协调控制装置是储能系统中的非常重要的多源协调控制设备,除内置保护、控制、电能质量监测等功能之外,还是与下层和上层通信的重要桥梁。因而储能协调控制装置获取的数据的真实性和可靠性,以及其运行的安全性和稳定性关系到整配电网系统的安全可靠运行。从近些年来世界上发生的许多由于网络攻击或网络信息安全事件发起的大停电事故以及网络攻击干扰电网正常运行的案例可以看出,储能系统存在的安全漏洞已日益凸显,且由于网络攻击导致的停电事故近年来呈上升趋势,所以全方位的提升电网的安全性能迫在眉睫。

发明内容

[0007] 本发明的目的在于提供一种基于随机森林算法攻击识别方法及储能协调控制装置,要解决的技术问题是提高储能协调控制装置的信息安全性。
[0008] 为解决上述问题,本发明采用以下技术方案实现:一种基于随机森林算法攻击识别方法,包括如下步骤:
[0009] 步骤一、获取储能协调控制装置的所有数据流,所述数据流为是否受到攻击的特征数据流或影响因子,所述数据流包括电网数据,包括公共连接点的电压、电流、频率、功率因数、谐波、三相电压不平衡度、电压波动和闪变、暂时过电压和瞬态过电压,PCS的上传数据输出有功功率及无功功率电池的SOC、最大可充功率、最大可放功率、额定功率、工作状态;
[0010] 步骤二、采用随机森林模型对数据流进行实时检测,输出检测分类结果并根据检测分类结果判断数据流中是否存在攻击行为,是则进入步骤三,否则进入步骤四;所述检测分类结果包括正常数据流和/或问题数据流;正常数据流中包括至少一种电网数据;问题数据流中包括至少一种存在攻击行为的电网数据;
[0011] 步骤三、当检测分类结果中数据流存在攻击行为时,对正常数据流进行转发;对问题数据流进行攻击分类并拦截,同时发出攻击报警以及生成日志记录后结束;所述攻击报警包括显示攻击行为的类型;
[0012] 步骤四、当检测分类结果中数据流不存在攻击行为时,对正常的数据流进行转发。
[0013] 进一步地,所述步骤三中对问题数据流进行分类具体为:当问题数据流中的电网数据存在某一类攻击行为时,将该电网数据归入相应的分类中,所述分类包括:Dos攻击、DDos攻击、未授权访问攻击、接口端非正常探测、木马攻击、电气量和气象等数据伪造和篡改攻击类型。
[0014] 进一步地,所述步骤二中随机森林模型采用以下方法获得:
[0015] 一、将数据流作为训练样本,建立N个训练样本集以及M个特征,所述N为训练样本集的个数,M为特征的数目,构建至少一棵树对训练样本集进行训练;
[0016] 二、确定特征值
[0017] 通过判断m个特征在单棵树中的重要程度以及计算m个特征在所有树(森林)中的重要程度,然后对m个特征的重要程度进行排序,去除重要程度低的部分特征,得到新的特征集;
[0018] 三、对随机森林模型进行更新迭代,在随机森林模型中找出最优的随机森林模型作为最终的随机森林模型。
[0019] 进一步地,所述确定特征值包括:
[0020] (1)通过随机改变某一特征的属性值来判断该特征在这棵树中是否起到了作用或该特征在这棵树中无效;所述属性值为特征的属性,
[0021] (2)比较改变前和改变后的测试集误差率,将测试集误差率的差距作为该特征在该树中的重要程度,通过对一棵树中的m个特征计算一次,以获得m个特征在该树中的重要程度;
[0022] 误差率采用下式获得:
[0023]
[0024] 其中,i指特征的编号,TP:正确预测到的正例的数量,TN:正确预测到的负例的数量,FP:把负例预测成正例的数量,FN:把正例预测成负例的数量;所述正例为是,负例为不是。
[0025] (3)计算各特征在森林中的重要程度,则取这个特征值在多棵树中的重要程度的均值作为该特征在森林中的重要程度;
[0026]
[0027] 其中,MDA表示平均精确率减少----Mean decrease accuracy;Ai中A表示特征,i表示该特征的编号:nsum表示特征Ai在森林中出现的次数,OOBerrta表示第t棵树中Ai属性值改变之后的袋外误差率,OOBerrtb表示第t棵树中正常Ai值的袋外误差率;
[0028] 所述袋外误差率采用下式获得:
[0029]
[0030] 其中,i指特征的编号,TP:正确预测到的正例的数量,TN:正确预测到的负例的数量,FP:把负例预测成正例的数量,FN:把正例预测成负例的数量。
[0031] (4)在得到所有特征在森林中的重要程度后,将所有的特征按照重要程度进行排序,去除森林中重要程度低的部分特征,得到新的特征集,从而完成一次迭代。
[0032] 进一步地,所述确定特征值中还包括:重复(1)-(4),逐步去除相对较差的特征,每次都会生成新的随机森林模型,直到剩余的特征数为m为止,然后再这些随机森林模型中找出最优的随机森林模型作为最终的随机森林模型来进行数据流的实时检测。
[0033] 本发明还提供了一种储能协调控制装置,包括:通信模、CPU模块、HMI液晶屏、随机森林检测模块、测量模块、日志模块、对时模块、打印模块、滤波模块,所述CPU模块分别与通信模块、HMI液晶屏、随机森林检测模块、测量模块、日志模块、对时模块、打印模块、滤波模块连接;
[0034] 所述通信模块用于与调度中心主站系统、PCS之间数据流的通信,向调度中心上送数据流;以及将接受到的数据流发送至控制单元;所述数据流包括电网数据以及控制指令;
[0035] 所述电网数据包括公共连接点的电压、电流、频率、功率因数、谐波、三相电压不平衡度、电压波动和闪变、暂时过电压和瞬态过电压,还PCS的上传数据输出有功功率及无功功率、电池的SOC、最大可充功率、最大可放功率、额定功率、工作状态;
[0036] 所述电网数据还包括PT二次额定值、CT二次额定值、电流电压变化死区、频率变化死区、对时方式、装置地址、A\B网IP地址及子网掩码、遥设有功功率、遥设无功功率、系统电抗值、并网电压值、无功调节补偿、投入硬压板及开入信号开合状态;
[0037] CPU模块用于在接收到通信单元、测量电源以及滤波单元发送的数据流发送至随机森林检测模块进行实时检测分类,并根据检测分类结果判断数据流中是否存在攻击行为;当检测分类结果中电网数据存在攻击行为时,通过HMI液晶屏发出报警以及生成日志记录;当检测分类结果中电网数据不存在攻击行为时,将正常的数据流通过通信模块上送至调度中心主站系统;
[0038] 所述攻击报警为向HMI液晶屏发出报警信息,报警信息为攻击行为的类型;
[0039] 测量模块用于获取储能电站系统中的数据流并上传给CPU模块;
[0040] 滤波模块用于将故障录波及波形的数据流上送至CPU模块;
[0041] 打印模块用于打印;
[0042] 日志模块用于对日志记录、数据流以及报警进行存储;对时模块用于装置对时;
[0043] HMI液晶屏用于显示;
[0044] 随机森林检测模块用于对CPU模块发送的数据流通过随机森林模型对数据流进行实时检测,输出检测分类结果后发送至CPU模块。
[0045] 进一步地,所述CPU模块还将日志记录发送至日志模块进行保存和/或通过通信模块将攻击报警以及日志记录发送至调度中心主站系统。
[0046] 进一步地,所述随机森林模型采用以下方法获得:
[0047] 一、将数据流作为训练样本,建立N个训练样本集以及M个特征,所述N为训练样本集的个数,M为特征的数目,构建至少一棵树对训练样本集进行训练;
[0048] 二、确定特征值
[0049] 通过判断m个特征在单棵树中的重要程度以及计算m个特征在所有树中的重要程度,然后对m个特征的重要程度进行排序,去除重要程度低的部分特征,得到新的特征集;
[0050] 三、对随机森林模型进行更新迭代,在随机森林模型中找出最优的随机森林模型作为最终的随机森林模型。
[0051] 进一步地,所述确定特征值包括:
[0052] (1)通过随机改变某一特征的属性值来判断该特征在这棵树中是否起到了作用或该特征在这棵树中无效;所述属性值为特征的属性,
[0053] (2)比较改变前和改变后的测试集误差率,将测试集误差率的差距作为该特征在该树中的重要程度,通过对一棵树中的m个特征计算一次,以获得m个特征在该树中的重要程度;
[0054] 误差率采用下式获得:
[0055]
[0056] 其中,i指特征的编号,TP:正确预测到的正例的数量,TN:正确预测到的负例的数量,FP:把负例预测成正例的数量,FN:把正例预测成负例的数量;所述正例为是,负例为不是。
[0057] (3)计算各特征在森林中的重要程度,则取这个特征值在多棵树中的重要程度的均值作为该特征在森林中的重要程度;
[0058]
[0059] 其中,MDA表示平均精确率减少----Mean decrease accuracy;Ai中A表示特征,i表示该特征的编号:nsum表示特征Ai在森林中出现的次数,OOBerrta表示第t棵树中Ai属性值改变之后的袋外误差率,OOBerrtb表示第t棵树中正常Ai值的袋外误差率;
[0060] 所述袋外误差率采用下式获得:
[0061]
[0062] 其中,i指特征的编号,TP:正确预测到的正例的数量,TN:正确预测到的负例的数量,FP:把负例预测成正例的数量,FN:把正例预测成负例的数量。
[0063] (4)在得到所有特征在森林中的重要程度后,将所有的特征按照重要程度进行排序,去除森林中重要程度低的部分特征,得到新的特征集,从而完成一次迭代。
[0064] 进一步地,所述确定特征值中还包括:重复(1)-(4),逐步去除相对较差的特征,每次都会生成新的随机森林模型,直到剩余的特征数为m为止,然后再这些随机森林模型中找出最优的随机森林模型作为最终的随机森林模型来进行数据流的实时检测。
[0065] 本发明与现有技术相比,通过将储能协调控制装置中所有数据流作为训练样本,以随机森林模型作为检测引擎,对输入的数据流进行检测分类,当储能协调控制装置受到了攻击时,发出报警,生成日志记录的同时对可疑数据进行隔离,从而提高储能协调控制装置的信息安全性。附图说明
[0066] 图1是现有技术中系统结构图。
[0067] 图2是本发明的流程图
[0068] 图3是本发明森林中每棵树的构建方式示意图。
[0069] 图4是本发明每个特征值在森林中重要性的示意图。
[0070] 图5是本发明随机森林获取的流程图。
[0071] 图6是确定特征值的具体流程图。
[0072] 图7是本发明储能协调控制装置的结构框图

具体实施方式

[0073] 下面结合附图和实施例对本发明作进一步详细说明。
[0074] 如图2所示,本发明公开了一种基于随机森林算法攻击识别方法,包括如下步骤:
[0075] 步骤一、获取储能协调控制装置的所有数据流,所述数据流为是否受到攻击的特征数据流或影响因子,所述数据流包括电网数据,包括公共连接点的电压、电流、频率、功率因数、谐波、三相电压不平衡度、电压波动和闪变、暂时过电压和瞬态过电压,PCS(储能变流器)的上传数据输出有功功率及无功功率、电池的SOC、最大可充功率、最大可放功率、额定功率、工作状态。
[0076] 步骤二、采用随机森林模型对数据流进行实时检测,输出检测分类结果并根据检测分类结果判断数据流中是否存在攻击行为,是则进入步骤三,否则进入步骤四;所述检测分类结果包括正常数据流和/或问题数据流;正常数据流中包括至少一种电网数据;问题数据流中包括至少一种存在攻击行为的电网数据;
[0077] 步骤三、当检测分类结果中数据流存在攻击行为时,对正常数据流进行转发;对问题数据流进行攻击分类并拦截,同时发出攻击报警以及生成日志记录后结束;所述攻击报警包括显示攻击行为的类型;所述拦截为丢弃问题数据流;
[0078] 步骤四、当检测分类结果中数据流不存在攻击行为时,对正常数据流进行转发;
[0079] 所述步骤三中对问题数据流进行分类具体为:当问题数据流中的电网数据存在某一类攻击行为时,将该电网数据归入相应的分类中,所述分类包括:Dos(拒绝服务)攻击、DDos(分布式拒绝服务)攻击、未授权访问攻击、接口端非正常探测、木马攻击、电气量和气象等数据伪造和篡改等攻击类型;所述问题数据的分类规则是每个树的各个枝的判断依据,比如说数据大小、数据长度、数据变化量变化率等;
[0080] 如图5所示,所述步骤二中随机森林模型采用以下方法获得:
[0081] 一、将数据流作为训练样本,建立N个训练样本集以及M个特征,所述N为训练样本集的个数,M为特征的数目,构建至少一棵树对训练样本集进行训练;所述数据流可以为历史数据流;训练样本中的数据流是带有明确结果的(受到某种网络攻击方式或未遭受攻击),每组数据构成一组,多组数据构成样本来便于对随机森林模型进行优化;所述特征包括数据的大小(比如说<16、>=19)、数据的前后变化量和变化率、数据类型(整型、浮点型、布尔型等)、数据的格式(比如说前后顺序等);每棵树均会根据数据流给出它的最终分类结果,最终选取最多的给出结果作为输出;
[0082] 从训练样本集中以有放回抽样的方式,随机抽取训练样本集,将随机抽取的训练样本集中的 个训练样本作为训练集(每次抽取一个就会放回一个样本),将训练样本集中剩余的训练样本作为袋外样本(Out of bag测试集),再从训练集中随机选取m个特征作为这棵树的分枝的依据,其中m
[0083] 二、确定特征值
[0084] 由于每一棵树都有m个特征,通过判断m个特征在单棵树中的重要程度以及计算m个特征在所有树(森林)中的重要程度,然后对m个特征的重要程度进行排序,去除重要程度低的部分特征,得到新的特征集,所述特征值指的是各个特征在各个树中的判断先后顺序,所需要判断的特征集合(去除了无效和低重要程度的特征);低重要程度指的是改变前后测试集误差率小于9%;无效标的是改变前后测试集误差率差值为0或小于3%;
[0085] 所述特征集为从m个特征中,去除重要程度低的特征后再排序的新集合。所述特征值是指由得到新的特征集后,这个集合的属性,各个特征的判断先后顺序以及那些特征需要判断。特征值就是能衡量该特征集的特点内容的值。就比方说特征集是一些力的合力,而特征值是这些力的大小或者说方向。
[0086] 具体地,如图6所示;
[0087] (1)通过随机改变某一特征的属性值来判断该特征在这棵树中是否起到了作用或该特征在这棵树中无效;所述属性值为特征的属性,如数据长度、开关状态等;改变特征的方式,比如说该特征是判断数据长度是否大于等于2,把2改为3或是把大于等于改为大于;又比如说判断某个开关状态为闭合,改为分开;
[0088] (2)比较改变前和改变后的测试集误差率,将测试集误差率的差距作为该特征在该树中的重要程度,通过对一棵树中的m个特征计算一次,以获得m个特征在该树中的重要程度(误差率);
[0089] 误差率采用下式获得:
[0090]
[0091] 其中,i指特征的编号,TP(True Positive):正确预测到的正例的数量,TN(True Negative):正确预测到的负例的数量,FP(False Positive):把负例预测成正例的数量,FN(False Negative):把正例预测成负例的数量;所述正例为是(或满足情况),负例为不是(或不满足情况)。
[0092] (3)计算各特征在森林中的重要程度(误差率),即每个特征在多棵数中出现,则取这个特征值(特征)在多棵树中的重要程度的均值作为该特征在森林中的重要程度;
[0093]
[0094] 其中,MDA表示平均精确率减少----Mean decrease accuracy,打乱每个特征的特征值顺序,并且度量顺序变动对模型的精确率的影响。利用袋外数据来计算重要性。OOB数据(袋外数据(Out of bag测试集))是训练集的一部分,但不用于训练这种特殊的树。用OOB数据计算出基本误差,然后对每个特征,随机打乱顺序。实际上,这就像用相同的分布使用随机数据替换变量一样,并忽视树对该特性的已有知识。对于不重要的特征来说,打乱顺序对模型的精确率影响不会太大,但是对于重要的特征来说,打乱顺序就会降低模型的精确率,
[0095] Ai中A表示特征,i表示该特征的编号:nsum表示特征Ai在森林中出现的次数,OOBerrta表示第t棵树中Ai属性值改变之后的袋外误差率,OOBerrtb表示第t棵树中正常Ai值的袋外误差率(图4所示)。
[0096] 所述袋外误差率(指标误差率)采用下式获得:
[0097]
[0098] 其中,i指特征的编号,TP(True Positive):正确预测到的正例的数量,TN(True Negative):正确预测到的负例的数量,FP(False Positive):把负例预测成正例的数量,FN(False Negative):把正例预测成负例的数量。
[0099] (4)在得到所有特征在森林中的重要程度(误差率)后,将所有的特征按照重要程度进行排序,去除森林中重要程度低的部分特征,得到新的特征集(从M个特征中去除无效和低重要程度后筛选之后的特征的集合),从而完成一次迭代。
[0100] 三、对随机森林模型进行更新迭代,在随机森林模型中找出最优的随机森林模型作为最终的随机森林模型;
[0101] 重复上述二中(1)-(4),逐步去除相对较差的特征,每次都会生成新的随机森林模型,直到剩余的特征数为m为止,然后再这些随机森林模型中找出最优的随机森林模型作为最终的随机森林模型来进行数据流的实时检测;
[0102] 通过引入一个指标误差率来评价一个森林的好坏,通过多棵树的预测这个训练样本的结果(结果为未遭受网络攻击、遭受网络攻击种类1、网络攻击种类2等等(此处的网络攻击是指前面描述过的网络攻击方式如DOS攻击),然后预测出所有训练样本的结果之后,将该结果中与训练样本中所对应的数据的真实值(真实结果,如正常数据、数据受到何种网络)进行比较,就可以得到这个森林的套外误差率(指标误差率)。选择套外误差率最小的随机森林模型作为最终的随机森林模型来进行数据流的实时检测。
[0103] 如图7所示,本发明还公开了一种储能协调控制装置,包括:通信模块、CPU(处理)模块、HMI液晶屏、随机森林检测模块、测量模块、日志模块、对时模块、打印模块、滤波模块,所述CPU模块分别与通信模块、HMI液晶屏、随机森林检测模块、测量模块、日志模块、对时模块、打印模块、滤波模块连接;
[0104] 所述通信模块用于实现与调度中心主站系统、PCS之间数据流的通信,向调度中心上送数据流;以及将接收到的数据流发送至处理模块;所述数据流包括电网数据以及控制指令;
[0105] 所述电网数据包括公共连接点的电压、电流、频率、功率因数、谐波、三相电压不平衡度、电压波动和闪变、暂时过电压和瞬态过电压,PCS的上传数据输出有功功率及无功功率、电池的SOC、最大可充功率、最大可放功率、额定功率、工作状态。所述公共连接点的电压、电流、频率、功率因数、谐波、三相电压不平衡度、电压波动和闪变、暂时过电压和瞬态过电压通过测量模块获取;PCS的上传数据输出有功功率及无功功率、电池的SOC、最大可充功率、最大可放功率、额定功率、工作状态通过PCS获取;
[0106] 所述电网数据还包括PT二次额定值、CT二次额定值、电流电压变化死区、频率变化死区、对时方式、装置地址、A\B网IP地址及子网掩码、遥设有功功率、遥设无功功率、系统电抗值、并网电压值、无功调节补偿、投入硬压板及开入信号开合状态;PT二次额定值、CT二次额定值、电流电压变化死区、频率变化死区通过调度中心下发获得;对时方式、装置地址通过对时单元采集;A\B网IP地址及子网掩码、遥设有功功率、遥设无功功率、系统电抗值、并网电压值、无功调节补偿、投入硬压板及开入信号开合状态为装置调试时预设;
[0107] CPU模块用于在接收到通信模块、测量模块以及滤波模块发送的数据流后发送至随机森林检测模块进行实时检测分类,并根据检测分类结果判断数据流中是否存在攻击行为;当检测分类结果中电网数据存在攻击行为时,通过HMI液晶屏发出报警以及生成日志记录;当检测分类结果中电网数据不存在攻击行为时,将正常的数据流通过通信模块上送至调度中心主站系统;
[0108] 所述攻击报警为向HMI液晶屏发出报警信息,报警信息为攻击行为的类型;
[0109] 所述攻击行为的类型包括:Dos(拒绝服务)攻击、DDos(分布式拒绝服务)攻击、未授权访问攻击、接口端非正常探测、木马攻击、电气量和气象等数据伪造和篡改等攻击类型;
[0110] 测量模块用于获取储能电站系统中的数据流并上传给CPU模块;所述数据流公共连接点的电压、电流、频率、功率因数、谐波、三相电压不平衡度、电压波动和闪变、暂时过电压和瞬态过电压、储能协控温度、光口光强情况、硬压板开入开出情况
[0111] 滤波模块用于将故障录波及波形的数据流上送至CPU模块;
[0112] 打印模块用于打印;
[0113] 日志模块用于对日志记录、数据流以及报警进行存储;对时模块用于装置对时,与电力系统和电站内部设备保持时间一致;储能电站与电力系统之间需采用一个统一的时间信息源能够使电站内部的运行设备得到统一、标准的时间基准,这样就方便了设备运行,提高了电力系统中自动化的平,同时基于卫星授时的故障定位可以通过检测各站点接收到故障反馈信号的精确时间,来对比不同站点的时间定位故障发生的位置
[0114] HMI液晶屏用于显示;
[0115] 随机森林检测模块用于对CPU模块发送的数据流通过随机森林模型对数据流进行实时检测,输出检测分类结果后发送至CPU模块。
[0116] 所述检测分类结果包括正常数据流和/或问题数据流;正常数据流中包括至少一种电网数据;问题数据流中包括至少一种存在攻击行为的电网数据。
[0117] 所述CPU模块还将日志记录发送至日志模块进行保存和/或通过通信模块将攻击报警以及日志记录发送至调度中心主站系统。
[0118] 对问题数据流进行分类具体为:当问题数据流中的电网数据存在某一类攻击行为时,将该电网数据归入相应的分类中,所述分类包括:Dos(拒绝服务)攻击、DDos(分布式拒绝服务)攻击、未授权访问攻击、接口端非正常探测、木马攻击、电气量和气象等数据伪造和篡改等攻击类型;所述问题数据的分类规则是每个树的各个枝的判断依据,比如说数据大小、数据长度、数据变化量变化率等;
[0119] 如图5所示,所述随机森林模型采用以下方法获得:
[0120] 一、将数据流作为训练样本,建立N个训练样本集以及M个特征,所述N为训练样本集的个数,M为特征的数目,构建至少一棵树对训练样本集进行训练;所述数据流可以为历史数据流;训练样本中的数据流是带有明确结果的(受到某种网络攻击方式或未遭受攻击),每组数据构成一组,多组数据构成样本来便于对随机森林模型进行优化;所述特征包括数据的大小(比如说<16、>=19)、数据的前后变化量和变化率、数据类型(整型、浮点型、布尔型等)、数据的格式(比如说前后顺序等);每棵树均会根据数据流给出它的最终分类结果,最终选取最多的给出结果作为输出;
[0121] 从训练样本集中以有放回抽样的方式,随机抽取训练样本集,将随机抽取的训练样本集中的 个训练样本作为训练集(每次抽取一个就会放回一个样本),将训练样本集中剩余的训练样本作为袋外样本(Out of bag测试集),再从训练集中随机选取m个特征作为这棵树的分枝的依据,其中m
[0122] 二、确定特征值
[0123] 由于每一棵树都有m个特征,通过判断m个特征在单棵树中的重要程度以及计算m个特征在所有树(森林)中的重要程度,然后对m个特征的重要程度进行排序,去除重要程度低的部分特征,得到新的特征集,所述特征值指的是各个特征在各个树中的判断先后顺序,所需要判断的特征集合(去除了无效和低重要程度的特征);低重要程度指的是改变前后测试集误差率小于9%;无效标的是改变前后测试集误差率差值为0或小于3%;
[0124] 所述特征集为从m个特征中,去除重要程度低的特征后再排序的新集合。所述特征值是指由得到新的特征集后,这个集合的属性,各个特征的判断先后顺序以及那些特征需要判断。特征值就是能衡量该特征集的特点内容的值。就比方说特征集是一些力的合力,而特征值是这些力的大小或者说方向。
[0125] 具体地,如图6所示:
[0126] (1)通过随机改变某一特征的属性值来判断该特征在这棵树中是否起到了作用或该特征在这棵树中无效;所述属性值为特征的属性,如数据长度、开关状态等;改变特征的方式,比如说该特征是判断数据长度是否大于等于2,把2改为3或是把大于等于改为大于;又比如说判断某个开关状态为闭合,改为分开;
[0127] (2)比较改变前和改变后的测试集误差率,将测试集误差率的差距作为该特征在该树中的重要程度,通过对一棵树中的m个特征计算一次,以获得m个特征在该树中的重要程度(误差率);
[0128] 误差率采用下式获得:
[0129]
[0130] 其中,i指特征的编号,TP(True Positive):正确预测到的正例的数量,TN(True Negative):正确预测到的负例的数量,FP(False Positive):把负例预测成正例的数量,FN(False Negative):把正例预测成负例的数量;所述正例为是(或满足情况),负例为不是(或不满足情况)。
[0131] (3)计算各特征在森林中的重要程度(误差率),即每个特征在多棵数中出现,则取这个特征值(特征)在多棵树中的重要程度的均值作为该特征在森林中的重要程度;
[0132]
[0133] 其中,MDA表示平均精确率减少----Mean decrease accuracy,打乱每个特征的特征值顺序,并且度量顺序变动对模型的精确率的影响。利用袋外数据来计算重要性。OOB数据(袋外数据(Out of bag测试集))是训练集的一部分,但不用于训练这种特殊的树。用OOB数据计算出基本误差,然后对每个特征,随机打乱顺序。实际上,这就像用相同的分布使用随机数据替换变量一样,并忽视树对该特性的已有知识。对于不重要的特征来说,打乱顺序对模型的精确率影响不会太大,但是对于重要的特征来说,打乱顺序就会降低模型的精确率,
[0134] Ai中A表示特征,i表示该特征的编号:nsum表示特征Ai在森林中出现的次数,OOBerrta表示第t棵树中Ai属性值改变之后的袋外误差率,OOBerrtb表示第t棵树中正常Ai值的袋外误差率(图4所示)。
[0135] 所述袋外误差率(指标误差率)采用下式获得:
[0136]
[0137] 其中,i指特征的编号,TP(True Positive):正确预测到的正例的数量,TN(True Negative):正确预测到的负例的数量,FP(False Positive):把负例预测成正例的数量,FN(False Negative):把正例预测成负例的数量。
[0138] (4)在得到所有特征在森林中的重要程度(误差率)后,将所有的特征按照重要程度进行排序,去除森林中重要程度低的部分特征,得到新的特征集(从M个特征中去除无效和低重要程度后筛选之后的特征的集合),从而完成一次迭代。
[0139] 三、对随机森林模型进行更新迭代,在随机森林模型中找出最优的随机森林模型作为最终的随机森林模型;
[0140] 重复上述步骤二中(1)-(4),逐步去除相对较差的特征,每次都会生成新的随机森林模型,直到剩余的特征数为m为止,然后再这些随机森林模型中找出最优的随机森林模型作为最终的随机森林模型来进行数据流的实时检测;
[0141] 通过引入一个指标误差率来评价一个森林的好坏,通过多棵树的预测这个训练样本的结果(结果为未遭受网络攻击、遭受网络攻击种类1、网络攻击种类2等等(此处的网络攻击是指前面描述过的网络攻击方式如DOS攻击),然后预测出所有训练样本的结果之后,将该结果中与训练样本中所对应的数据的真实值(真实结果,如正常数据、数据受到何种网络)进行比较,就可以得到这个森林的套外误差率(指标误差率)。选择套外误差率最小的随机森林模型作为最终的随机森林模型来进行数据流的实时检测。
[0142] 本发明通过随机森林模型对储能协调控制装置获取的下层数据流进行实时检测,当检测分类结果存在攻击行为时,对问题数据流进行攻击分类并拦截,同时进行攻击报警以及生成日志记录,提高储能协调控制装置的信息安全性;增加和强化储能协调控制装置的主动攻击检测功能及能力。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈