专利汇可以提供机器学习多维度多模型融合河道水质异常检测方法及装置专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种 机器学习 多维度多模型融合河道 水 质 异常检测 方法及装置,本发明能够根据数据的累积自动更新模型;能够根据不同河道单独建立模型,模型 覆盖 所有检测维度的联合分布,多变量之间有关联关系的情况下,可以发现关联关系的变化,能够发现相对历史关联规律之外的异常;能够自动识别河道多种常见指标关联分布模式,以及各指标随时间的变化序列模式,在多个正常模式之外的检测结果才被认为是异常点,单一变量随时间变化的规律异常距离;采用多次抽样,形成多模型 叠加 共同判定的 算法 ,提高算法的 稳定性 ,减少误判漏判。,下面是机器学习多维度多模型融合河道水质异常检测方法及装置专利的具体信息内容。
1.一种机器学习多维度多模型融合河道水质异常检测方法,其特征在于,包括如下步骤:
S1.对数据进行维度拆分,进行缺失值检查和设备异常值检查;
S2.针对统计分布进行异常建模;
S3.针对各维度进行统计异常打分;
S4.针对各维度进行时序建模异常打分;
S5.针对每个维度统计与时序异常,形成融合判定;
S6.综合各维度融合判定,重复步骤S5直至形成数据点异常判定;
在上述步骤中,对于统计分布异常,首先假设正常的数据点会出现在随机模型发生概率高的区域,而如果一个数据点出现在了一个随机模型发生概率低的区域则认为是异常点。
2.如权利要求1所述机器学习多维度多模型融合河道水质异常检测方法,其特征在于,在步骤S2和步骤S3中,使用IForest、PCA、HBOS、KNN四种异常检测技术对河道水质监测数据进行统计分布的异常建模:进行多次抽样,并对四种算法进行单独建模,完成不同的异常打分操作;对四种算法模型进行结果碰撞,对每个时间点所有的异常打分进行叠加,当超过阈值时,这个时间点判定为异常点;形成一个由多模型叠加共同进行统计分布的异常检测算法。
3.如权利要求2所述机器学习多维度多模型融合河道水质异常检测方法,其特征在于,在步骤S2和步骤S3中:
IForest异常检测的步骤如下:
a.从训练数据中随机选择m个样本点作为subsample,放入树的根节点;
b.随机指定一个维度,在当前节点数据中随机产生一个切割点p,切割点产生于当前节点数据中指定维度的最大值和最小值之间;
c.以此切割点生成了一个超平面,将当前节点数据空间划分为2个子空间:把指定维度里小于p的数据放在当前节点的左孩子,把大于等于p的数据放在当前节点的右孩子;
d.在孩子节点中递归步骤b和c,不断构造新的孩子节点,直到孩子节点中只有一个数据或孩子节点已到达限定高度;
e.获得t个子树之后,对于一个训练数据x,令其遍历每一棵子树,然后计算x最终落在每棵树第几层,得出x在每棵树的高度平均值,即为APLt;
f.获得每个测试数据的APL后,设置一个阈值,APL低于此阈值的测试数据即为异常;
PCA异常检测的步骤如下:
a.对数据进行中心化和归一化处理;
b.进行PCA数据降维;
c.对于某一个特征向量ej,计算数据样本xi在该方向上的偏离程度dij,计算公式如下:
d.将样本在所有方向上的偏离程度加起来,得到一个综合的异常得分:
e.如果得分大于阈值则判断为异常;
HBOS异常检测的步骤如下:
a.对每个特征维度进行动态的区间划分,将所有的值进行排序,连续的N/k个值划分在一个组,其中N是总的样本个数,K是区间个数,每个区间段面积为1,宽度越高,则高度越低,高度代表密度;
b.高度标准化。每个区间的高度进行标准化,使得最大的高度为1;
c.计算各个样本点出现的概率,计算公式如下:
其中p表示数据点,histi(p)表示数据点p在第i个特征上其所在区间的高度,d表示特征的个数;
KNN异常检测的步骤如下:
a.对每一个数据点x,计算x与x的第K近的数据点的距离dk(x);
b.将所有的数据点按照dk(x)进行排序;
c.异常是那些有着最大的dk(x)的数据点,这些数据点有着更加稀疏的近邻;
d.将dk(x)排在前n的数据点认为是异常点。
4.如权利要求1所述机器学习多维度多模型融合河道水质异常检测方法,其特征在于,在步骤S4中,对时间序列数据进行模型建立:
y(t)=g(t)+s(t)+εt
其中,g(t)是趋势项,s(t)是周期项,εt是误差项并且服从正态分布,在对这几项进行分解及拟合之后,得到一个对于不同时间点的连续的置信区间,对于超出置信区间的所有时间点,模型判定为时间序列分布的异常值,并根据距离进行异常打分。
5.如权利要求1所述机器学习多维度多模型融合河道水质异常检测方法,其特征在于,在步骤S5中,对于水质数据的每个维度di,将统计异常的四种模型所得到的异常分数记为(pi1,pi2,pi3,pi4),将时序异常的异常分数记为qi,先对(pi1,pi2,pi3,pi4)进行归一化操作,之后将归一化结果与qi相加,并除以2;将分数阈值初步设置在总体分布的90%,当异常分数超过总体分布的90%时,初步判定为该维度为当前时间点的系统异常值,形成融合判定;对于每一个时间点,将各维度的异常分数相叠加,得到总的异常分数f,综合考虑总的异常分数f与异常维度的个数,将总异常分数f超过总得分分布的90%,并满足单维度异常个数大于2的时间点作为最终的异常点,形成数据异常判定。
6.如权利要求1所述机器学习多维度多模型融合河道水质异常检测方法,其特征在于,在步骤S6中,对于新产生的数据,利用之前系统所训练保存下来的模型进行异常打分,并重复进行步骤S5,完成数据异常判定;当新的时间点判定为异常时,自动发出警报,并根据单维度异常打分前5的排名情况,给出最有可能出现异常的原因。
7.一种机器学习多维度多模型融合河道水质异常检测装置,其特征在于,基于如上述权利要求1至6中任意一项所述方法实现。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
网络攻击预警方法和装置 | 2020-05-08 | 737 |
一种混合傅里叶核函数支持向量机文本分类方法 | 2020-05-12 | 357 |
一种具有强鲁棒性的燃煤机组汽包锅炉水位控制方法 | 2020-05-13 | 522 |
一种基于支持向量机和V-I曲线特征的负荷识别方法 | 2020-05-11 | 562 |
一种基于异构信息的评分推荐方法 | 2020-05-12 | 492 |
一种基于多特征最优融合的图像显著性检测方法 | 2020-05-12 | 340 |
多时段联络线功率可行域的快速刻画与精度评估方法 | 2020-05-13 | 271 |
双阶段语义词向量生成方法 | 2020-05-08 | 784 |
基于迁移学习的最小二乘多分类方法、装置和存储介质 | 2020-05-14 | 487 |
一种基于批次图像化的卷积自编码故障监测方法 | 2020-05-14 | 156 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。