首页 / 专利库 / 数学与统计 / 超平面 / 机器学习多维度多模型融合河道水质异常检测方法及装置

机器学习多维度多模型融合河道异常检测方法及装置

阅读:328发布:2020-05-12

专利汇可以提供机器学习多维度多模型融合河道异常检测方法及装置专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种 机器学习 多维度多模型融合河道 水 质 异常检测 方法及装置,本发明能够根据数据的累积自动更新模型;能够根据不同河道单独建立模型,模型 覆盖 所有检测维度的联合分布,多变量之间有关联关系的情况下,可以发现关联关系的变化,能够发现相对历史关联规律之外的异常;能够自动识别河道多种常见指标关联分布模式,以及各指标随时间的变化序列模式,在多个正常模式之外的检测结果才被认为是异常点,单一变量随时间变化的规律异常距离;采用多次抽样,形成多模型 叠加 共同判定的 算法 ,提高算法的 稳定性 ,减少误判漏判。,下面是机器学习多维度多模型融合河道异常检测方法及装置专利的具体信息内容。

1.一种机器学习多维度多模型融合河道异常检测方法,其特征在于,包括如下步骤:
S1.对数据进行维度拆分,进行缺失值检查和设备异常值检查;
S2.针对统计分布进行异常建模;
S3.针对各维度进行统计异常打分;
S4.针对各维度进行时序建模异常打分;
S5.针对每个维度统计与时序异常,形成融合判定;
S6.综合各维度融合判定,重复步骤S5直至形成数据点异常判定;
在上述步骤中,对于统计分布异常,首先假设正常的数据点会出现在随机模型发生概率高的区域,而如果一个数据点出现在了一个随机模型发生概率低的区域则认为是异常点。
2.如权利要求1所述机器学习多维度多模型融合河道水质异常检测方法,其特征在于,在步骤S2和步骤S3中,使用IForest、PCA、HBOS、KNN四种异常检测技术对河道水质监测数据进行统计分布的异常建模:进行多次抽样,并对四种算法进行单独建模,完成不同的异常打分操作;对四种算法模型进行结果碰撞,对每个时间点所有的异常打分进行叠加,当超过阈值时,这个时间点判定为异常点;形成一个由多模型叠加共同进行统计分布的异常检测算法。
3.如权利要求2所述机器学习多维度多模型融合河道水质异常检测方法,其特征在于,在步骤S2和步骤S3中:
IForest异常检测的步骤如下:
a.从训练数据中随机选择m个样本点作为subsample,放入树的根节点
b.随机指定一个维度,在当前节点数据中随机产生一个切割点p,切割点产生于当前节点数据中指定维度的最大值和最小值之间;
c.以此切割点生成了一个超平面,将当前节点数据空间划分为2个子空间:把指定维度里小于p的数据放在当前节点的左孩子,把大于等于p的数据放在当前节点的右孩子;
d.在孩子节点中递归步骤b和c,不断构造新的孩子节点,直到孩子节点中只有一个数据或孩子节点已到达限定高度;
e.获得t个子树之后,对于一个训练数据x,令其遍历每一棵子树,然后计算x最终落在每棵树第几层,得出x在每棵树的高度平均值,即为APLt;
f.获得每个测试数据的APL后,设置一个阈值,APL低于此阈值的测试数据即为异常;
PCA异常检测的步骤如下:
a.对数据进行中心化和归一化处理;
b.进行PCA数据降维
c.对于某一个特征向量ej,计算数据样本xi在该方向上的偏离程度dij,计算公式如下:
d.将样本在所有方向上的偏离程度加起来,得到一个综合的异常得分:
e.如果得分大于阈值则判断为异常;
HBOS异常检测的步骤如下:
a.对每个特征维度进行动态的区间划分,将所有的值进行排序,连续的N/k个值划分在一个组,其中N是总的样本个数,K是区间个数,每个区间段面积为1,宽度越高,则高度越低,高度代表密度
b.高度标准化。每个区间的高度进行标准化,使得最大的高度为1;
c.计算各个样本点出现的概率,计算公式如下:
其中p表示数据点,histi(p)表示数据点p在第i个特征上其所在区间的高度,d表示特征的个数;
KNN异常检测的步骤如下:
a.对每一个数据点x,计算x与x的第K近的数据点的距离dk(x);
b.将所有的数据点按照dk(x)进行排序;
c.异常是那些有着最大的dk(x)的数据点,这些数据点有着更加稀疏的近邻;
d.将dk(x)排在前n的数据点认为是异常点。
4.如权利要求1所述机器学习多维度多模型融合河道水质异常检测方法,其特征在于,在步骤S4中,对时间序列数据进行模型建立:
y(t)=g(t)+s(t)+εt
其中,g(t)是趋势项,s(t)是周期项,εt是误差项并且服从正态分布,在对这几项进行分解及拟合之后,得到一个对于不同时间点的连续的置信区间,对于超出置信区间的所有时间点,模型判定为时间序列分布的异常值,并根据距离进行异常打分。
5.如权利要求1所述机器学习多维度多模型融合河道水质异常检测方法,其特征在于,在步骤S5中,对于水质数据的每个维度di,将统计异常的四种模型所得到的异常分数记为(pi1,pi2,pi3,pi4),将时序异常的异常分数记为qi,先对(pi1,pi2,pi3,pi4)进行归一化操作,之后将归一化结果与qi相加,并除以2;将分数阈值初步设置在总体分布的90%,当异常分数超过总体分布的90%时,初步判定为该维度为当前时间点的系统异常值,形成融合判定;对于每一个时间点,将各维度的异常分数相叠加,得到总的异常分数f,综合考虑总的异常分数f与异常维度的个数,将总异常分数f超过总得分分布的90%,并满足单维度异常个数大于2的时间点作为最终的异常点,形成数据异常判定。
6.如权利要求1所述机器学习多维度多模型融合河道水质异常检测方法,其特征在于,在步骤S6中,对于新产生的数据,利用之前系统所训练保存下来的模型进行异常打分,并重复进行步骤S5,完成数据异常判定;当新的时间点判定为异常时,自动发出警报,并根据单维度异常打分前5的排名情况,给出最有可能出现异常的原因。
7.一种机器学习多维度多模型融合河道水质异常检测装置,其特征在于,基于如上述权利要求1至6中任意一项所述方法实现。

说明书全文

机器学习多维度多模型融合河道异常检测方法及装置

技术领域

[0001] 本发明属于水质异常检测技术领域,具体涉及一种机器学习多维度多模型融合河道水质异常检测方法及装置。

背景技术

[0002] 在我国地表水资源短缺等问题日益突出的今天,“河长制”成为促进水资源可持续利用和推动社会经济发展与水环境承载能相协调的有力制度。在河道水质检测体系中,在不同流域、不同河段的检测数据则成为了河长制管理体系的重要信息来源和决策支撑,然而当前的河道水质检测原始数据具有项目多、专业度高、难关联等特点,需要对数据进行进一步的挖掘和关联分析,得到更加方便河长制管理和决策的分析结果。特别地,在河长制的河道水质检测与污染情况分析中,河道检测指标的异常变化跟踪与发现是一个非常重要的问题。在河道水质检测过程中,水质指标随季节、气温等具有相应的周期性变化,因此有些场景(如夜间偷排等)中水质的个别指标变化并不能引起告警阈值的触发,因此无论从系统的运维度,还是从河长监管河道状况的角度,都有需求根据多维度检测指标的历史数据分布和规律,检测数据中的异常点。

发明内容

[0003] 有鉴于此,本发明的目的是提供一种机器学习多维度多模型融合河道水质异常检测方法及装置,以解决现有技术中的不足。
[0004] 为了达到上述目的,本发明的目的是通过下述技术方案实现的:
[0005] 一方面,提供一种机器学习多维度多模型融合河道水质异常检测方法,其中,包括如下步骤:
[0006] S1.对数据进行维度拆分,进行缺失值检查和设备异常值检查;
[0007] S2.针对统计分布进行异常建模;
[0008] S3.针对各维度进行统计异常打分;
[0009] S4.针对各维度进行时序建模异常打分;
[0010] S5.针对每个维度统计与时序异常,形成融合判定;
[0011] S6.综合各维度融合判定,重复步骤S5直至形成数据点异常判定;
[0012] 在上述步骤中,对于统计分布异常,首先假设正常的数据点会出现在随机模型发生概率高的区域,而如果一个数据点出现在了一个随机模型发生概率低的区域则认为是异常点。
[0013] 上述机器学习多维度多模型融合河道水质异常检测方法,其中,在步骤S2和步骤S3中,使用IForest、PCA、HBOS、KNN四种异常检测技术对河道水质监测数据进行统计分布的异常建模:进行多次抽样,并对四种算法进行单独建模,完成不同的异常打分操作;对四种算法模型进行结果碰撞,对每个时间点所有的异常打分进行叠加,当超过阈值时,这个时间点判定为异常点;形成一个由多模型叠加共同进行统计分布的异常检测算法。
[0014] 上述机器学习多维度多模型融合河道水质异常检测方法,其中,在步骤S2和步骤S3中:
[0015] IForest异常检测的步骤如下:
[0016] a.从训练数据中随机选择m个样本点作为subsample,放入树的根节点
[0017] b.随机指定一个维度,在当前节点数据中随机产生一个切割点p,切割点产生于当前节点数据中指定维度的最大值和最小值之间;
[0018] c.以此切割点生成了一个超平面,将当前节点数据空间划分为2个子空间:把指定维度里小于p的数据放在当前节点的左孩子,把大于等于p 的数据放在当前节点的右孩子;
[0019] d.在孩子节点中递归步骤b和c,不断构造新的孩子节点,直到孩子节点中只有一个数据或孩子节点已到达限定高度;
[0020] e.获得t个子树之后,对于一个训练数据x,令其遍历每一棵子树,然后计算x最终落在每棵树第几层,得出x在每棵树的高度平均值,即为 APLt;
[0021] f.获得每个测试数据的APL后,设置一个阈值,APL低于此阈值的测试数据即为异常;
[0022] PCA异常检测的步骤如下:
[0023] a.对数据进行中心化和归一化处理;
[0024] b.进行PCA数据降维
[0025] c.对于某一个特征向量ej,计算数据样本xi在该方向上的偏离程度dij,计算公式如下:
[0026]
[0027] d.将样本在所有方向上的偏离程度加起来,得到一个综合的异常得分:
[0028]
[0029] e.如果得分大于阈值则判断为异常;
[0030] HBOS异常检测的步骤如下:
[0031] a.对每个特征维度进行动态的区间划分,将所有的值进行排序,连续的N/k个值划分在一个组,其中N是总的样本个数,K是区间个数,每个区间段面积为1,宽度越高,则高度越低,高度代表密度
[0032] b.高度标准化。每个区间的高度进行标准化,使得最大的高度为1;
[0033] c.计算各个样本点出现的概率,计算公式如下:
[0034]
[0035] 其中p表示数据点,histi(p)表示数据点p在第i个特征上其所在区间的高度,d表示特征的个数;
[0036] KNN异常检测的步骤如下:
[0037] a.对每一个数据点x,计算x与x的第K近的数据点的距离dk(x);
[0038] b.将所有的数据点按照dk(x)进行排序;
[0039] c.异常是那些有着最大的dk(x)的数据点,这些数据点有着更加稀疏的近邻;
[0040] d.将dk(x)排在前n的数据点认为是异常点。
[0041] 上述机器学习多维度多模型融合河道水质异常检测方法,其中,在步骤S4中,对时间序列数据进行模型建立:
[0042] y(t)=g(t)+s(t)+εt
[0043] 其中,g(t)是趋势项,s(t)是周期项,εt是误差项并且服从正态分布,在对这几项进行分解及拟合之后,得到一个对于不同时间点的连续的置信区间,对于超出置信区间的所有时间点,模型判定为时间序列分布的异常值,并根据距离进行异常打分。
[0044] 上述机器学习多维度多模型融合河道水质异常检测方法,其中,在步骤S5中,对于水质数据的每个维度di,将统计异常的四种模型所得到的异常分数记为(pi1,pi2,pi3,pi4),将时序异常的异常分数记为qi,先对 (pi1,pi2,pi3,pi4)进行归一化操作,之后将归一化结果与qi相加,并除以2;将分数阈值初步设置在总体分布的90%,当异常分数超过总体分布的 90%时,初步判定为该维度为当前时间点的系统异常值,形成融合判定;对于每一个时间点,将各维度的异常分数相叠加,得到总的异常分数f,综合考虑总的异常分数f与异常维度的个数,将总异常分数f超过总得分分布的90%,并满足单维度异常个数大于2的时间点作为最终的异常点,形成数据异常判定。
[0045] 上述机器学习多维度多模型融合河道水质异常检测方法,其中,在步骤S6中,对于新产生的数据,利用之前系统所训练保存下来的模型进行异常打分,并重复进行步骤S5,完成数据异常判定;当新的时间点判定为异常时,自动发出警报,并根据单维度异常打分前5的排名情况,给出最有可能出现异常的原因。
[0046] 另一方面,提供一种机器学习多维度多模型融合河道水质异常检测装置,其中,基于如上述任意一项所述方法实现。
[0047] 本发明技术方案的有益效果是:
[0048] --能够根据数据的累积自动更新模型;
[0049] --能够根据不同河道单独建立模型,模型覆盖所有检测维度的联合分布,多变量之间有关联关系的情况下,可以发现关联关系的变化,能够发现相对历史关联规律之外的异常;
[0050] --能够自动识别河道多种常见指标关联分布模式,以及各指标随时间的变化序列模式,在多个正常模式之外的检测结果才被认为是异常点,单一变量随时间变化的规律异常距离;
[0051] --采用多次抽样,形成多模型叠加共同判定的算法,提高算法的稳定性,减少误判漏判。附图说明
[0052] 图1为本发明方法流程示意图。

具体实施方式

[0053] 下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
[0054] 参看图1所示,本发明机器学习多维度多模型融合河道水质异常检测方法包括如下步骤:
[0055] S1.对数据进行维度拆分,进行缺失值检查和设备异常值检查,上传数据中漏传、缺项等的发现,对于缺项数据使用差值补全。对于上传数据中明显超出设备检测范围的值,对进行数据标记、删除,以避免对接下来的数据建模产生较大影响;
[0056] S2.针对统计分布进行异常建模;
[0057] S3.针对各维度进行统计异常打分;
[0058] S4.针对各维度进行时序建模异常打分;
[0059] S5.针对每个维度统计与时序异常,形成融合判定;
[0060] S6.综合各维度融合判定,重复步骤S5直至形成数据点异常判定;
[0061] 在上述步骤中,对于统计分布异常,首先假设正常的数据点会出现在随机模型发生概率高的区域,而如果一个数据点出现在了一个随机模型发生概率低的区域则认为是异常点。
[0062] 在步骤S2和步骤S3中,基于上述理念,本案使用IForest、PCA、HBOS、 KNN四种异常检测技术对河道水质监测数据进行统计分布的异常建模:进行多次抽样,并对四种算法进行单独建模,完成不同的异常打分操作;为了进一步提高系统的稳定性,降低系统的误判错判概率,对四种算法模型进行结果碰撞,对每个时间点所有的异常打分进行叠加,当超过阈值时,这个时间点判定为异常点;形成一个由多模型叠加共同进行统计分布的异常检测算法。
[0063] IForest异常检测的步骤如下:
[0064] a.从训练数据中随机选择m个样本点作为subsample,放入树的根节点;
[0065] b.随机指定一个维度(attribute),在当前节点数据中随机产生一个切割点p,切割点产生于当前节点数据中指定维度的最大值和最小值之间;
[0066] c.以此切割点生成了一个超平面,将当前节点数据空间划分为2个子空间:把指定维度里小于p的数据放在当前节点的左孩子,把大于等于p 的数据放在当前节点的右孩子;
[0067] d.在孩子节点中递归步骤b和c,不断构造新的孩子节点,直到孩子节点中只有一个数据(无法再继续切割)或孩子节点已到达限定高度;
[0068] e.获得t个子树之后,对于一个训练数据x,令其遍历每一棵子树,然后计算x最终落在每棵树第几层,得出x在每棵树的高度平均值,即为 APLt;
[0069] f.获得每个测试数据的APL后,设置一个阈值,APL低于此阈值的测试数据即为异常;
[0070] PCA异常检测的步骤如下:
[0071] a.对数据进行中心化和归一化处理;
[0072] b.进行PCA数据降维;
[0073] c.对于某一个特征向量ej,计算数据样本xi在该方向上的偏离程度dij,计算公式如下:
[0074]
[0075] d.将样本在所有方向上的偏离程度加起来,得到一个综合的异常得分:
[0076]
[0077] e.如果得分大于阈值则判断为异常;
[0078] HBOS异常检测的步骤如下:
[0079] a.对每个特征维度进行动态的区间划分,将所有的值进行排序,连续的N/k个值划分在一个组,其中N是总的样本个数,K是区间个数,每个区间段面积为1,宽度越高,则高度越低,高度代表密度;
[0080] b.高度标准化。每个区间的高度进行标准化,使得最大的高度为1;
[0081] c.计算各个样本点出现的概率,计算公式如下:
[0082]
[0083] 其中p表示数据点,histi(p)表示数据点p在第i个特征上其所在区间的高度,d表示特征的个数;
[0084] KNN异常检测的步骤如下:
[0085] a.对每一个数据点x,计算x与x的第K近的数据点的距离dk(x);
[0086] b.将所有的数据点按照dk(x)进行排序;
[0087] c.异常是那些有着最大的dk(x)的数据点,这些数据点有着更加稀疏的近邻;
[0088] d.将dk(x)排在前n的数据点认为是异常点。
[0089] 在步骤S4中,在将河道水质数据看作一个时间序列后,河道水质数据能够发现明显的周期性,如:白天和夜晚的周期变化,季节的周期变化等。针对这个特点,对时间序列数据进行模型建立:
[0090] y(t)=g(t)+s(t)+εt           (4)
[0091] 其中,g(t)是趋势项,s(t)是周期项,εt是误差项并且服从正态分布,在对这几项进行分解及拟合之后,得到一个对于不同时间点的连续的置信区间,对于超出置信区间的所有时间点,模型判定为时间序列分布的异常值,并根据距离进行异常打分。需要进行说明的是,本模型是对所有维度进行单独的建模,并在有关联关系的情况下,发现关联关系的变化。
[0092] 在步骤S5中,对于水质数据的每个维度di,将统计异常的四种模型所得到的异常分数记为(pi1,pi2,pi3,pi4),将时序异常的异常分数记为qi,先对(pi1,pi2,pi3,pi4)进行归一化操作,之后将归一化结果与qi相加,并除以2,即,对于每一个维度来说,异常的最大分值为1。在经过调研之后,发现水质系统中的异常点大约在5%左右,因此将分数阈值初步设置在总体分布的90%,当异常分数超过总体分布的90%时,初步判定为该维度为当前时间点的系统异常值,形成融合判定;对于每一个时间点,将各维度的异常分数相叠加,得到总的异常分数f,根据调研,当某一个时间点出现水质问题时,往往会有超过2个的维度出现异常状况,这就是维度之间的关联性。所以,根据这个性质,综合考虑总的异常分数f与异常维度的个数,将总异常分数f超过总得分分布的90%,并满足单维度异常个数大于2的时间点作为最终的异常点,形成数据异常判定。
[0093] 在步骤S6中,对于新产生的数据,利用之前系统所训练保存下来的模型进行异常打分,并重复进行步骤S5,完成数据异常判定;当新的时间点判定为异常时,自动发出警报,并根据单维度异常打分前5的排名情况,给出最有可能出现异常的原因。本案能够定期根据新的数据更新所使用的模型,以保证系统的稳定性与准确性。
[0094] 本发明还提供一种机器学习多维度多模型融合河道水质异常检测装置,具体基于如上述所述方法实现。
[0095] 本发明能够根据数据的累积自动更新模型,能够根据不同河道单独建立模型,模型覆盖所有检测维度的联合分布,多变量之间有关联关系的情况下,可以发现关联关系的变化,能够发现相对历史关联规律之外的异常;能够自动识别河道多种常见指标关联分布模式,以及各指标随时间的变化序列模式,在多个正常模式之外的检测结果才被认为是异常点,单一变量随时间变化的规律异常距离;采用多次抽样,形成多模型叠加共同判定的算法,提高算法的稳定性,减少误判漏判。
[0096] 以上仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈