基于模糊聚类的支持向量回归算法的污水溶解氧浓度预测
方法
技术领域:
[0001] 本
发明设计涉及
大数据分析技术领域,具体说是一种基于模糊聚类支持向量回归的污水溶解氧浓度预测方法。背景技术:
[0002] 随着水资源的日益紧缩和水环境的污染的愈加严重,污
水处理的问题越来越受到人们的关注。溶解氧DO是评价水质的的重要指标之一,但是目前存在的DO预测方法训练样本量小,没有考虑进水参数的测量存在滞后性,没有考虑时间参数,模型泛化能
力不强,对于海量数据会出现欠拟合现象,导致预测准确率不佳。因此单纯的通过
传感器的方法并不适合实时监测,所以我们采用支持向量回归的方法来预测未来时刻的DO浓度值。但是由于数据量庞大,支持向量回归算法将耗费大量的数据存储空间和运行时间,不利于在线实时监测。
[0003] 因此本
申请提出了基于模糊聚类的支持向量回归(FCM-SVR)算法来缩减样本数量,在不降低预测
精度的同时,大幅度降低算法运算时间,从而实现在线预测。发明内容:
[0004] 本发明的目的是为了解决传统预测方法对污水中溶解氧DO的含量进行在线预测过程中存在计算复杂度高、时间复杂度高、预测精度不佳等
缺陷,并提供一种基于模糊聚类支持向量回归的污水溶解氧浓度预测方法。
[0005] 本发明所要解决的技术问题采用以下的技术方案来实现:
[0007] S1.历史水质数据的采集,获取包含若干水质指标的历史水质时间序列数据,这些指标例如水质的pH,MLSS,ORP,进水NH4N,出水COD,出水TP,进水累计流量,出水累计流量等;
[0008] S2.水质数据的特征选取,通过相关性分析,对获取的水质数据样本进行相关性分析,从而选取与溶解氧浓度较密切的若干指标;
[0009] S3.样本数据的聚类,利用模糊C均值
聚类算法将样本数据分成C个子类样本;
[0010] S4.
预测模型的训练,利用C个子类样本的水质特征矩阵对支持向量回归模型进行训练;
[0011] S5.待预测水质数据的输入,将待预测的污水数据通过聚类分为C类后,分别输入预测模型中;
[0012] S6.获得预测结果。
[0013] 所述水质数据的特征选取包括以下步骤:
[0014] 根据获得的历史水质时间序列数据,建立以若干水质指标为特征的矩阵;
[0015] 将t-1时刻的水质指标作为输入数据,t时刻的溶解氧浓度作为输出数据,计算相关性,其计算公式如下:
[0016]
[0017] 式中,x为t-1时刻的各水质指标,y为t时刻的DO浓度;R(X,Y)为相关系数,|R|的数值越大,表示变量x与y之间的关系越密切;
[0018] 选取与DO浓度相关性较大的水质指标数据作为聚类样本的数据,建立特征矩阵存入内存;
[0019] 所述样本数据的聚类包括以下步骤:
[0020] 随机选取数据中的C个样本作为聚类中心,分别计算每个样本到聚类中心的距离,用dij=||xj-vi||表示;其中i和j分别用来表示样本数量和样本指标;
[0021] 更新每个样本的隶属度矩阵,其计算公式如下:
[0022]
[0023] 更新聚类中心,其计算公式如下:
[0024]
[0025] 重新计算距离矩阵,并计算目标函数,直到满足
迭代次数或者前后两次目标函数的绝对值之差小于迭代停止误差算法停止;目标函数式如下:
[0026]
[0027] 得到C个子类的样本数据。
[0028] 所述预测模型的训练包括以下步骤:
[0029] 每一类样本进行标准化处理,其标准化的公式如式下:
[0030]
[0031] 式中,x是训练样本,mean(x),std(x)分别是训练的样本的均值和标准差;
[0032] 分别把每个类别的数据样本按8:2的比例划分成
训练数据和测试数据,选用RBF函数作为SVR模型的核函数,公式如下:
[0033]
[0034] 通过交叉验证分别选择C个类别的训练数据的惩罚系数V和核函数参数gamma的最佳超参数;交叉验证原理是将数据集随机分组k组,每次将其中一个组作为测试数据,剩余的k-1组作为训练数据;采用获得的最佳超参数对C个类别的训练数据进行训练,从而获取不同的支持向量回归模型,用测试样本对建立好的模型进行预测验证。
[0035] 本发明的有益效果是:本发明所述的基于模糊聚类支持向量回归的污水溶解氧浓度预测方法,通过对数据样本做模糊聚类在不改变样本特征的情况下可以很好的降低数据样本的数量,由于模糊聚类是通过样本自身特征进行分类,很好的保留了时间序列的历史特征信息,有效的缩减了建模和预测数据的规模,能在保证算法预测精度上同时降低时间复杂度,然后再采取SVR算法对曝气过程进行建模,不仅可以确保模型的精度,而且可以在一定程度上缩小数据量,在保证模型精度的前提下,提高模型的预测效率。FCM-SVR模型训练数据建模时间较短,和SVR模型相比具有较好的综合性能,能够满足污水水质预测的实际需求。
附图说明:
[0036] 图1为本发明的方法顺序图;
[0037] 图2为本发明SVR与FCM-SVR对比图。具体实施方式:
[0038] 为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本发明。
[0039] 如图1所示,本发明所述的基于模糊聚类支持向量回归的污水溶解氧浓度预测方法,包括以下步骤:
[0040] 第一步,历史水质数据的采集,在这个实例中,该实例的研究数据来源安徽省合肥市某
污水处理厂2017年全年污水指标数据,数据按每分钟进行采集,共采集了46000组样本数据。其中水质参数分别为PH,MLSS,ORP,进水NH4N,出水COD,出水TP,进水累计流量,出水累计流量。
[0041] 这7项指标经相关性分析与污水中DO浓度存在正相关关系,相关度较高,所以我们选择这7项与DO浓度有影响的因素作为样本的输入数据。
基础数据的准确
选定为后期的精准预测打下了基础。
[0042] 第二步,水质数据的特征选取,通过相关性分析,对获取的水质数据样本进行相关性分析,从而选取与溶解氧浓度较密切的若干指标。
[0043] 在该实例中,将t-1时刻的水质指标作为输入数据,共8个指标,分别为t-1时刻的PH,MLSS,ORP,进水NH4N,出水COD,出水TP,进水累计流量,出水累计流量。输出数据为t时刻的DO浓度。
[0044] 计算相关性,其计算公式如下:
[0045]
[0046] 式中,x为t-1时刻的各水质指标,y为t时刻的DO浓度。R(X,Y)为相关系数,|R|的数值越大,表示变量x与y之间的关系越密切。
[0047] 相关性结果如下:
[0048] 表1溶解氧DO与其他指标的相关性
[0049]
[0050] 由表1可知,PH,ORP,进水NH4N,出水COD,出水TP,进水累计流量,出水累计流量与DO呈正相关,相关度较高;MLSS与DO呈负相关,相关性较低,故聚类样本数据为PH,ORP,进水NH4N,出水COD,出水TP,进水累计流量,出水累计流量。建立特征矩阵存入内存。
[0051] 第三步,样本数据的聚类,用模糊C均值聚类算法将样本分成C个子类样本。包括以下步骤:
[0052] (1)随机选取数据中的C个样本作为聚类中心,分别计算每个样本到聚类中心的距离,用dij=||xj-vi||表示。其中i和j分别用来表示样本数量和样本指标。
[0053] (2)更新每个样本的隶属度矩阵,其计算公式如下:
[0054]
[0055] (3)更新聚类中心,其计算公式如下:
[0056]
[0057] (4)重新计算距离矩阵,并计算目标函数,直到满足迭代次数或者前后两次目标函数的绝对值之差小于迭代停止误差算法停止。目标函数式如下:
[0058]
[0059] (5)得到C个子类的样本数据。
[0060] 第四步,预测模型的训练,利用C个子类的水质特征矩阵对支持向量回归模型进行训练。包括以下步骤:
[0061] (1)每一类样本进行标准化处理。其标准化的公式如式下:
[0062]
[0063] 式中,x是训练样本,mean(x),std(x)分别是训练的样本的均值和标准差。
[0064] (2)分别把每个类别的数据样本按8:2的比例划分成训练数据和测试数据。选用RBF函数作为SVR模型的核函数,公式如下:
[0065]
[0066] (3)通过交叉验证分别选择C个类别的训练数据的惩罚系数V和核函数参数gamma的最佳超参数。交叉验证原理是将数据集随机分组k组,每次将其中一个组作为测试数据,剩余的k-1组作为训练数据。采用获得的最佳超参数对C个类别的训练数据进行训练,从而获取不同的支持向量回归模型。用测试样本对建立好的模型进行预测验证。
[0067] (4)通过交叉验证对预测样本进行模糊聚类将其分类,再将其分别放入相对应的SVR模型中进行预测。
[0068] (5)得出的预测结果与实际值相比较,验证该模型的优劣用均方根误差和平均绝对误差来衡量。公式如下所示:
[0069]
[0070]
[0071] 在这里,我们用模糊聚类和支持向量回归结合的预测模型对溶解氧DO进行预测,并分别与单一支持向量回归模型做比较,结果如图2所示。图中横坐标为2017年全年的测试数据序列,选取其中80%作为训练数据,20%作为测试数据,测试数据共计9200组样本,纵坐标为溶解氧DO的浓度。曲线是实际值与预测值的结果。图2为SVR与FCM-SVR对比图。
[0072] 为了清晰直观的反映出各个模型的实验效果,验证模型的
稳定性,本文将全年数据平均分为四个季度,并衡量其预测效果,结果见表1,预测计算公式如下:
[0073]
[0074]
[0075] 式中,yi是预测值,ytesti测试数据,n是样本数量。
[0076] 表2.SVR与FCM-SVR误差分析表
[0077]
[0078]
[0079] 从图2和表2可以看出,FCM-SVR模型能更好地拟合污水指标与溶解氧浓度之间的复杂非线性关系。
[0080] 预测结果明显优于单SVR模型;运行速度也大大提高。
[0081] 根据表2的统计结果,FCM-SVR算法与SVR算法相比,MAE在第一季度到第四季度没有显着变化,RMSE下降了2%,3%,1%和2%分别。通过对四组实验的比较可以看出,FCM-SVR模型比SVR模型具有更好的预测精度。对于本文提出的所有绩效评估指标,训练数据建模时间相对较短。与SVR模型相比,综合性能较好,可以满足污水水质预测的实际需要。
[0082] 以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述
实施例的限制,上述实施例和
说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的
权利要求书及其等效物界定。