专利汇可以提供一种面向时间序列型地表水质大数据的预测与评估模型构建方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种面向时间序列型地表 水 质 大数据 的预测与评估模型构建方法,首先清除明显违反常识的数值,接着根据存在空缺值的时间点上的所有数据找到与其 马 氏距离最近的时间点,并用这个时间点上的数据来填补空缺值。接着利用马氏距离改进的KMeans++聚类 算法 和Z分数检测算法来检测水质数据中的异常值并利用支持向量回归填补异常值。接着利用 随机森林 算法实现水质指标的重要特征提取,选取重要度高的指标用于水质整体状态的评估。接着利用LSTM模型预测水质整体状态的时间序列。最后利用Hadoop的MapReduce编程实现程序的并行化执行,提高各个算法的执行效率,完成最终的预测与评估模型构建,提高了水质大数据分析效率,完整性以及准确性。,下面是一种面向时间序列型地表水质大数据的预测与评估模型构建方法专利的具体信息内容。
1.一种面向时间序列型地表水质大数据的预测与评估模型构建方法,其特征在于:该方法主要包括如下步骤,
步骤1:使用数据清洗算法对地表水质数据进行异常值检测和空缺值填补;
步骤2:使用随机森林算法对水质指标进行重要特征提取,选取重要度高的指标用于水质整体状态的评估;
步骤3:基于对每一时间点的水质评估,使用时间序列预测算法进行水质整体状态的预测;
步骤4:基于Hadoop平台的MapReduce编程实现程序的并行化执行,得到最终的时间序列型地表水质大数据的预测与评估模型。
2.根据权利要求1所述的一种面向时间序列型地表水质大数据的预测与评估模型构建方法,其特征在于:步骤1所述的数据清洗算法对地表水质数据进行异常值检测和空缺值填补的方法,其步骤具体包括:
步骤1-1:使用python从水质数据库中读取数据并清除明显违反常识的数值;
步骤1-2:使用python编程,根据存在空缺值的时间点上的所有数据找到与其马氏距离最近的时间点,并用这个时间点上的数据来填补空缺值;
步骤1-3:使用python实现马氏距离改进的KMeans++聚类算法和Z分数检测算法分别从每一时间点数据的整体状态和单因素指标的数据分布状态来检测水质数据中的异常值;
步骤1-4:使用python实现粒子群优化算法优化的支持向量回归算法填补第三步中检测出来的异常值。
3.根据权利要求1所述的一种面向时间序列型地表水质大数据的预测与评估模型构建方法,其特征在于:步骤2所述重要度分析的方法,其步骤具体包括:
步骤2-1:基于GB3838-2002地表水质评价标准将每一时间点上的水质整体状态分类;
步骤2-2:使用python机器学习算法工具包scikit-learn实现随机森林算法,从而实现水质指标的重要特征提取,选取重要度高的指标用于水质整体状态的评估。
4.根据权利要求1所述的一种面向时间序列型地表水质大数据的预测与评估模型构建方法,其特征在于:步骤3所述的时间序列预测的方法,其步骤具体包括:
步骤3-1:获取每一时间点的历史水质整体状态评估数据;
步骤3-2:将历史水质整体状态评估数据作为使用python机器学习算法工具包tensorflow实现基于粒子群优化算法优化的LSTM模型的输入,并进行预测。
5.根据权利要求1所述的一种面向时间序列型地表水质大数据的预测与评估模型构建方法,其特征在于:步骤4所述的使用MapReduce实现并行化计算的方法,其步骤具体包括:
步骤4-1:基于Hadoop搭建分布式集群模型;
步骤4-2:集群中分配不同主机对不同指标进行错误数据清除,实现程序并行化;
步骤4-3:集群中分配不同主机对同一数据集执行KMeans++算法,从中选取最优初始中心,实现程序并行化;
步骤4-4:集群中分配不同主机对不同指标进行Z分数计算,实现程序并行化;
步骤4-5:集群中分配不同主机对粒子群优化算法的粒子进行更新,实现程序并行化;
步骤4-6:集群中分配不同主机在同一数据集对不同时间段数据计算整体状态分类,实现程序并行化。
6.根据权利要求2所述的一种面向时间序列型地表水质大数据的预测与评估模型构建方法,其特征在于:步骤1-3所述的用马氏距离改进的KMeans++聚类算法和Z分数检测算法检测异常值的方法,其步骤具体包括:
步骤1-3-1:从检测某一时间点水质整体状态的思路出发,使用马氏距离改进的KMeans++聚类算法将水质数据分为两类,类别占比大的是非异常数据,占比小的是异常数据;
步骤1-3-2:使用Z分数检测算法检测各个单因素指标的异常值情况;
步骤1-3-3:在KMeans++聚类算法和Z分数检测算法中都被标记为异常的数值被认定为异常值,并被标记为Null;
步骤1-3-4:使用python实现粒子群优化算法优化的支持向量回归算法将上一步检测出来的Null值填补。
7.根据权利要求4所述的一种面向时间序列型地表水质大数据的预测与评估模型构建方法,其特征在于:步骤3-2所述的运用基于粒子群优化算法优化的LSTM模型根据历史水质整体状态预测未来水质整体状态的方法,其步骤具体包括:
步骤3-2-1:使用python机器学习算法工具包tensorflow构建基本的LSTM模型,其中模型的两个参数:步长和学习率由人为设置,分别代表LSTM记忆的时间段和每一次梯度下降的间隔。
步骤3-2-2:使用python编程构建粒子群,粒子群中每一个粒子的位置是一个二维变量,代表LSTM模型的学习率和步长,初始化值由人为给出;
步骤3-2-3:将所有粒子平均分配到集群中去根据RMSE更新局部最优值和全局最优值;
当达到最大迭代次数之后,粒子群的全局最优值就是LSTM模型最优的步长和学习率。
8.根据权利要求6所述的一种面向时间序列型地表水质大数据的预测与评估模型构建方法,其特征在于:所用的Z分数检测算法具体步骤为:
第一步,设对被测量进行等精度测量,独立得到x1,x2,...,xn,算出其算术平均值及剩余误差 其中vi表示每
一个被测量的剩余误差,xi表示每一个被测量的具体值;
第二步,按贝塞尔公式算出标准误差 xb(b=1,2,3,...,n)的Z分数
的通过下面的公式计算:
Z分数:
其中xb表示每一个被测量的具体值;
第三步,若|zb|>3则认为xb是含有粗大误差值的坏值,为水质异常值。
9.根据权利要求3所述的一种面向时间序列型地表水质大数据的预测与评估模型构建方法,其特征在于:所用的随机森林算法计算变量重要度的具体步骤为:
第一步,假设有Bootstrap样本b=1,2,3,.....,B,B表示训练样本的个数;首先设置b=1,在训练样本上创建决策树Tb,并将袋外数据标记为 袋外数据也就是未用于构建决策树的测试集;
第二步,在袋外数据上使用Tb对 数据进行分类,统计正确分类的个数,记为第三步,对于特征Xj(j=1,2,3….,N),对 中的特征Xj的值进行扰动.通过随机置换 中Xj的值来获得扰动样本.扰动后的数据集记为 使用Tb对 数据进行分类,统计正确分类的个数,记为
第四步,对于b=2,3,…….,B,重复步骤(1)~(3);特征Xj的变量重要性度量 通过下面的公式进行计算:
重要度: 。
10.根据权利要求7所述的一种面向时间序列型地表水质大数据的预测与评估模型构建方法,其特征在于:所用的粒子群优化算法的具体步骤为:
第一步,假设在D维空间中有n个粒子;
每个粒子的位置可以描述为Xi=(Xi1,Xi2,Xi3,Xi4,...,Xid);每个粒子的速度被描述为Vi=(Vi1,Vi2,Vi3,Vi4,...,Vid);每个粒子的适应值由优化问题的目标函数决定,并且知道到目前为止它的最佳位置(Pbest)和它的当前位置(Xi),这可以看作粒子自己的飞行经验;同时,由于粒子伴侣的经验,每个粒子也知道迄今为止对于整个群体(Gbest)的最佳位置,这是Pbest的最佳值;速度更新如下:
更新速度:
第二步, pi,pg,ω,和c1,c2分别代表当前位置,当前速度,粒子历史中的最佳位置,粒子群历史中的最佳位置,惯性权重和学习因素;其中c1,c2取(0,1); 表示更新后的速度;
第三步,位置的更新如下:
更新速度:
其中 表示每一个粒子更新后的位置。
方法
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
带宽压缩中的后选择预测方法 | 2020-05-08 | 412 |
图像带宽压缩中的后选择预测方法 | 2020-05-08 | 864 |
一种包含参数跟踪的感应电机状态强跟踪滤波估计方法 | 2020-05-08 | 490 |
储能式充电桩参与电网需求侧响应联合运行优化模型与求解算法 | 2020-05-08 | 238 |
带宽压缩中的预测方法 | 2020-05-08 | 213 |
基于数据驱动启发式优化的城市高压配电网阻塞管理方法 | 2020-05-08 | 291 |
神经网络编译方法、系统及相应异构计算平台 | 2020-05-11 | 748 |
一种风电功率预测方法 | 2020-05-08 | 167 |
一种基于部件特征的航空发动机多故障并发诊断方法 | 2020-05-08 | 324 |
一种海量数据库表快速分类的方法 | 2020-05-11 | 697 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。