首页 / 专利库 / 生物工程 / 生物工程 / 仿生学 / 一种基于混沌萤火虫与梯度提升树模型的河流水位预测方法

一种基于混沌萤火虫与梯度提升树模型的河流位预测方法

阅读:437发布:2021-04-10

专利汇可以提供一种基于混沌萤火虫与梯度提升树模型的河流位预测方法专利检索,专利查询,专利分析的服务。并且本 发明 提供一种基于混沌萤火虫与梯度提升树模型的河流 水 位预测方法,涉及信息技术领域和水文情况预测技术领域。首先 数据采集 ,所需数据总共分成五类。再进行数据预处理,包括异常值的剔除、缺失值的处理、数据归一化。将改进后的混沌萤火虫 算法 对梯度提升树模型的训练参数进行优化,并将改进的梯度提升树模型应用于结构化数据的河流水位预测研究。最后构造训练样本集,将处理后得到的5类数据中随机采用一部分用于模型训练,用GSO算法进行寻优,进行参数调优,得到最优参数下的GBDT模型,具有更好的泛化能 力 ,提高了模型对于水位预测的 精度 ,最后结合测试集进行模型检验,将得到的实际值与计算值的误差进行对比分析,验证模型的优良。,下面是一种基于混沌萤火虫与梯度提升树模型的河流位预测方法专利的具体信息内容。

1.一种基于混沌萤火虫与梯度提升树模型的河流位预测方法,其特征在于,所述方法包括:
S101:数据采集,所需数据总共分成五类,分别包括能够表示一份数据在一个特定时间点已经存在的完整的可验证的时间戳数据,当前时间段内河流流量总和的累计水量数据,单位时间内流经封闭管道或明渠有效截面的流体量的瞬时流量数据,河流单位时间内的位移的流速数据,当前时间段内最直观反映水体水情的水位数据。
S102:采集数据预处理,本发明中所采集的数据均为结构化数据,结构化数据中数据预处理包含异常值的剔除、缺失值的处理、数据归一化。
S103:基于改进后的混沌萤火虫算法(Glowworm Swarm Optimization,GSO)对梯度提升树模型(Gradient Boosted Decision Tree,GBDT)的训练参数进行优化,并将改进的梯度提升树模型应用于河流水位预测研究。
S104:构造训练样本集,将处理后得到的5类数据中随机采用一部分用于模型训练,用GSO算法进行寻优,进行参数调优,得到最优参数下的GBDT模型,结合测试集进行模型检验,计算与实际值的误差,验证模型的优良。
2.根据权利要求1所述的五类数据,其特征在于:
预测水位的数据获取包括以下:
S1011:时间戳能够表示在一个特定时间点已经存在的完整的可验证的数据;
S1012:累计水量反映当前时间段内河流水总和;
S1013:瞬时流量反映单位时间内流经封闭管道或明渠有效截面的流体量的数据,目前主要采用流量仪表来测量河流的流量,由于流量具有不稳定性,所以流量的测量值与实际值误差较大;
S1014:流速反映河流单位时间内的位移,渠道和河道里的水流各点的流速不相同,靠近河(渠)底、河边处的流速较小,河中心近水面处的流速最大;
S1015:水位能够反映当前时间段内最直观反映水体水情,水位的观测内容一般包含流势、波浪、情等变化的影响,观测的时间和次数要随一天内水位的变化过程而改变。
3.根据权利要求1所述的结构化数据预处理,其特征在于:
S1021:本发明中对数据进行预处理时,对于缺失值处理的三种方法:直接使用含有缺失值的特征;删除含有缺失值的特征(该方法在包含缺失值的属性含有大量缺失值而仅仅包含极少量有效值时是有效的);缺失值补全;常见的特征选择类型分为三类:过滤式(filter)、包裹式(wrapper)、嵌入式(embedding)。
4.根据权利要求1所述的S103的GBDT模型,其特征在于:
S1031:本发明提出可较好的实现分类和回归任务的GBDT模型对水位进行预测。
GBDT是每一次的训练为了减少上一次的残差,在减少残差的梯度方向训练一个新的模型,最后所有树的累加起来作为最终分类器,能够较好的实现分类和回归任务,且不易出现过拟合现象。GBDT原理:用Gradient Boosting的策略训练出来的Decision Tree模型。模型的结果是一组回归分类树组合(CART Tree Ensemble),可以表示为以下模型:
式(1)中,fk(xi)表示第k棵决策树,表示由n个弱分类器线性相加而成的强分类器。即在上一轮预测值上加入一个新的决策树函数fk(xi)使得与真实值的残差最大程度的减少。
GBDT的目标函数如下:
式(2)中,l是可微的损失函数表示预测值 和真实值yi的差值, 为添加的正则化,Ω表示决策树的复杂度,可以约束决策树的节点数量、树的深度或者叶子节点所对应的分数的L2范数,止模型出现过拟合:
式(3)中为第t次迭代的目标函数,式中C为常数,根据泰勒公式将上式进行展开,以二阶形式作为目标函数近似值,公式如下:
式(4)中, 分别是损失函数对于 的一阶导数和二阶
导数,掉常数项t次迭代的目标函数可以简化为如式(5),本文使用的树的复杂度函数如下:
式(6)中,γ表示叶子节点系数,T为叶子节点数。λ作为L2平方模系数也起到防止过拟合的作用,ω表示叶子权重。将决策树函数f进行重新定义ft(x)=ωq(x),即把树拆分成结构函数q和叶子权重部分ω,其中q将输入映射到叶子的索引,即q:Rd→{1,2,3,L,T},定义每个叶子的样本集合为Ij={i|q(xi)=j},从而对目标函数进行改写:
其中, 使用一元二次方程最小值求解得到最优解 目标函数最优
解L*:
由上可知,当获取决策树的结构函数q,目标函数可根据上式计算获得。最终问题转化为寻找最优树结构q*,使得目标函数有最小值。
5.权利要求1所述的S103的萤火虫算法,其特征在于:
S1032:萤火虫搜索算法是一种基于仿生学提出的启发式搜索算法,萤火虫的亮度与它所在位置上的目标值有关,越亮的萤火虫表示它所在的位置越好,即有较优的目标函数值。
越亮的萤火虫表示它所在的位置越好,即有较优的目标函数值,大部分萤火虫会聚集在多个位置上,即达到极值点,萤火虫的相对荧光亮度:
式(10)中,I0表示最亮萤火虫的亮度,γ表示光吸收系数,rij表示萤火虫i与萤火虫j之间的距离,相互吸引度β:
式(11)中,β0表示最大吸引度,即光源处的吸引度,最优目标迭代:
xi(t+1)=xi(t)+β(xj(t)-xi(t))+α(rand-1/2)   (12)
式(12)中xi与xj表示i与j两个萤火虫的空间位置,α是步长因子,rand为[0,1]上服从均匀分布的随机因子。
萤火虫算法具体实现过程如下:
(1)初始状态设定,设置萤火虫数目n,最大吸引度β0,光强吸收系数γ,步长因子α,最大迭代次数MaxGeneration或者搜索精度ε。
(2)随机初始化萤火虫的位置,计算萤火虫的目标函数值作为各自最大荧光亮度I0。
(3)计算群体中萤火虫的相对亮度I和吸引度β,根据相对亮度决定萤火虫的移动方向。
(4)更新萤火虫的位置,对最佳位置的萤火虫进行随机移动,重新计算萤火虫的亮度(5)更新目标函数最优解和最优解位置,判断最优解是否满足设定条件以及是否达到最大迭代次数,如不满足则转到步骤(3)进行迭代。
(6)输出全局极值点。
6.根据权利要求1所述的改进的萤火虫算法对GBDT模型训练参数进行优化,其特征在于:
S1033:萤火虫算法具有简单易懂,参数少等特点,在解决问题时,无需配置过多参数,易于实现。研究表明,该算法可能比遗传算法、PSO以及其他算法更有效。但萤火虫算法的在局部搜索的发现率低,搜索速度慢且精度低等缺点。本说明通过以下两方面进行改进:
(1)引入惯性权重
在解决问题的过程中,一般期望寻优算法前期表现出良好的全局搜索能,后期具有精细的局部开发能力。萤火虫算法的位置更新具有随机性,为了提高算法的性能,更新权重公式引入惯性权重:
xi(t+1)=ωxi(t)+β(xj(t)-xi(t))+α(rand-1/2)  (13)
ω随着迭代次数t的增大而减小,确保了萤火虫算法具有良好的搜索空间,前期ω的值较大,有利于跳出局部最优解,确保算法的全局搜索能力。后期ω值较小,保证算法局部搜索能力的同时加快了算法后期的搜索能力。
(2)加入混沌变异系统
为改善算法寻优精度差的特点,当多数点处于迭代停止状态,利用混沌系统遍历的特性,跳出局部最优解。是Logistic映射的混沌系统:
Xn+1=uXn(1-Xn)n=0,1,2L  (14)
其中u是控制参量,一般取u=4,系统完全处于混沌状态。赋予任何一个初值X0∈[0,1],Logistic完全处于混沌状态,保证分散的全局性和均匀性。算法不易陷入局部最优,确保算法后期的精准性。

说明书全文

一种基于混沌萤火虫与梯度提升树模型的河流位预测方法

技术领域

[0001] 本发明公开了一种基于混沌萤火虫与梯度提升树模型的河流水位预测方法,涉及信息技术领域和水 文情况预测技术领域。

背景技术

[0002] 70年代初,瑞典水文气象局为了水电厂的洪水预报,开发了水文预报模型,通过输入合理的预报参 数来进行洪水预报,并对预报结果进行校验。近年来,中国在水利信息化方面迅速发展,在水资源分配和 管理中已取得了一些成功的应用,然而中国在水文预报领域起步较晚,对水利大量数据的挖掘程度较低, 从大量的水文数据中发现有价值信息的手段较少。
[0003] 本说明研究意义主要在于如何通过信息技术手段对河流水位进行合理准确的预测。
[0004] 目前在我国水文情况预测技术体系还处于发展阶段,相比发达国家,仍面临着很多亟需解决的问题。 主要存在以下问题:
[0005] 1、在面对大量数据的情况下,如何结合机器学习的方法有效且准确地解决水位预测的实际问题。
[0006] 2、数据分析与预处理:水位预测模型性能的准确性依赖于数据资料的完整性、有效性和及时性。 原始数据资料中难免存在不适合作为模型输入的数据样本,因此对缺失值、异常值的处理十分必要,如何 对不同数据类型的缺失值、异常值进行处理成为难点。
[0007] 3、多维数据下的指标选择:目前公开常用水位监测得到的评估数据指标属性不统一,具有数据指 标多、数据维数高、数据存在非线性和冗余性的特点,因此筛选出重要的特征指标显得尤为重要。
[0008] 4、水位预测模型的建立,通过对前人河流水位预测模型研究成果的借鉴,构建一个适合我国国情 的水位预测模型。
[0009] 本发明旨在对河流水位进行量化分析,以此有效地通过历史数据对未来河流水位进行预测。水位也 是水利部了解水流变化的首要标志,监测水位的动态信息,为水利部门的决策提供重要依据,水位的变 换更是与人们的日常生活和生产建设密切相关。

发明内容

[0010] 本发明针对河流水位变化复杂等特点,提供一种基于数据挖掘、数据分析下的河流水位预测的机器 学习方法。水位的变化是在各种影响因素下综合作用的结果,因此选出的数据包括时间戳、瞬时流量、累 计水量、流速和水位等历史数据,通过选取的结构化数据完成对河流水位的准确预测。
[0011] 为了解决上述技术问题,本发明提供了一种基于混沌萤火虫与梯度提升树模型的河流水位预测方法, 包括步骤:
[0012] S101:为在大量数据中提取有效信息,提出了数据采集的方案。所需数据总共分成五类,时间戳能 够表示一份数据在一个特定时间点已经存在的完整的可验证的,累计水量表示当前时间段内河流流量总 和,瞬时流量表示单位时间内流经封闭管道或明渠有效截面的流体量,流速河流表示单位时间内的位移的 数据,水位表示当前时间段内最直观反映水体的水情。旨从结构化数据中提取信息为河流水位准确预测提 供决策。
[0013] 其中五类数据具体内容如S1011、S1012、S1013、S1014和S1015。时间戳数据能够表示在一个特定 时间点已经存在的完整的可验证的;累计水量数据反映当前时间段内河流水总和;瞬时流量数据反映单位 时间内流经封闭管道或明渠有效截面的流体量,目前主要采用流量仪表来测量河流的流量,由于流量具有 不稳定性,所以流量的测量值与实际值误差较大;流速数据反映河流单位时间内的位移,渠道和河道里的 水流各点的流速不相同,靠近河(渠)底、河边处的流速较小,河中心近水面处的流速最大;水位数据能够 反映当前时间段内最直观反映水体水情,水位的观测内容一般包含流势、波浪、情等变化的影响,观测 的时间和次数要随一天内水位的变化过程而改变。
[0014] S102:采集数据处理,结构化数据中数据预处理包含异常值的剔除、缺失值的处理、数据归一化。
[0015] S103:本发明提出改进后的混沌萤火虫算法(Glowworm Swarm Optimization,GSO)对梯度提升树 模型(Gradient Boosted Decision Tree,GBDT)的训练参数进行优化,并将改进的梯度提升树模型应用于 结构化数据的河流水位预测研究,可较好的实现分类和回归任务。
[0016] S1031:梯度提升决策树:是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累 加起来作为最终分类器,是泛化能(generalization)较强的算法,模型的结果是一组回归分类树组合(CART Tree Ensemble),可以表示为以下模型:
[0017]
[0018] 式(1)中fk(xi)表示第k棵决策树, 表示由n个弱分类器线性相加而成的强分类器。即在上一轮 预测值上加入一个新的决策树函数fk(xi)使得与真实值的残差最大程度的减少。GBDT的目标函数如下:
[0019]
[0020] 式(2)中l是可微的损失函数表示预测值 和真实值yi的差值, 为添加的正则化[9],Ω表 示决策树的复杂度,可以约束决策树的节点数量、树的深度或者叶子节点所对应的分数的L2范数。防止模 型出现过拟合。
[0021]
[0022] 式(3)中为第t次迭代的目标函数,式中C为常数,根据泰勒公式将上式进行展开,以二阶形式作为 目标函数近似值,公式如下:
[0023]
[0024] 式(4)中, 分别是损失函数对于 的一阶导数和二阶导数。去 掉常数项t次迭代的目标函数可以简化为如式(5),本文使用的树的复杂度函数如下:
[0025]
[0026]
[0027] 式(6)中,γ表示叶子节点系数,T为叶子节点数。λ作为L2平方模系数也起到防止过拟合的作用, ω表示叶子权重。将决策树函数f进行重新定义ft(x)=ωq(x)[10],即把树拆分成结构函数q和叶子权 重部分ω,其中q将输入映射到叶子的索引,即q:Rd→{1,2,3,L,T},定义每个叶子的样本集合为 Ij={i|q(xi)=j},使用一元二次方程最小值求解得到最优解目标函数最优解。
[0028]
[0029]
[0030] 由上可知,当获取决策树的结构函数q,目标函数可根据上式计算获得,最终问题转化为寻找最优 树结构q*,使得目标函数有最小值。
[0031] S1032:萤火虫搜索算法是一种基于仿生学提出的启发式搜索算法,萤火虫的亮度与它所在位置上 的目标值有关,越亮的萤火虫表示它所在的位置越好,即有较优的目标函数值。越亮的萤火虫表示它所在 的位置越好,即有较优的目标函数值,大部分萤火虫会聚集在多个位置上,即达到极值点。
[0032] 1.初始状态设定,设置萤火虫数目n,最大吸引度β0,光强吸收系数γ,步长因子α,最大迭代 次数MaxGeneration或者搜索精度ε。
[0033] 2.随机初始化萤火虫的位置,计算萤火虫的目标函数值作为各自最大荧光亮度I0。
[0034] 3.计算群体中萤火虫的相对亮度I和吸引度β,根据相对亮度决定萤火虫的移动方向。
[0035] 4.更新萤火虫的位置,对最佳位置的萤火虫进行随机移动,重新计算萤火虫的亮度。
[0036] 5.更新目标函数最优解和最优解位置,判断最优解是否满足设定条件以及是否达到最大迭代次 数,如不满足则转到步骤(3)进行迭代。
[0037] 6.输出全局极值点。
[0038] S1033:改进的萤火虫算法对GBDT模型训练参数进行优化,通过以下两方面进行改进:
[0039] 1.引入惯性权重:在解决问题的过程中,一般期望寻优算法前期表现出良好的全局搜索能力,后期 具有精细的局部开发能力,萤火虫算法的位置更新具有随机性,为了提高算法的性能,更新权重公式引入 惯性权重:
[0040] xi(t+1)=ωxi(t)+β(xj(t)-xi(t))+α(rand-1/2)    (9)
[0041] 2.加入混沌变异系统:为改善算法寻优精度差的特点,当多数点处于迭代停止状态,利用混沌系 统遍历的特性,使得粒子跳出局部最优解。是Logistic映射的混沌系统:
[0042] Xn+1=uXn(1-Xn) n=0,1,2L    (10)
[0043] 本发明主要利用改进的萤火虫算法对GBDT模型的三个参数步长(learning_rate),决策树最大深度 (max_depth)和最大叶子节点数(max_leaf_nodes)进行参数调优。将训练集与实际值的误差作为适应度 函数f(x),寻找最优参数下的GBDT模型,提高模型的准确率。
附图说明
[0044] 图1是本发明总体流程图
[0045] 图2是GBDT算法示意图;

具体实施方式

[0046] 结合图1,本发明基于混沌萤火虫与梯度提升树模型的进行河流水位预测,包括以下步骤:
[0047] A、数据采集,所需数据总共分成五类,分别包括能够表示一份数据在一个特定时间点已经存在 的完整的可验证的时间戳数据,当前时间段内河流流量总和的累计水量数据,单位时间内流经封闭管道或 明渠有效截面的流体量的瞬时流量数据,河流单位时间内的位移的流速数据,当前时间段内最直观反映水 体水情的水位数据。
[0048] B、用Gradient Boosting的策略训练出来的Decision Tree模型,模型的结果是一组回归分类树组 合(CART Tree Ensemble),可以表示为以下模型:
[0049]
[0050] 式(1)中,fk(xi)表示第k棵决策树, 表示由n个弱分类器线性相加而成的强分类器。即在上一 轮预测值上加入一个新的决策树函数fk(xi)使得与真实值的残差最大程度的减少。GBDT的目标函数如 下:
[0051]
[0052] 式(2)中,l是可微的损失函数表示预测值 和真实值yi的差值, 为添加的正则化,Ω表 示决策树的复杂度,可以约束决策树的节点数量、树的深度或者叶子节点所对应的分数的L2范数。防止模 型出现过拟合。
[0053] 上式为第t次迭代的目标函数,式中C为常数,根据泰勒公式将上式进行展开,以二阶形式作为目 标函数近似值,公式如下:
[0054]
[0055] 使用一元二次方程最小值求解得到最优解 目标函数最优解L*。
[0056]
[0057]
[0058] 当获取决策树的结构函数q,目标函数可根据上式计算获得。最终问题转化为寻找最优树结构q*, 使得目标函数有最小值。
[0059] 改进的萤火虫算法对GBDT模型训练参数进行优化,其特征在于:
[0060] 1、引入惯性权重,在解决问题的过程中,一般期望寻优算法前期表现出良好的全局搜索能力,后 期具有精细的局部开发能力。萤火虫算法的位置更新具有随机性,为了提高算法的性能,更新权重公式引 入惯性权重:
[0061] xi(t+1)=ωxi(t)+β(xj(t)-xi(t))+α(rand-1/2)    (6)
[0062] ω随着迭代次数t的增大而减小,确保了萤火虫算法具有良好的搜索空间,前期ω的值较大,有利 于跳出局部最优解,确保算法的全局搜索能力。后期ω值较小,保证算法局部搜索能力的同时加快了算法 后期的搜索能力。
[0063] 2、加入混沌变异系统,为改善算法寻优精度差的特点,当多数点处于迭代停止状态,利用混沌系 统遍历的特性,使跳出局部最优解。是Logistic映射的混沌系统:
[0064] Xn+1=uXn(1-Xn) n=0,1,2L    (7)
[0065] 其中u是控制参量,一般取u=4,系统完全处于混沌状态。赋予任何一个初值X0∈[0,1],Logistic 完全处于混沌状态,保证分散的全局性和均匀性。当最优解 在h次迭代过程中未变,则触发映射条件, 将位置进行Logistic映射再次散布在空间内进行寻优,使算法不易陷入局部最优,确保算法后期的精准性。
[0066] 本发明主要利用改进的萤火虫算法对GBDT模型的三个参数步长(learning_rate),决策树最大深度 (max_depth)和最大叶子节点数(max_leaf_nodes)进行参数调优。将训练集与实际值的误差作为适应度 函数f(x),寻找最优参数下的GBDT模型,提高模型的准确率。
[0067] C、所述的测试集进行模型检验,随机选取一部分已经处理好的数据作为测试集,其余的作为训 练集,用GSO算法进行寻优,进行参数调优,得到最优参数下的GBDT模型,结合测试集进行模型检验, 将得到的实际值与计算值的误差进行分析对比。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈