一种两阶段分解集成的水文序列预测方法专利检索-序列表说明书国际申请第I章专利合作条约专利权专利检索查询-专利查询网

一种两阶段分解集成的水文序列预测方法

阅读：625发布：2023-02-12

专利汇可以提供一种两阶段分解集成的水文序列预测方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种两阶段分解集成的水文序列预测方法，涉及水文预测技术领域。本发明引入信号处理技术和机器学习技术，对原始水文序列进行多尺度特征表达和学习，通过分解阶段避免使用验证集信息，预测阶段集合各分解特征的预测因子作为机器学习模型的预测因子，原始水文序列作为预测目标，构建一个满足实践应用要求的水文序列预测模型，从而提高水文序列预测精度，降低建模计算成本和时间成本。，下面是一种两阶段分解集成的水文序列预测方法专利的具体信息内容。

权利要求

1.一种两阶段分解集成的水文序列预测方法，其特征在于，包括以下步骤：
数据拆分：按照一定的比例将原始水文序列拆分为训练集和验证集；
训练集分解：采用变分模态分解法对训练集进行分解，得到对应的子序列；
验证集循环分解：将验证集中的第一条样本移动至训练集的末尾形成附加集，然后采用变分模态分解法对附加集进行循环分解，直到所有的验证集样本被逐条附加至训练集尾部并完成分解，得到对应的子序列；
学习样本生成：计算训练集分解得到的子序列的偏自相关系数，选择子序列中偏自相关系数大于0.5的滞后时段作为预测因子，将原始水文序列作为预测目标，预测因子和预测目标组成训练样本；对于附加集分解得到的子序列，选择与训练集相应子序列相同的滞后时段作为预测因子，将原始水文序列作为预测目标，预测因子和预测目标组成附加样本，取附加样本中最后一条样本作为验证样本，再将验证样本拆分为开发样本和测试样本；
训练长短期记忆神经网络：将训练样本和开发样本输入到长短期记忆神经网络中，采用随机搜索对长短期记忆神经网络中的超参数进行调优，确定最优模型超参数，采用最优模型超参数的模型即为最优长短期神经记忆网络模型；
水文序列预测：将当前实测值附加至历史数据集，替换数据拆分步骤中的原始水文序列，并依次进行数据拆分、验证集循环分解、附加样本生成和拆分，得到对应的测试样本，将测试样本的预测因子输入最优长短期神经记忆网络模型，得到下一时段的水文序列预测值。
2.如权利要求1所述的一种两阶段分解集成的水文序列预测方法，其特征在于，在训练长短期记忆神经网络之前，还对生成的训练样本、开发样本和测试样本进行归一化处理。
3.如权利要求2所述的一种两阶段分解集成的水文序列预测方法，其特征在于，按照下式对训练样本、开发样本和测试样本进行归一化处理：
式(1)中x′和x分别表示归一化的数据和原始数据，xmax和xmin分别表示训练样本中的最大值和最小值。
4.如权利要求1所述的一种两阶段分解集成的水文序列预测方法，其特征在于，完成训练长短期记忆神经网络后，还对最优长短期记忆神经网络模型进行验证，验证时将测试样本中的预测因子输入最优长短期记忆神经网络模型中，对原始水文序列进行预测，并采用均方根误差RMSE、决定系数R2、平均绝对误差MAE、平均绝对百分比误差MAPE、峰值阈值百分比统计这五个指标进行评价：
式(2)-式(6)中N是水文序列的长度，x(t)是原始水文序列，是原始水文序列的平均值，是水文序列预测结果，在计算公式(6)之前，首先将原始水文序列按照降序排列，相应的预测值按照与之对应的索引排列，阈值γ表示从该降序序列中选择前γ％的最大水文要素，G表示所选水文要素的个数。
5.如权利要求1所述的一种两阶段分解集成的水文序列预测方法，其特征在于，采用随机搜索对长短期记忆神经网络中的超参数进行调优时，涉及的超参数包括学习率、隐含层层数、隐含层神经元数和随机失活率。
6.如权利要求1所述的一种两阶段分解集成的水文序列预测方法，其特征在于，训练集分解步骤中，通过观察分解得到的序列中最后一个分量的中心频率是否混叠，来确定该模型的分解水平。

说明书全文

一种两阶段分解集成的水文序列预测方法

技术领域

[0001] 本发明涉及水文预测技术领域，特别是涉及一种两阶段分解集成的水文序列预测方法。

背景技术

[0002] 采用信号处理技术将具有高度不规则性、复杂非线性和多尺度变异性特征的水文序列进行分解，用不同尺度的子序列进行表达，能够挖掘隐含于水文序列中的信息。以这些特征为样本基础，建立基于机器学习算法的水文序列预测模型，能够提高水文序列的预测精度，相较于物理预报模型，更易于实现。

[0003] 目前对水文序列的处理方法通常是先分解，然后将分解数据划分为训练集和验证集，构建机器学习模型。由于先进行数据分解，后进行数据划分，会导致模型在训练阶段使用验证集的信息，这样会使模型的预测精度高于不使用验证集信息的模型，然而在实践中，验证集信息属于未来信息，无法提前获得。此外，传统的做法是针对每个分解特征构建模型进行预测，然后将所有特征的预测结果求和，获取原始水文序列的预测值，这个过程中建模需要的计算量较大，建模时间也较长，并且各个分解序列的预测误差累积，导致模型预测精度低。

发明内容

[0004] 本发明实施例提供了一种两阶段分解集成的水文序列预测方法，可以解决现有技术中存在的问题。

[0005] 本发明提供了一种两阶段分解集成的水文序列预测方法，包括以下步骤：

[0006] 数据拆分：按照一定的比例将原始水文序列拆分为训练集和验证集；

[0007] 训练集分解：采用变分模态分解法对训练集进行分解，得到对应的子序列；

[0008] 验证集循环分解：将验证集中的第一条样本移动至训练集的末尾形成附加集，然后采用变分模态分解法对附加集进行循环分解，直到所有的验证集样本被逐条附加至训练集尾部并完成分解，得到对应的子序列；

[0009] 学习样本生成：计算训练集分解得到的子序列的偏自相关系数，选择子序列中偏自相关系数大于0.5的滞后时段作为预测因子，将原始水文序列作为预测目标，预测因子和预测目标组成训练样本；对于附加集分解得到的子序列，选择与训练集相应子序列相同的滞后时段作为预测因子，将原始水文序列作为预测目标，预测因子和预测目标组成附加样本，取附加样本中最后一条样本作为验证样本，再将验证样本拆分为开发样本和测试样本；

[0010] 训练长短期记忆神经网络：将训练样本和开发样本输入到长短期记忆神经网络中，采用随机搜索对长短期记忆神经网络中的超参数进行调优，确定最优模型超参数，采用最优模型超参数的模型即为最优长短期神经记忆网络模型；

[0011] 水文序列预测：将当前实测值附加至历史数据集，替换数据拆分步骤中的原始水文序列，并依次进行数据拆分、验证集循环分解、附加样本生成和拆分，得到对应的测试样本，将测试样本的预测因子输入最优长短期神经记忆网络模型，得到下一时段的水文序列预测值。

[0012] 本发明中的一种两阶段分解集成的水文序列预测方法，引入信号处理技术和机器学习技术，对原始水文序列进行多尺度特征表达和学习，通过分解阶段避免使用验证集信息，预测阶段集合各分解特征的预测因子作为机器学习模型的预测因子，构建一个水文序列预测模型，从而提高水文序列预测精度，降低建模计算成本和时间成本。附图说明

[0013] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0014] 图1为本发明中方法的流程示意图。

具体实施方式

[0015] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0016] 参照图1，本发明提供了一种两阶段分解集成的水文序列预测方法，该方法主要包括两个阶段：分解阶段和预测阶段，下面结合本发明的方法详细介绍这两个阶段。

[0017] 步骤1，数据拆分。按照一定的比例将原始水文序列拆分为训练集和验证集。拆分比例可以根据水文序列的长度确定，一般训练集的比例为80％，验证集的比例为20％，序列长度较长时(如大于10000)可以增加训练集的比例减少测试集的比例，当序列长度较小时(如小于2000)则可以减少训练集的比例，增加验证的比例，以便模型取得更好的泛化性能。

[0018] 步骤2，训练集分解。采用变分模态分解法(VMD)对训练集进行分解，分解过程中模型参数带宽限制为2000，通过观察分解得到的序列中最后一个分量的中心频率是否混叠，来确定该模型的分解水平，例如分解水平从2逐级向上测试，当测试分解的分量个数为9时，发现第9个分量的中心频率第一次出现混叠，则选择分解水平为8。这样可以有效的避免冗余分量的产生。

[0019] 步骤3，验证集循环分解。将验证集中的第一条样本移动至训练集的末尾形成附加集，然后采用与训练集相同的参数设置对该附加集进行分解，如此循环往复，直到所有的验证集样本被逐条附加至训练集尾部，并在每一次附加之后进行分解。该分解过程符合现实中水文要素逐时段观测的习惯。

[0020] 例如，如果训练集有40条样本，验证集有10条样本，逐条附加就是把验证集中第一条拿出来，放到验证集40条样本后面，这样就有41条样本的附加样本，对这41条样本分解，下一次再拿过来一条验证集样本，放到41条样本的后面，形成42条样本的附加集，分解，一直重复这个步骤，直到全部10条验证集样本被移动到训练集尾部，每次移动都要分解。

[0021] 步骤4，学习样本生成。计算训练集分解得到的每个子序列的偏自相关系数(PACF)，选择偏自相关系数大于0.5的滞后时段作为预测因子，选择原始水文序列作为预测目标，预测因子和预测目标组成样本。对于验证集分解得到的子序列，选择与训练集相应子序列相同的滞后时段作为预测因子，原始水文序列作为预测目标。根据以上样本生成规则，采用训练集的分解结果生成训练样本，采用附加集的分解结果生成附加样本，取出附加样本中的最后一条样本作为验证样本，将验证样本进一步划分为开发样本和测试样本，其中开发样本用来从众多模型中选择最优模型，测试样本用来测试最优模型。

[0022] 例如将训练集分解为3个子序列，计算这些子序列的偏自相关系数，找出每个子序列中偏自相关系数大于0.5的滞后时段作为预测因子，假设子序列1滞后3个时段的偏自相关系数大于0.5，那么就将这3个滞后时段选为预测因子；子序列2和子序列3分别滞后2个时段和4个时段满足要求(前述系数大于0.5)，同样也选为预测因子，这样3个子序列，一共3+2+4＝9个滞后时段作为预测因子。原始未经过分解的水文序列的当前时段作为预测目标，样本包含预测因子和预测目标，预测因子有很多个，预测目标一般就一个。

[0023] 滞后时段是针对自回归来说的，比如用历史月径流预测未来一个月径流就是自回归，滞后的意思就是：针对子序列1，用第5个月径流之前3个月径流，预测第5个月径流；子序列2，是用第5个月径流之前2个月径流，预测第5个月径流；子序列3，是用第5个月径流之前4个月径流，预测第5个月径流。

[0024] 步骤5，序列归一化。由于机器学习样本的预测因子和预测目标的尺度差异较大，直接将原始的机器学习样本用于建模，会造成模型优化算法的收敛速度慢，模型预测精度差等问题，归一化能够促使优化算法更快的收敛，并且能获得更高的预测精度。采用公式(1)将步骤4得到的训练样本、开发样本和测试样本归一化至[-1,1]。式(1)中x′和x分别表示归一化的数据和原始数据，xmax和xmin分别表示原始数据中的最大值和最小值。本发明采用训练样本的最大值和最小值，对开发样本和测试样本进行归一化，以便整个序列服从同一分布。

[0025]

[0026] 步骤6，训练长短期记忆神经网络LSTM。将训练样本和开发样本输入到长短期记忆神经网络中，采用随机搜索对长短期记忆神经网络中的学习率、隐含层层数、隐含层神经元数、随机失活率等超参数进行调优，确定最优模型超参数，采用最优模型超参数的模型即为最优长短期神经记忆网络模型。

[0027] 步骤7，最优模型验证。将测试样本中的预测因子输入最优长短期记忆神经网络模型中，对原始水文序列进行预测，并采用均方根误差(RMSE)、决定系数(R2)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)、峰值阈值百分比统计这五个指标进行评价。RMSE衡量模型对较大的水文要素的预测性能，MAE和MAPE衡量模型对所有要素值的平均预测性能，R2衡量预测值对实测值的重现能力，PPTS衡量模型对一定百分比以上的极值的预测性能。2
RMSE、MAE、MAPE和PPTS的值越小，R的值越高，表明模型的预测性能越高。下面对这五个指标计算进行解释：

[0028]

[0029]

[0030]

[0031]

[0032]

[0033] 式(2)-式(6)中N是水文序列的长度，x(t)是原始水文序列，是原始水文序列的平均值，是两阶段分解集成模型的预测结果。在计算公式(6)之前，首先将原始水文序列按照降序排列，相应的预测值按照与之对应的索引排列，阈值γ表示从该降序序列中选择前γ％的最大水文要素，G表示所选水文要素的个数。

[0034] 步骤8，当两阶段分解集成的预报模型构建完成后，需要对下一个时段的水文序列进行预测时，将当前实测值附加至历史数据集，替换步骤1中的原始水文序列，并重复进行步骤1、3、4、5和7中的部分内容，即对附加后形成的数据集进行数据拆分、验证集循环分解、附加样本生成和拆分、测试样本输入预测这几个步骤，即可得到下一时段的水文序列，由于上述步骤中已经利用训练集建立了最优长短期记忆神经网络模型，因此在后续的预测过程中只进行附加集分解，不再进行训练集分解。

[0035] 上述步骤1-3属于分解阶段，步骤4-7属于预测阶段。

[0036] 尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

[0037] 显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

标题	发布/更新时间	阅读量
序列特异性检测和表型确定	2020-05-12	506
用于提高表达的细菌前导序列	2020-05-13	773
一种抑制caspase-3基因表达的siRNA序列	2020-05-13	298
一种抑制bak基因表达的siRNA序列	2020-05-13	52
人类肝脏中表达的表达序列标签I组	2020-05-11	225
人类肝脏中表达的表达序列标签E组	2020-05-11	628
表位序列	2020-05-11	100
表达序列	2020-05-11	388
增强表达的内含子序列	2020-05-11	103
时间序列数据的多表示存储	2020-05-12	327

一种两阶段分解集成的水文序列预测方法

一种两阶段分解集成的水文序列预测方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：