首页 / 专利库 / 激光与光电 / 光电子器件 / 光探测器 / 光电二极管 / PIN光电二极管 / 本征区 / 基于序回归学习的数值模式订正的方法

基于序回归学习的数值模式订正的方法

阅读:490发布:2020-05-08

专利汇可以提供基于序回归学习的数值模式订正的方法专利检索,专利查询,专利分析的服务。并且本 发明 属于 机器学习 与气象预测技术领域,具体为一种基于序回归学习的数值模式降 水 订正方法。本发明包括:针对数值模式的气象特征进行特征选择,利用气象特征和地面观测降水值之间的相关性选取有效特征;根据地面观测站的经纬度将全球数据进行区域切分,产生多个更小的空间范围,然后将该空间范围内的特征进行正则化处理;将正则化后的特征放入自 编码器 中训练,得到去除噪声的混合特征;最后,通过降水概率预测网络和序回归分布预测网络得到降水 置信度 和序回归分布,将两者融合生成最后订正后的降水值。本发明可以很好地提取降水值这种有序的离散连续值的特征,使得模型能好的学习到数值模式中降水预测的误差,从而达到更好的订正效果。,下面是基于序回归学习的数值模式订正的方法专利的具体信息内容。

1.一种基于序回归学习的数值模式订正方法,其特征在于,具体步骤为:
(1)首先,针对数值模式的气象特征进行特征选择,即利用气象特征和地面观测降值之间的相关性,选取相关性系数高于阈值的特征,作为有效特征;
(2)其次,根据地面观测站的经纬度将全球数据进行区域切分,产生多个更小的空间范围即特征区域;将该空间范围内的特征进行正则化处理;
(3)然后,针对数据特点,去除噪声:将正则化后的特征放入一个有随机噪声扰动的自编码器中训练,得到去除噪声的混合特征;
(4)利用降噪特征,预测序回归分布:搭建多个子网络,每个子网络利用降噪后的特征作为输入,各个子网络是完全相同的网络结构,但是彼此之间参数不共享,每个子网络的输出为一个标量,最终组成序回归分布;
(5)预测降水概率,融合序回归分布;利用原始特征直接通过降水预测网络去预测样本的降水置信度;序回归分布以0.5为阈值进行统计,获得最终的降水估计值;最后将降水置信度和降水预测值相结合,得到最终的降水预测值。
2.根据权利要求1所述数值模式订正方法,其特征在于,步骤(1)中所述选取有效特征的流程为:步骤(1)中所述选取有效特征的流程为:将原始的数值模式数据中不同类型不同高度的气象特征,利用皮尔斯相关性系数来计算气象特征与地面观测站的降水观测值之间的相关性,然后设定阈值,将所有相关性系数大于阈值的特征手动选择出来作为原始特征,皮尔森相关性系数的计算方法为:
我们采用的数值模式数据为欧洲中心数值模式数据,欧洲中心数值模式数据是目前我国进行降水预测所用到的数值模式数据,在这种数值模式数据中,共有627种不同类型不同高度的气象特征,我们利用皮尔斯相关性系数来计算气象特征与地面观测站的降水观测值之间的相关性,然后设定相关性绝对值大于阈值的特征手动选择出来作为原始特征(例如设定绝对值阈值为0.2时,将有37个特征被选中组成最后的原始数据),皮尔森相关性系数的计算方法为:
其中,符号cov(X,Y)表示两个特征X,Y之间的协方差,符号σX表示特征X的方差。
3.根据权利要求2所述的基于序回归学习的数值模式订正方法,其特征在于,步骤(2)中所述的特征区域划分和特征正则化的步骤为:
(a)根据每个地面观测站的经纬度坐标(lati,loni),首先将其对齐到网格数据上,对齐方式为找到最邻近的左上网格坐标 然后对齐到的网格坐标作为特征区域的中心点,设定范围区域为中心点的±1°,将此区域作为特征区域;
(b)根据每个地面观测站坐标,获得多个特征区域作为训练样本,采用归一化方式消除特征尺度差异,让特征尺度归一,特征归一化的计算方式为:
其中, 为第j个样本第i个未归一化的原始特征,ui是第i个特征的均值,σi是第i个特征的标准差。
4.根据权利要求3所述的基于序回归学习的数值模式订正方法,其特征在于,步骤(3)中所消除述数据噪声的步骤为:
(a)利用一个降噪自编码机作为一个骨干网络来提取更加鲁棒的特征,降噪自编码器由一个编码器和一个解码器组成;在训练阶段,首先在归一化的特征输入到编码器前添加一个服从均值为0、方差为0.001的高斯噪声在特征上;此外,在特征经过编码器中间层后又添加一个均值为0、方差为0.0001的高斯噪声在提取的特征上;
(b)使用均值平方损失来训练整个增强的降噪自编码器,训练损失函数为:
其中,N表示图片数量,F(xi;θ)表示解码器的输出,xi表示第i个原始不加噪声的特征,θ表示网络模型的参数;
(c)在测试阶段,直接利用归一化特征作为输入,并且去掉输入编码器前和编码器中间层的噪声扰动,然后将编码器的输出作为降噪特征,供后续模使用。
5.根据权利要求4所述的基于序回归学习的数值模式订正方法,其特征在于,步骤(4)中所述预测序回归分布的步骤为:
(a)序回归分布,首先将预测值域为[ymin,ymax]回归标签转化成K-1个序集合,集合表示为:
R={R1,R2,......,Rk-1}
其中,R表示整个序回归分布,Ri是序分布中第i个值,若Ri为1,表示该样本的标签值大于等于第i个序阈值;
(b)依靠K-1个独立的子网络分别去预测Ri的值,整个子网络是由卷积层、池化层和跳连接构成,在最后的输出后通过一个Sigmoid函数让预测值映射到[0,1]之间,表示Ri取值为1的概率;
(c)整个模型的训练依靠改进的交叉熵损失,名为FocalLoss来独立的训练各个子网络,Focal Loss的表达式为:
其中,K-1表示序分布的规模,γ用于调节不同难度的样本对整体损失函数的贡献,α用于平衡不同类别之间的不均衡问题。
6.根据权利要求5所述的基于序回归学习的数值模式订正方法,其特征在于,步骤(5)中所述降水概率预测和融合序分布的步骤为:
(a)利用归一化的特征通过一个深度网络去直接预测样本的是否降水的置信度;将序回归分布转化为降水估计值,转化的公式如下所示:
其中,η对值域分割的间隔大小;
(b)根据预测的降水置信度设定阈值,小于阈值的样本降水即为0,大于阈值的样本就认为降水估计值极为最后的降水预测值。

说明书全文

基于序回归学习的数值模式订正的方法

技术领域

[0001] 本发明属于机器学习与气象预测技术领域,具体涉及基于序回归学习的数值模式订正的方法。

背景技术

[0002] 数值模式预报与订正是天气预报中主流的方法之一。利用大气动学和气象学的知识来生成对天气指标的预测,然后根据预测结果依靠专家经验来手动生成本地的预测订正结果作为最后的天气预报结果。目前该领域的大部分方法主要依靠预报员的主观经验。
[0003] 最早的数值天气预报(NWP)可以追溯到1950年的Charney等人的工作[1],该工作基于大气动力学去生成气温和降的预测。[2][3]是典型的两个单模型方法,它们利用后处理的方法去处理数值天气预报模型中的参数,以统计和观测的方法来处理数值模型的输出。在这类方法中,模型输出统计方法(Model Output Statistics,MOS)[4]最常被使用的方法之一,它利用多个线性回归模型来作为预测器去预测多个气象指标。[5][6]均是基于MOS的方法开发了特定算法来分别预测澳大利亚和西班牙两个国家的降水和降雨量的概率。
[0004] 然而,MOS的预测值主要依靠由数值模式模型、地面观测模型和气候学模型三者共同作用,并且往往会有数据的缺失,因此MOS有很强的区域限制性,同一模型不容易推广到其他地区。因此为了解决这类单模型方法带来的限制,如今多模型方法被广泛地应用于数值模式订正任务中。
[0005] [7]首先利用集成的方法来进行数值模式的订正,验证了多模型方法的可行性。[8][9]利用贝叶斯平均模型来预测暴雨的概率,贝叶斯平均模型源于贝叶斯概率决策论,也同样是集成的方法来订正数值模型的结果。但是多模型方法往往需要大量的数据,并且生产的结果精度有限,无法产生更精细的预测结果。此外,上述方法都依靠预报员的主观认识、大量的手工特征和线性模型来订正误差。
[0006] 本发明提出了一种基于序回归学习的数值模式订正的方法,利用深度学习的方法来更精准地订正数值模式的气象预测结果。本发明主要有两个创新点,一个创新点是利用序回归理论去订正降水值,另一个创新点是利用增强的噪声扰动的自编码器来提取更鲁棒的降噪特征。本发明可以使用任意地区的数据进行训练后再去做订正,生成更精准地降水订正结果。
[0007] 参考文献:
[0008] [1]Charney,J.G., R.,Neumann,J.v.:Numericalintegrationofthebarotro picvorticity equation.Tellus 2(4),237–254(1950)
[0009] [2]Hacker,J.P.,Rife,D.L.:Apracticalapproachtosequentialestimationofsystem aticerror on near-surface mesoscale grids.Weather and Forecasting 22(6),1257–1273(2007)
[0010] [3]Berner,J.,Fossell,K.,Ha,S.Y.,Hacker,J.,Snyder,C.:Increasingtheskillofp roba-bilistic forecasts:Understanding performance improvements from model-error rep-resentations.Monthly Weather Review 143(4),
1295–1320(2015)
[0011] [4]Glahn,H.R.,Lowry,D.A.:The use of model output statistics(MOS)in objective weather forecasting.Journal of Applied Meteorology 11(8),1203–1211(1972)
[0012] [5]Tapp,R.,Woodcock,F.,Mills,G.:The application of model output statisticsto precipitation prediction in Australia.Monthly Weather Review 114(1),50–61(1986)
[0013] [6]Turco,M.,Quintana- P.,Llasat,M.,Herrera,S., J.M.:Testing MOS precipitation downscaling for ENSEMBLES regional climate models over spain.Journal of Geophysical Research:Atmospheres 116(D18)(2011)[0014] [7]Du,J.,Berner,J.,Buizza,R.,Charron,M.,Houtekamer,P.,Hou,D.,Jankov,I.,Mu,M.,Wang,X.,Wei,M.,et al.:Ensemble Methods for Meteorological Predic-tions.Springer(2019)
[0015] [8]Raftery,A.E.,Gneiting,T.,Balabdaoui,F.,Polakowski,M.:Using Bayesian modelaveraging to calibrate forecast ensembles.Monthly Weather Review 133(5),1155–1174(2005)
[0016] [9]Yang,C.,Yan,Z.,Shao,Y.:Probabilistic precipitation forecasting based on en-semble output using generalized additive models and Bayesian model averaging.Acta Meteorologica Sinica 26(1),1–12(2012)。

发明内容

[0017] 本发明的目的在于提出一种用于不限区域和特征场景下,计算精度高的数值模式订正方法。
[0018] 本发明提出的数值模式订正方法,是基于序回归深度学习的方法,具体步骤为:
[0019] (1)针对数值模式的气象特征进行特征选择,即利用气象特征和地面观测降水值之间的相关性,选取相关性系数高于阈值的特征,作为有效特征;
[0020] (2)根据地面观测站的经纬度将全球数据进行区域切分,产生多个更小的空间范围即特征区域(例如为17×17个数据网格组成的一个子区域);将该空间范围内的特征进行正则化处理;
[0021] (3)针对数据特点,去除噪声:将正则化后的特征放入一个有随机噪声扰动的自编码器中训练,得到去除噪声的混合特征;
[0022] (4)利用降噪特征,预测序回归分布:搭建多个子网络,每个子网络利用降噪后的特征作为输入,各个子网络是完全相同的网络结构,但是彼此之间参数不共享,每个子网络的输出为一个标量,最终组成序回归分布;
[0023] (5)预测降水概率,融合序回归分布;利用原始特征直接通过降水预测网络去预测样本的降水置信度;序回归分布以0.5为阈值进行统计,获得最终的降水估计值;最后将降水置信度和降水预测值相结合,得到最终的降水预测值。
[0024] 本发明步骤(1)中,所述选取有效特征的流程为:步骤(1)中所述选取有效特征的流程为:将原始的数值模式数据中不同类型不同高度的气象特征,利用皮尔斯相关性系数来计算气象特征与地面观测站的降水观测值之间的相关性,然后设定阈值,将所有相关性系数大于阈值的特征手动选择出来作为原始特征,皮尔森相关性系数的计算方法为:
[0025]
[0026] 其中,符号cov(X,Y)表示两个特征X,Y之间的协方差,符号σX表示特征X的方差。
[0027] 在实验例中,所述的数值模式数据本发明采用欧洲中心数值模式数据,欧洲中心数值模式数据是目前我国进行降水预测所用到的数值模式数据,在这种数值模式数据中,共有627种不同类型不同高度的气象特征,我们利用皮尔斯相关性系数来计算气象特征与地面观测站的降水观测值之间的相关性,然后设定相关性绝对值大于阈值的特征手动选择出来作为原始特征(例如设定绝对值阈值为0.2时,将有37个特征被选中组成最后的原始数据)。
[0028] 本发明步骤(2)中,所述的特征区域划分和特征正则化的步骤为:
[0029] (a)根据每个地面观测站的经纬度坐标(lati,loni),首先将其对齐到网格数据上,对齐方式为找到最邻近的左上网格坐标 然后对齐到的网格坐标作为特征区域的中心点,设定范围区域为中心点的±1°,将此区域作为特征区域;
[0030] (b)根据每个地面观测站坐标,可以获得多个特征区域作为训练样本,然而气象特征之间的尺度不同导致模型更难训练,因此我们采用归一化的方式去消除特征尺度差异,让特征尺度归一,特征归一化的计算方式为:
[0031]
[0032] 其中, 为第j个样本第i个未归一化的原始特征,ui是第i个特征的均值,σi是第i个特征的标准差。
[0033] 本发明步骤(3)中,所述数据噪声消除的步骤为:
[0034] (a)利用一个降噪自编码机作为一个骨干网络来提取更加鲁棒的特征,降噪自编码器由一个编码器和一个解码器组成;在训练阶段,首先在归一化的特征输入到编码器前添加了一个服从均值为0,方差为0.001的高斯噪声在特征上;此外,在特征经过编码器中间层后又添加一个均值为0,方差为0.0001的高斯噪声在提取的特征上;
[0035] (b)使用均值平方损失来训练整个增强的降噪自编码器,训练损失函数为:
[0036]
[0037] 其中,N表示图片数量,F(xi;θ)表示解码器的输出,xi表示第i个原始不加噪声的特征,θ表示网络模型的参数;
[0038] (c)在测试阶段,直接利用归一化特征作为输入,并且去掉输入编码器前和编码器中间层的噪声扰动,然后将编码器的输出作为降噪特征,供后续模使用。
[0039] 本发明步骤(4)中,所述预测序回归分布的步骤为:
[0040] (a)序回归分布,首先将预测值域为[ymin,ymax]回归标签转化成K-1个序集合,集合表示为:
[0041] R={R1,R2,......,Rk-1}
[0042] 其中,R表示整个序回归分布,Ri是序分布中第i个值,若Ri为1,表示该样本的标签值大于等于第i个序阈值;
[0043] (b)整个序分布的预测依靠K-1个独立的子网络分别去预测Ri的值,整个子网络是由卷积层、池化层和跳连接构成,在最后的输出后通过一个Sigmoid函数让预测值映射到[0,1]之间,表示Ri取值为1的概率;
[0044] (c)整个模型的训练依靠改进的交叉熵损失,名为Focal Loss来独立的训练各个子网络,Focal Loss的表达式为:
[0045]
[0046] 其中,K-1表示序分布的规模,γ用于调节不同难度的样本对整体损失函数的贡献,α用于平衡不同类别之间的不均衡问题。
[0047] 本发明步骤(5)中,所述降水概率预测和融合序分布的步骤为:
[0048] (a)利用归一化的特征通过一个深度网络去直接预测样本的是否降水的置信度;将序回归分布转化为降水估计值,转化的公式如下所示:
[0049]
[0050] 其中,η对值域分割的间隔大小;
[0051] (b)根据预测的降水置信度设定阈值,小于阈值的样本降水即为0,大于阈值的样本就认为降水估计值极为最后的降水预测值。通常阈值设定为0.5。
[0052] 本发明可以很好地提取降水值这种有序的离散连续值的特征,使得模型能好的学习到数值模式中降水预测的误差,从而达到更好的订正效果。附图说明
[0053] 图1为本发明模型结构。
[0054] 图2为欧洲中心数值模式数据样例展示。
[0055] 图3为数据集分布直方图展示。
[0056] 图4为本发明预测结果可视化样例展示。

具体实施方式

[0057] 介绍了本发明的算法原理和具体步骤之后,下面展示该发明在数值模式数据上进行六小时累计降水值订正的测试效果。
[0058] 实验所用的数据集是来源于欧洲中距离天气预报中心提供的6小时综合预报系统提供的数值模式数据,地面观测站数据来源于中国气象局的地面观测站。欧洲中心的数值模式数据中原始包含670个气象特征,其中所有特征都是数值模式的预测结果,包括气温、压强、速、湿度和待订正的降水量等特征。所有的特征都分布在将全球经纬度以0.125°划分的网格上,每个网格交点为一个数据点,图2展示了欧洲中心数值模式数据样例。
[0059] 根据上文中提到的特征区域划分方法,我们利用2016-2017年每年的6月、7月和8月的三个月的地面观测数据进行划分,划分后共计能够得到25万个样本,我们按照4:1的比例随机的划分训练集和测试集,然后利用五折交叉验证来验证我们方法最终的结果。
[0060] 划分得到的样本标签有明显的长尾分布特点,即大量的样本是无降水或者微量降水的情况情况,少量的样本是中强降雨的水平,图3展示了我们区域样本数量的分布情况。
[0061] 试验中,采用平均绝对误差(MAE)、平均绝对降水误差(MPAE)和威胁评分(Ts)三个指标来度量实验效果,MAE的定义方式为:
[0062]
[0063] MPAE的定义方式为:
[0064]
[0065] Ts的定义方式为:
[0066]
[0067] MAE代表了算法在整体的订正准确性,MPAE代表了算法在降水情况下的订正准确性,Ts表代表了算法在晴雨预报的准确率。
[0068] 实验例1:算法在欧洲中心数值模式数据上的性能
[0069] 表1:算法在欧洲中心数值模式数据上与别的方法性能比较
[0070] 方法名 MAE MPAE Ts0.1 Ts1 Ts10双线性差值 1.31±0.08 4.52±0.32 0.44±0.03 0.43±0.03 0.24±0.02
线性回归 1.60±0.05 4.43±0.21 0.32±0.02 0.35±0.04 0.20±0.02
支持向量机 1.34±0.05 4.96±0.24 0.23±0.01 0.35±0.03 0.00±0.00
多层感知机 1.25±0.04 4.25±0.15 0.40±0.03 0.45±0.02 0.29±0.02
全卷积网络 1.25±0.11 4.36±0.28 0.39±0.04 0.45±0.05 0.29±0.03
单回归自编码器 1.20±0.10 4.30±0.12 0.58±0.03 0.47±0.02 0.29±0.01序回归自编码器 1.02±0.03 4.23±0.14 0.60±0.03 0.52±0.01 0.30±0.01。
[0071] 实验例2:预测结果可视化效果比较
[0072] 图4展示了生成的降水预测图的效果对比。图4第一行是大范围降水的情况,第二行是小范围降水的情况;第一列是未订正的数值模式降水预测值组成的预测图,第二列是单回归自编码器的降水预测图,第三列是本发明降水预测图结果,第四列地面观测结果组成的降水图。从图4可以看出,本发明不论是在大范围降水和小范围降水的情况下,比起未订正的数值模式有更精准的预测,并且和其他方法比起来效果准确度更高。
[0073] 从上面实验和可视化结果可以看出,本发明提出的框架序回归分布的数值模式订正方法在所有数据上取得了最好的性能。其他比较的算法都是机器学习领域和气象订正领域非常常见的算法。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈