一种低成本PM2.5监测节点的校准方法

申请号 CN201610997001.7 申请日 2016-11-11 公开(公告)号 CN106777864A 公开(公告)日 2017-05-31
申请人 浙江大学; 发明人 董玮; 高艺; 陈远; 卜佳俊; 陈纯;
摘要 低成本PM2.5监测 节点 的校准方法,步骤为:在空气 质量 检测站附近部署节点,得到在时间和空间上一致的训练样本;建立模型表示节点读数和PM2.5真实值之间的关系; 训练数据 预处理:部分特征标准化,留出法确定训练样本集和测试样本集;对于线性不变模型,在训练样本集上采用三层反向传播神经网络训练多元线性回归模型,在测试样本集上完成对模型准确性的验证;对于线性可变模型,时间区间内训练样本通过最小二乘法简单拟合得到线性参数,将不同时间段内的线性参数、节点读数平均值、敏感性特征数据平均值作为新的训练样本,在新的训练样本上采用基于后 剪枝 策略的CART回归树训练,在测试样本上完成模型可靠性的验证;将验证准确的离线模型写入节点程序。
权利要求

1.一种低成本PM2.5监测节点的校准方法,其特征在于以下步骤:
步骤1,获取时间上和空间上一致的训练样本,包括:
(1.1)集成节点,敏感性特征传感器和无线传输模
(1.2)在节点设置程序,数据定时传输回本地。
(1.3)部署节点在空气质量监测站附近。
(1.4)在本地设置程序,定时获取空气质量监测站数据。
步骤2,对于室内环境和室外环境选取不同校准模型,包括:
(2.1)选择实验环境,室内环境和室外环境,在不同环境下分别采集一定量的数据样本。
(2.2)对室内和室外环境的数据样本采用线性拟合,分析拟合值和真实值的偏差。
(2.3)对于室内环境,线性拟合偏差小,认为线性参数恒定,结合敏感性特征,采用多元线性回归模型。
(2.4)对于室外环境,线性拟合偏差大,认为线性参数是敏感变化的,结合敏感特征,采用线性参数学习模型。
步骤3,数据预处理,模型训练和测试,包括:
(3.1)对数据样本进行清洗,去掉异常的数据
(3.2)按照室内环境和室外环境,将数据样本分为两组。
(3.3)对每组数据样本,按时间排序,选取前一半作为训练样本,后一半作为测试样本。
(3.4)对每组数据样本中的敏感性特征进行标准化处理。
(3.5)对每组训练样本,分别用上面两个模型进行训练。
(3.6)对训练好的模型用对应的测试样本进行测试。
步骤4,将验证过的神经网络和回归树离线模型分别写入室内节点和室外节点的校准程序。
2.根据权利要求1所述的一种低成本PM2.5节点的校准方法,其特征在于在所述步骤(1.2)所述的定时,是权衡时间粒度和能耗的数据传输周期。
3.根据权利要求1所述的一种低成本PM2.5节点的校准方法,其特征在于在所述步骤(3.1)所述的清洗,是根据去噪和异常检测的方法对数据进行过滤。

说明书全文

一种低成本PM2.5监测节点的校准方法

技术领域

[0001] 本发明涉及一种低成本PM2.5监测节点的校准方法,特别是获取可靠的时空一致性数据样本、对于室内环境和室外环境的数据样本分别选用合适的机器学习模型。

背景技术

[0002] 空气质量指数(AQI)主要成分包括,细颗粒物(PM2.5)、可吸入颗粒物(PM10)、二化硫(SO2)、二氧化氮(NO2)、臭氧(O3)、一氧化(CO)等各项污染物的实测浓度值。其中细颗粒物(PM2.5),是指直径小于等于2.5微米的颗粒物。细颗粒物面积大,活性强,易附带有毒、有害物质,且在大气中的停留时间长、输送距离远,因为直径越小,进入呼吸道的部分越深。2微米以下的可深入到细支气管和泡,细颗粒物进入人体到肺泡后,直接影响肺的通气功能,使机体容易处于缺氧状态。在中国,PM2.5是空气污染物的主要来源,因此PM2.5监测是关系的全国人民健康的重要因素。
[0003] 现有的PM2.5监测检测节点主要包括下面二类:1)PM2.5监测站,监测站采用脱称重的方式,得到最精确的PM2.5浓度。然而,由于监测站的部署成本和维护成本较高,在一个城市监测站的数量是有限的,因此难以的得到覆盖城市范围内细粒度的PM2.5浓度。2)PM2.5监测节点,主要是一些基于光散射原理廉价的传感器精度低于监测站的PM2.5浓度,由于成本较低PM2.5监测节点可以在城市范围大量部署,从而得到细粒度的PM2.5浓度。
[0004] 针对1)中的缺陷,U-Air提出利用城市大数据训练区间估计模型,对无监测站的区间内的PM2.5浓度进行预测。然而,这种基于历史数据估计的方法,存在一个重要的缺陷:无法对区间内PM2.5浓度的变化做出及时的相应。通过大量部署2)中的PM2.5监测节点可以解决1)中的缺陷,然而节点读数的精度较低成为一个不容忽视的问题。

发明内容

[0005] 本文要克服现有技术的上述缺点,提供了一种低成本PM2.5监测节点的校准方法。
[0006] 为实现以上目的,本发明所采取的技术方案是:一种低成本PM2.5监测节点的校准方法,包括以下步骤:
[0007] 步骤1,获取时间和空间上一致的数据样本,包括:
[0008] (1.1)节点硬件集成,主要集成PM2.5监测节点,敏感性特征传感器,无线传输模和供电模块。
[0009] (1.2)节点软件功能设计,主要剖分为定时采集,数据校准,定时传输,低能耗等功能。
[0010] (1.3)节点部署,在空气检测站附近的室内环境和室外环境分别部署节点。
[0011] (1.4)在本地搭建数据库,设置程序:定时接受节点传输的数据和定时获取空气质量监测站数据,并存入数据库。
[0012] 步骤2,对于室内环境和室外环境选取不同校准模型,包括:
[0013] (2.1)将数据样本按照室内环境节点和室外环境节点分为两组,并进行数据清洗。
[0014] (2.2)用最小二乘法对两组样本分别拟合,分别计算校准过的PM2.5节点数据和真实值之间的偏差。
[0015] (2.3)对于室内的数据样本,线性拟合后的偏差较小,结合敏感性特征,采用不变线性参数假设,建立多元线性参数回归模型。
[0016] (2.4)对于室外的数据样本,线性拟合后的偏差较大,结合敏感性特征,采用可变线性参数假设,建立线性参数学习模型。
[0017] 步骤3,数据预处理,模型训练和测试,包括:
[0018] (3.1)数据预处理,对两组数据样本进行清洗,主要包括异常数据去除,数据缺失值补充。
[0019] (3.2)对于每组数据样本,按时间进行排序,选取前一半数据样本作为训练样本,选取后一半数据作为测试样本。
[0020] (3.3)对于室内环境的训练样本,采用多元线性回归模型进行训练,将训练好的模型用测试样本进行验证。
[0021] (3.4)对于室外环境的训练样本,采用线性参数学习模型进行训练,将训练好的模型用测试样本进行验证。
[0022] (3.5)对于室内环境的节点将验证过的离线模型参数写入校准程序。
[0023] (3.6)对于室外环境的节点将验证过的离线模型写入校准程序。
[0024] 步骤4,将验证过的神经网络和回归树离线模型分别写入室内节点和室外节点的校准程序。
[0025] 本发明的有益效果是:本方法针对室内环境和室外环境,分别建立合适的校准模型。校准模型是经离线训练的再写入节点程序的,无需对之后节点程序进行任何的变动。校准过的数据能得到较大的精度提升。附图说明
[0026] 图1是本发明方法的工作流程图

具体实施方式

[0027] 下面结合附图对本发明作进一步描述。本发明的具体实施方式如下:
[0028] 步骤1,获取时间和空间上一致的数据样本,包括:
[0029] (1.1)集成节点,敏感性特征传感器和无线传输模块。敏感性特征为湿度,温度,气压强度。
[0030] (1.2)在节点设置程序,数据定时传输回本地。节点数据采样周期和传输周期为30分钟。节点传输数据的方式是基于GPRS的HTTP-POST协议。
[0031] (1.3)部署节点在空气质量监测站附近。
[0032] (1.4)在本地设置程序,定时获取空气质量监测站数据。本地通过爬虫程序从官网上获取官方PM2.5数据,周期为30分钟。数据样本收集时间长达一年。
[0033] 步骤2,对于室内环境和室外环境选取不同校准模型,包括:
[0034] (2.1)选择实验环境,室内环境和室外环境,在不同环境下分别采集一定量的数据样本。
[0035] (2.2)对室内和室外环境的数据样本采用线性拟合,分析拟合值和真实值的偏差。采用二次均方差法和皮尔森系数。
[0036] (2.3)对于室内环境,线性拟合偏差小,认为线性参数恒定,结合敏感性特征,采用多元线性回归模型。
[0037] (2.4)对于室外环境,线性拟合偏差大,认为线性参数是敏感变化的,结合敏感特征,采用线性参数学习模型。
[0038] (2.5)室内环境校准模型假设:
[0039] y=w*x+b+ep+eu  公式(1)
[0040] 其中X是未校准过的PM2.5浓度和敏感性特征,y是校准过的PM2.5浓度,w和b是校准线性参数,ep是未加入敏感性特征所带来的误差,eu是系统噪声所带来的误差。随着新的敏感特征数量的增加,ep会不断减小。对w,b采取基于人工神经网络的多元线性回归模型进行拟合。
[0041] (2.6)室外环境校准假设:
[0042] y=w(f)*x+b(f)+eu 公式(2)
[0043] 不同于上面的假设,认为校准线性参数是对特征敏感的,x是未校准的pm2.5的浓度值,f是敏感性特征,y是校准过的PM2.5的值。W,b是特征敏感的线性参数,eu是系统噪声带来的误差。采用基于CART回归树模型学习w和b。
[0044] 步骤3,数据预处理,模型训练和测试,包括:
[0045] (3.1)数据预处理,湿度,温度,气压强度需经过正太标准化,异常数据检测采用基于距离的方法,异常数据和缺失数据用均值补充。
[0046] (3.2)人工神经网络模型,层数为三层:输入层隐藏层输出层。输入特征为未校准的PM2.5浓度,温度,湿度,气压强度。输出为校准过的PM2.5浓度。层与层之间的传递函数采取简单的线性函数:
[0047] f(x)=wx+b 公式(3)
[0048] (3.3)CART回归树模型,输入特征为未校准过的PM2.5浓度,温度,湿度,气压强度,和时间。输出为w和b的值。树的剪枝采取后剪枝策略。
[0049] (3.4)对于未校准过的PM2.5浓度添加其二次项的值作为新的特征。
[0050] 步骤4,将验证过的神经网络和回归树离线模型分别写入室内节点和室外节点的校准程序。
QQ群二维码
意见反馈