1.1 研究背景及意义
1.1.1 研究背景
许多亚洲城市,尤其是中国和印度的部分城市,正在经历快速的工业化、城市化和全球化,高能耗和快速的人口增长导致了严重的颗粒物(PM)污染。PM2.5污染是众多颗粒物污染中最明显的,因为它对能见度有显着影响,但其对健康、道路安全、建筑、经济、自然和气候的无形或间接影响可能会更加严重和复杂。根据世界卫生组织(WHO)的数据,每年约有700万人死于空气污染,空气污染会缩短平均预期寿命。PM2.5是指空气中非常细小的颗粒物。它们不会被鼻腔和喉咙堵塞,因此可以直接进入整个血液系统,对人体非常有害。此外,PM2.5也会对能见度产生严重影响,影响人们的出行安全。

(a)实时空气质量指数地图
2006年,世界卫生组织(WHO)发布了《空气质量准则》,重新定义了PM2.5的标准值和三个过渡期的目标值[10]。PM2.5浓度标准的年平均值和日平均值分别为10μg/m3和25μg/m3,是PM2.5暴露的最低安全水平。3个过渡期PM2.5年均浓度分别为35 μg/m3、25 μg/m3和15 μg/m3,日均浓度分别为75 μg/m3、50 μg/m3和37.5 μg/m3。国际PM2.5分类标准及相关危害下表所示。
表1-1国际PM2.5分类标准
| PM2.5(ug/
) | 级别 | 等级 | 对健康的影响 |
| 0-35 | 1 | 优 | 健康 |
| 35-75 | 2 | 良 | 温和 |
| 75-115 | 3 | 轻度污染 | 对敏感人群不健康 |
| 115-150 | 4 | 中度污染 | 不健康 |
| 150-250 | 5 | 重度污染 | 危险 |
| >250 | 6 | 严重污染 | 严重危险 |
1.1.2 研究意义
PM2.5可视化以及预测模型是通过对大气污染物的监测和分析,预测未来PM2.5浓度的模型。它有助于我们深入理解空气污染的形成和扩散机制,进一步揭示环境污染与气候变化之间的复杂关系。通过建模分析,可以更好地了解大气污染物源与露点、温度、风向、风速、每小时累计降雪量和累计小时降水量等之间的关系。这为科学研究和政策制定提供了重要的理论支撑。此外,预测PM2.5浓度还可以帮助我们更好地了解PM2.5对人类健康和生态系统的影响。国家研究表明,PM2.5浓度的变化与呼吸系统和心血管疾病的发病率密切相关。预测PM2.5浓度可以帮助我们及时预警,提前采取措施减少健康危害。
通过对PM2.5来源的分析,可以帮助城市规划者合理布局城市功能区,减少工业和交通排放对居民生活的影响。同时,能源结构调整和交通管控等措施也可以减少PM2.5的排放量,从而改善空气质量。此外,PM2.5预测还可以帮助公众更好地了解空气质量情况,提前做好防护措施。对于患有呼吸系统和心血管系统疾病的人群来说,PM2.5浓度的预警可以提醒他们注意减少户外活动、佩戴口罩等措施,以减少空气污染对健康的影响。
本文利用多变量方法和时间序列的知识,确定了影响PM2.5浓度变化的影响因素,研究了影响空气质量的指标之间的相关性,并预测了上海空气质量以PM2.5浓度含量为主要指标的状况。它不仅有助于我们深入理解空气污染的形成和扩散机制,还可以为政府和环保部门提供决策依据。
PM2.5浓度水平是评判大气质量的一个重要标准,近些年来,随着人们对环境状况的关注,世界各国对PM2.5进行了很多的研究,提出了多种分析和预测PM2.5浓度的方法。
对于这一问题,许多国外研究人员提出了其他预测 PM2.5 浓度的模型,比如,Patricio[5]等学者(2000)通过对市中心的一个固定点测量PM2.5浓度, 使用多层神经网络和线性回归模型对 PM2.5 浓度进行了预测,结果表明,通过拟合前一天测得的 24 小时平均浓度的函数,可以预测一天中任何时间的浓度。Perez[9]等学者(2008)通过测量智利圣地亚哥八年间PM2.5的数据,使用线性回归,神经网络以及聚类算法三种回归模型,从而实现提前一天预测PM2.5的能力。Oprea[12]等学者(2016)通过对人工神经网络(ANN)和自适应神经模糊推理系统(ANFIS)这两种智能技术的比较研究,对空军基地每小时 PM2.5 数据集的 PM2.5 浓度进行预测。Biancofiore[16]等学者(2017)通过采用更复杂的递归神经网络(Elman),非递归神经网络模型和多元线性回归模型实现提前1-3天对PM2.5浓度的预测能力。Alqaness[17](2023)学者使用98个月的空气质量指数数据集来训练和测试模型,评估结果表明,该模型的stack的性能优于原始模型,并产生更好的预测结果,这种研究方法很容易适应快速计算建模的类似工作。
与其他国家相比,我国对 PM2.5 浓度的检测起步较晚,但近年来越来越多的研究人员开始关注 PM2.5 浓度的研究。。如刘杰[11]等学者(2015)为了得出拟合效果最佳的模型,分别建立了多元回归和机器学习预测模型分别对PM2.5浓度进行预测。结果表明,BP神经网络和支持向量机这两种预测模型能较好地捕捉PM2.5质量浓度与预测输入数据之间的非线性影响规律,预测精度相对较高。杨云等学者[13](2015)提出了一种基于T-S模糊神经网络的预测方法来预测空气中PM2.5的浓度。将T-S模糊神经网络的预测结果与 BP 神经网络的预测结果进行了比较和分析,结果表明 T-S模糊神经网络的预测结果具有更高的准确度和精确度。邹艳云[14]学者(2019)针对提升PM2.5浓度预测精度的问题,建立基于LSTM神经网络的PM2.5浓度预测模型,提出了一种基于自组织训练算法的LSTM预测模型,解决了个隐藏层神经元个数难以确定的难题。文烨[15]学者(2024)使用ConvGRU模型预测了珠海市PM2.5小时浓度,结果表明:ConvGRU模型预测PM2.5浓度与实际PM2.5浓度之间的相关系数高达0.83。
以上为通过回归分析和时间序列分析方法对PM2.5预测的国内外研究现状,本章将利用时间序列LSTM模型的优点,对PM2.5进行进一步研究。
1.3 论文结构
论文第一章主要介绍研究pm2.5的研究意义和背景及其国内外研究现状,以及本实验所用虚拟环境的Kears框架和Sklearnex加速补丁的介绍;第二章主要介绍模型构建前的相关工作,如数据预处理、模型介绍;第三章主要搭建神经网络模型及其参数调优;第四章对实验结果进行可视化与分析;第五章介绍本模型优点与缺点。
2.1Keras框架
2.1.1 Keras简介
Kears作为Python的开源机器学习库,其基于matplotlib、Numpy和Scipy等强大的开源库,Kears支持分类、回归、聚类和降维等各种机器学习模型。在使用数据前,可以使用Kears库具备的数据预处理和分析方法,以及最后对模型进行评估等工具,其不仅能具有强大的机器学习功能还能使初学者尽快入门。
数据处理方面: Kears不仅具有数据预处理、数据清洗以及编码与数据标准化的方法,在特征选择和提取方面也有独特的处理方式。
模型训练方面:Kears具有各种常用的机器学习算法,包括回归、分类、聚类、降维等。且能够使用GridSearchCV工具用在参数网格中选择最优参数。
模型评估方面:使用Kears自带的模型评估工具;其中包括网格搜索、交叉验证等多种评估指标。
模型可视化方面:Kears可以所用库中learning_curve方法绘制模型学习曲线,此外,Sklearn可与其他Python开源绘图库适配。例如本实验所用matplotlib库。
2.1.2 引用核心函数
以下为模型搭建所用核心函数:
| model = Sequential()#建立时序模型 model.add()#添加层 model.compile()#配置训练方法 model.fit()#模型拟合 |
第一步使用Sequential方法创建实例,利用add方法添加LSTM神经网络模型,初步搭建长短期记忆模型,再利用compile函数为模型配置训练优化器,最后使用对模型进行拟合。后续将为具体参数选择进行实验。
2.2 Sklearnex加速补丁介绍
scikit-learn 作为经典的机器学习框架,其运算速度一直广受诟病。Sklearn 库中自带joblib 库的加速效果比较有限,无法完全发挥计算机硬件潜力。sklearnex 这个加速补丁,就可以帮助我们在拥有 Intel 处理器的设备上,获得大幅度的运算效率提升。
#导入加速补丁#
from sklearnex import unpatch_sklearn,patch_sklearn
2.3 多变量时序建模
2.3.1 时间序列介绍
时间序列表示基于时间顺序的一系列数据。它可以是秒、分钟、小时、天、周、月、年。未来的数据将取决于它以前的值。
在多元时间序列数据的情况下,将有不同类型的特征值并且目标数据将依赖于这些特征。
正如表2-2中所示,在多元变量中将有多个列来对目标值PM2.5进行预测。在上面的数据中,PM2.5不仅取决于它以前的值,还取决于其他特征。因此,要预测即将到来的PM2.5数值,我们必须考虑包括目标列在内的所有列来对目标值进行预测。
在执行多元时间序列分析时需要使用多个特征预测当前的目标,如果我们使用 5 列 [pm2.5,dewp,temp,press,cbwd,lws] 特征值来训练模型,则需要为即将到来的预测日提供 4 列 [dewp,temp.press,cbwd,lws]特征值。
2.3.2 LSTM模型介绍
长短期记忆(LSTM)是基于RNN神经网络模型的一种衍生,其特点为相比普通的神经网络模型能够在更久远的数据训练中有更好的表现。LSTM旨在解决一般递归神经网络中常见的长期依赖性问题,使用LSTM可以有效地以长期序列传输和表达信息,而不会长时间忘记有用的信息。该模型也有一种类似门机制来应付梯度消失的问题,因为具有记忆单元的特点使其能够对很久远的数据也能够使用,因此也称之为长短型记忆模型,在模型训练中,通过不断更新LSTM模型的参数来提高模型性能。

(a)LSTM内部结构:

为当前状态下数据的输入,

表示接收到的上一个节点的输入。

为当前节点状态下的输出,而

为传递到下一个节点的输出。LSTM内部主要有三个阶段:
- 忘记阶段。这个阶段主要是对上一个时刻传进来的输入进行选择性忽略。总的来说就是 “忽略不重要的,留下有意义的”。
具体来说是通过计算得到的

(f表示遗忘)来作为遗忘门控,来控制上一个时刻的

哪些可以留下哪些可以忽略。
- 选择记忆阶段。这个阶段将输入有选择性的进行“记忆”。主要是对输入
进行选择性保留。将重要的保留下来,不重要的进行忽略。当前时刻的输入由之前时刻的计算得到的
表示。而选择的门控信号则是由
(i代表信号)来进行控制。
将上面两个阶段得到的结果相加,即为到传输给next时刻的

。也就是上图中的第一个公式。
- 输出阶段。这个阶段将决定哪些将会被作为当前时刻的输出。主要是通过
来进行控制的。并且还对上一阶段得到的
进行了放缩。
输出

最终也是经过

变化得到的。
以上阶段可用公式表示为:

2.4 模型评估方法介绍
2.4.1 RMSE均方根误差
均方根误差是从真实值的预测值与观测值数 n 之比的偏差的平方根。即:

因为使用RMSE 测量的预测值与实际值之间的差异将对数据中的异常值更为敏感。
2.4.2 决定系数 R2(R-Square)
公式中分子部分表示真实值和预测值的平方差之和,类似于均方根差 (MSE),分母部分表示真实值和均值的平方差之和,类似于方差 Var。因此模型的值范围为 [0,1]:

结果接近于0时说明模型下性能很差;若结果接近1则表示模型性能很好。故训练出的模型其值越接近1越说明模型越好。
2.5 总体实验流程图

(b)总体实验流程图
本次实验首先将原始数据进行预处理后,通过对数据集进行划分,分别用于训练和测试模型;利用参数调优方法对寻找最优参数使模型性能最佳,并绘制学习曲线得到训练集与测试集的随迭代次数大小的损失情况。最后得出结论。

759

被折叠的 条评论
为什么被折叠?



