论文部分内容阅读
近年来,中国的空气污染问题非常严重,特别是在京津冀地区,经常出现长期、持续的雾霾天气。PM2.5作为加重雾霾的主要因素之一,不仅影响人们的日常生活,而且对人们的健康构成严重威胁。因此,掌握PM2.5浓度的变化规律和影响因素,探索有效的PM2.5浓度预测模型,具有十分重要的科学意义。本文首先研究了PM2.5浓度的变化规律和相关影响因素,然后分别根据不同的样本集建立了两种不同的预测模型,对PM2.5浓度进行了小时预测。本文的主要研究内容如下:1、通过整理北京市城六区12个监测站点2013年12月2018年11月的PM2.5浓度数据,研究了近5年北京市城区PM2.5浓度的年际变化规律。结果表明,近5年北京市城六区的PM2.5浓度变化规律相似,有明显的季节变化特性,在整体上呈现出逐年降低的趋势。同时,选取其中城六区2014年12月2015年11月的PM2.5浓度数据,对其季节性变化和日变化特性进行了研究。结果表明,PM2.5在秋冬季节的污染更为严重;同时在春夏季节,白天的污染程度高于夜间;在秋季一天内的不同时刻污染水平相近;在冬季,PM2.5在夜间的污染水平高于白天。2、选取北京市朝阳农展馆监测站点2014年12月2015年11月的其它污染物浓度数据(PM10、SO2、NO2、CO和O3浓度)以及气象数据(温度、气压、相对湿度和风速),研究了PM2.5浓度与它们之间的相关性。研究结果表明,PM2.5浓度与PM10、SO2、NO2、CO浓度在四个季节均呈现了较明显的正相关性,与O3浓度在夏季呈现了不明显的正相关性,而在另外三个季节呈现了负相关性。同时,PM2.5浓度与相对湿度呈现明显的正相关性,与温度、气压和风速的相关性不显著。3、以最小二乘支持向量机(Least Square Support Vector Machine,LSSVM)为基础模型,本文通过改进的萤火虫算法(New Dynamic Firefly Algorithm,NDFA)对其超参数进行寻优,建立了NDFA-LSSVM预测模型。选取北京市朝阳农展馆2014年12月和2015年3月的监测数据为研究对象,实现了对未来2小时的PM2.5浓度预测。同时,将NDFA-LSSVM模型的预测结果和网格搜索(Grid Search,GS)-LSSVM模型、遗传算法(Genetic Algorithm,GA)-LSSVM模型、萤火虫算法(Firefly Algorithm,FA)-LSSVM的预测结果进行了对比,对比结果表明,NDFA-LSSVM模型的预测精度优于其它几种模型。鉴于PM2.5浓度时间序列存在的非线性和非平稳性,本文引入了互补集合经验模态分解(Complementary Ensemble Empirical Mode Decomposition,CEEMD)法对原始的PM2.5浓度时间序列进行分解,进而建立了CEEMD-NDFA-LSSVM预测模型,将其预测结果和NDFA-LSSVM模型的预测结果进行对比,对比结果表明,CEEMD-NDFA-LSSVM模型的预测效果更好。4、考虑到最小二乘支持向量机在处理大数据样本集时的局限性,本文根据北京市朝阳农展馆监测站点2014年4月3日0点2018年11月30日23点的数据建立了CEEMD-长短时记忆网络(Long Short-Term Memory,LSTM)模型,同时将CEEMD-LSTM模型的预测结果和LSTM、经验模态分解(Empirical Mode Decomposition,EMD)-LSTM模型、集合经验模态分解(Ensemble Empirical Mode Decomposition,EEMD)-LSTM模型的预测结果进行对比,对比结果表明,对PM2.5浓度的时间序列进行分解,能够有效地提高LSTM模型对PM2.5浓度预测的效果,同时三种分解方法中,CEEMD方法对PM2.5浓度时间序列的分解效果更好。最后将CEEMD-LSTM模型和CEEMD-NDFA-LSSVM模型在三个样本集上进行对比实验,实验结果表明,CEEMD-LSTM在大数据样本集上取得了相对较好的预测效果,而CEEMD-NDFA-LSSVM模型在小数据样本集上的预测效果更好一些。