论文部分内容阅读
随着大气污染综合治理攻坚行动方案的进行,全国重点区域空气质量不断好转。然而,汾渭平原等地区秋冬季雾霾重污染天气仍时有发生,对人体健康和社会经济造成重大影响。因此,对其雾霾重污染事件进行准确预测具有重要意义。作为雾霾的主要成分,PM2.5的形成过程涉及非常复杂的大气物理化学过程,对该过程进行机理建模和求解难度较大。因此,本文采用基于深度学习的数据驱动模型提取雾霾重污染过程监测数据的时空变化特征,实现对雾霾重污染的准确预警。长短期记忆网络(Long Short-Term Memory,LSTM)能够有效提取PM2.5时间序列的非线性特征,然而传统LSTM难以完全捕捉PM2.5时间序列的复合特征,参数知识难以解释。针对以上问题,本文主要进行了如下研究:(1)为了提高雾霾重污染样本的预测准确率,同时为雾霾重污染过程中雾霾主要影响因素与目标雾霾浓度的关系提供解释,以LSTM为基础融合了具有可解释性的多元线性回归(Multiple Linear Regression,MLR),设计了一种基于深度时间序列特征融合的可解释性神经网络模型(Multiple Linear Regression and Long Short-Term Memory,MLR-LSTM)。该模型利用具有不同超参数的单变量LSTM对当前PM2.5浓度、PM2.5前体物以及气象因子时间序列的深度特征进行提取;采用MLR对单变量LSTM输出的时间序列特征进行融合,最终输出PM2.5浓度预测值。为验证模型有效性,使用汾渭平原2015年1月4日至2020年12月31日的空气质量监测数据以及气象监测数据进行建模,预测了西安市未来3 h、6 h、12 h、24h的PM2.5浓度并对其预测效果进行了评估。实验结果表明,在3-24 h的PM2.5浓度预测中,MLR-LSTM模型对PM2.5重污染样本的预测准确率分别为94.12%、85.29%、77.57%和51.10%,平均绝对误差分别为10.66μg?m-3、21.30μg?m-3、28.05μg?m-3和48.01μg?m-3,显著优于随机森林(Random Forest,RF)、支持向量回归(Support Vector Regression,SVR)、MLR、单变量LSTM(LSTM_PM2.5)、多变量LSTM(M_LSTM)以及RF-LSTM(Random Forest and Long Short-Term Memory)。此外,当预测步长由3 h增至24 h的时候,MLR-LSTM模型的融合层系数显示当前PM2.5浓度对目标PM2.5浓度的影响力由80.89%急剧降至16.34%,前体物浓度的影响力由5.23%上升至29.43%,说明提前采取重污染应急措施对雾霾浓度和污染持续时间消峰降速效果具有显著影响。(2)PM2.5浓度时间序列具有明显的周期性,为进一步探讨模型在雾霾重污染过程中的可解释性,本文构建了耦合周期、趋势的空气重污染演变过程预警模型(Prophet and Long Short-Term Memory,Prophet-LSTM)对汾渭平原的西安市未来6 h、12 h、18 h、24 h的PM2.5浓度进行预测并分析PM2.5浓度在不同时间尺度中的分布变化。该模型利用Prophet对PM2.5时间序列进行分解以获取PM2.5浓度各个时间尺度的变化趋势及周期信息;利用不同超参数的LSTM提取PM2.5时间序列的深度特征以及趋势特征;以线性组合的形式融合Prophet与LSTM输出的各个子序列特征,最终输出PM2.5浓度预测值。实验结果表明PM2.5浓度随时间的变化呈如下变化现象:在年际趋势中,2018以后开始持续下降;在年周期中,最低值在每年的夏季出现,最高值在每年的冬季出现;在周周期中,最低值在一周中的星期五出现;在日周期中,最高值在每天凌晨出现,最低值在下午六点左右出现。在6-24 h的PM2.5浓度预测中,Prophet-LSTM模型对PM2.5重污染样本的预测准确率分别为85.29%、74.45%、64.15%以及53.49%,均方根误差分别为25.98μg?m-3、36.60μg?m-3、46.24μg?m-3以及54.00μg?m-3,均优于Prophet、RF、差分整合移动平均自回归(Autoregressive Integrated Moving Average model,ARIMA)、SVR、LR以及LSTM模型,能够实现对西安市雾霾重污染过程的准确预警。(3)PM2.5重污染样本在总体数据中只占据7.83%,数据分布极不平衡,对模型训练造成了影响。为进一步对PM2.5重污染样本进行研究以提高重污染样本的预测精度,本文提出了一种基于重加权的重污染预测模型(Piecewise LOSS Function and Long Short-Term Memory Model,PLF-LSTM)对汾渭平原的西安市未来6 h、12h、18 h、24 h的PM2.5重污染样本进行预测。使用重加权方式对损失函数进行分段处理,给予小样本数据集(重污染数据)与大样本数据集(非重污染数据)不同的权值,降低数据分布不均衡对模型训练的影响。同时,通过采用供暖季阶段的PM2.5浓度数据进行研究以增加小样本数据集比例。实验结果表明,在6-24 h的PM2.5浓度预测中,引入分段LOSS函数的PLF-LSTM模型对PM2.5重污染样本的预警准确率分别为86.21%、74.59%、67.88%、59.35%,均高于未引入分段LOSS函数的LSTM模型,并且没有增加PM2.5浓度的误报率,甚至可以同时降低误报率,说明单独对小样本数据集分配权值有利于提高模型对PM2.5重污染样本预测准确率,同时降低误报率。综上所述,MLR-LSTM提高了模型预测性能的同时使得该模型参数具备可解释性,在一定程度上量化了雾霾污染过程中的主要影响因素对目标PM2.5浓度的影响;Prophet-LSTM针对PM2.5时间序列的周期性进行了分析,显示了在不同时间尺度中PM2.5浓度的分布情况,同时提高了模型对PM2.5浓度的预测性能;PLF-LSTM降低了偏正态分布数据对模型训练的影响,提高了PM2.5重污染样本预警准确率的同时降低了PM2.5重污染样本的误报率。由于过程相似性,上述方法也具备预测传统化工过程物质浓度的潜质。