论文部分内容阅读
水体富营养化与藻类水华是全球性的水环境恶化问题,给自然生态和人类生产生活都带来极大危害。因此,有必要结合水质监测技术建立预警预报体系。藻类水华暴发的前提是藻类种群浓度剧增,所以实现水华预警预报的关键在于预测藻类种群浓度的变化。然而,一直以来,藻类生长及其动态积聚过程的复杂性是藻类浓度预测问题中的研究难点。 本文针对现有预测方法难以同时兼顾藻类本身生长机理和生长环境中不确定性因素的不足,以蓝藻水华频发的太湖梅梁湾作为研究区域,提出了基于时序随机森林的藻类浓度预测方法,实现了对太湖梅梁湾藻类浓度的逐月预测。本文主要研究内容和创新点如下: (1)基于太湖流域现有的水质监测技术条件,根据由梅梁湾历年观测数据分析所得的藻类生长特性,确定了以叶绿素a(chlorophyll-a,Chla)浓度表征藻类浓度、以可获得的水质参数和部分参数的比值表征环境因素的基本研究方法;对典型生长机理模型进行了验证,表明了机理驱动模型在中长期月度预测方面的局限性,同时考虑到现有水质自动监测技术的可行性,明确了采用数据驱动建模的技术路线。 (2)针对藻类生长机理复杂、受各环境因素协同影响较大、不满足确定性模型假设条件的特点,提出了基于随机森林(Random Forest,RF)的藻类生长关键因素分析方法。首先,利用随机森林中的变量重要性测度方法,从可能影响藻类生长的各环境因素中筛选出了5个关键环境因素,分别是“高锰酸盐指数”、“总氮:总磷”、“总磷”、“溶解氧”和“水温”;其次,对藻类浓度与筛选出的5个关键环境因素,建立了RF回归模型;同时,将基于随机森林的关键环境因素提取方法和定量关系分析方法,与线性分析方法作对比。模型验证结果表明,RF回归模型的预测误差远低于偏最小二乘(Partial Least Squares,PLS)回归模型的预测误差,说明了随机森林方法在相关因素提取方面的优势,验证了RF回归模型对藻类生长与环境因素之间复杂非线性关系的准确解释能力。 (3)针对藻类生长呈现明显年度季节性规律的特点,结合藻类生长与环境因素关系研究的结论,以及时序分析基本理论,提出了基于RF多元非线性时序分析的藻类浓度预测方法;用太湖梅梁湾1999年~2004年的实际观测数据构建了RF多元非线性时序预测模型,对2005年至2006年期间的藻类浓度实现了逐月预测,预测值与实测值的拟合优度R2为0.87;对比经典的差分自回归移动平均(Autoregressive Integrated Moving Average Model,ARIMA)模型的预测效果,预测精度有所提升,但在藻类浓度峰值预测方面表现仍欠佳。 (4)为了进一步提高预测精度,针对藻类生长在呈现年度季节性规律的同时具有随机波动混沌特性的时序特征,基于MA时序分析思想,结合经典ARIMA时序分析和RF多元非线性时序预测方法的优势,提出了基于ARIMA-RF融合时序分析的藻类浓度预测方法;用太湖梅梁湾1999年~2004年的实际观测数据构建了ARIMA-RF融合时序预测模型,对2005年至2006年期间的藻类浓度实现了逐月预测,预测值与实测值的拟合优度R2达0.93,预测精度显著高于传统ARIMA模型和RF多元非线性时序预测模型;该预测结果可以为太湖梅梁湾藻类浓度预警预报提供参考依据,而该方法也为藻类浓度预测方法研究开拓了新思路。