论文部分内容阅读
摘 要:全球变暖是目前全球气温变化的主要特征,分析影响全球气温的众多因素,本文将选取CO2浓度、地球净辐射、海洋温度作为影响全球气温的影响因素研究。对全球气温的准确预测,将在农业生产分配、自然灾害防治等方面有重要作用。若对全球气温进行较为精确的预测,可使用机器学习模型实现。主流的机器学习模型有随机森林、支持向量机、神经网络、Adaboost、Xgboost等。这些模型在问题维度较低、空间复杂度不太高的情况下,均可达到95%以上的准确率。本文将采用随机森林模型作为核心算法,完成对全球气温的预测。同时采用滑动平均、指数平滑、非线性规划等方法,完成对三种影响因素的时间序列预测,以及预测结果的优化。
关键词:气温变化;随机森林;预测
模型建立
近十多年来,全球气温仍呈现出上升趋势,同时世界各地的极端气候、自然灾害也愈加频发[1],对人们的日常生产以及自然环境造成严重影响。本文通过对已有数据进行分析,利用设计气温变化的预测模型实现对未来全球气温的预测估计。
1.随机森林模型的建立
随机森林模型为集成算法[2]的一种,其分类器单元为决策树。原始数据共四维,分别为CO2浓度、地球净辐射、海洋温度、全球气温。将CO2浓度、地球净辐射、海洋温度作为模型训练的特征输入,对全球气温进行预测。原数据共130条,覆盖年份1880-2009年,分别取原数据前50年、80年、105年以及全部用作随机森林模型训练,其余年份数据用作模型预测。在本文解决的问题中,需实现对未来30年内全球气温的预测。观察原始数据可知其均存在上升的趋势,预测数据势必会超出训练集的数据范围,仅通过重新选取训练数据集的方式在此问题中无法发挥作用。因此,本文将选取一阶差分的方法对原始数据退势,图1为原始数据退势后序列。
退势后的序列变得平稳且存在一定的周期性,能够用作模型的预测。将CO2浓度退势序列、地球净辐射退势序列、海洋温度退势序列作为新模型的特征输入,全球气温退势序列作为新模型的预测值。本文选取70%数据用于模型训练。由于退势后序列全部为差分量,模型的评估需选用原始数据,在差分量还原的过程中需要求和操作,因此必须将全部预测数据用作模型评估。模型评估函数选用平均绝对百分比误差(Mean Absolute Percentage Error)。
式中为样本数量,为原始数据标签值,为模型预测值。
通过随机搜索(Random Searching)、网格搜索(Grid Searching)方法找到模型的最优参数[4],分类器数量(n_estimators)为700,最大深度(max_depth)为8,内部节点再划分所需最小样本数(min_samples_split)为12,叶子节点最少样本数(min_samples_leaf)为1,最终将预测结果求和,完成模型评估。至此,完成模型的构建。
模型可以反应各特征的重要性占比,通过模型可知,特征重要性占比为:CO2浓度退势序列6.5%、地球净辐射退势序列3.4%、海洋温度退势序列90.1%。海洋温度退势序列重要性的占比最大,与本文开始的观测猜想一致。
2.滑动平均法对CO2浓度的预测
CO2浓度数据具备一定指数特性,可通过对数函数将其转化为直线进行预测。但模型的输入为CO2浓度退势序列,对数操作将对退势序列造成不小影响,影响最终预测结果。本文采用滑动平均法,完成对CO2浓度的预测。
窗口大小为5,初始化窗口权重为,增长因子,惩罚系数,其中窗口权重需满足以下约束条件:
设预测值为,的计算公式如下:
结合实际参数应逐渐减小,参数应逐渐增大,通过非线性规划算法求解到一组合适的窗口权重参数,完成对CO2浓度以及CO2浓度退势序列的预测。
3.指数平滑法对地球净辐射、海洋温度的预测
地球净辐射序列与海洋温度退势序列均表现出周期性,可采用小波分析、指数平滑等方法实现预测。本文采用三次指数平滑方法(Holt-Winter)预测。选取合适的周期参数,并采用非线性规划算法优化预测结果。
4.预测结果的优化
将预测结果重新整合,使用训练好的随机森林模型完成对未来30年的全球气温预测。预测结果与目标函数在1880、1920、1930、1965等特殊时间点重合,整体趋势同原始全球气温序列。对模型预测结果做出修正,本文采用线性回归修正模型预测结果。修正公式如下:
式中为待修正预测值,为拟合直线预测值,为全球气温原始数据,为全球气温原始数据长度,为待求解的参数。通过非线性规划算法,得到一组合适参数,完成对模型预测结果的修正,修正结果如图2所示。
结论
本文通过随机森林模型,结合滑动平均、指数平滑法完成对未来30年全球气温的预测,使用非線性规划法修正预测结果。找到可能影响全球变暖的主要因素,包括海洋温度、CO2浓度等。其中影响全球气温最直接的因素为海洋温度,但海洋温度的升高只是结果,其可能与不同年代的火山活动、太阳黑子活动有关,是需要科研人员考察的另一方向;次要因素为CO2浓度的增大。通过预测结果可以看出,全球气温在近一段时间内仍存在上升趋势。
参考文献
[1] 王澄海,李健,许晓光.中国近50年气温变化准3年周期的普遍性及气温未来的可能变化趋势[J].高原气象,2012,31(01):126-136.
[2] 吴兴惠,周玉萍,邢海花.集成学习之随机森林分类算法的研究与应用[J].电脑知识与技术,2020,16(21):26-27.
关键词:气温变化;随机森林;预测
模型建立
近十多年来,全球气温仍呈现出上升趋势,同时世界各地的极端气候、自然灾害也愈加频发[1],对人们的日常生产以及自然环境造成严重影响。本文通过对已有数据进行分析,利用设计气温变化的预测模型实现对未来全球气温的预测估计。
1.随机森林模型的建立
随机森林模型为集成算法[2]的一种,其分类器单元为决策树。原始数据共四维,分别为CO2浓度、地球净辐射、海洋温度、全球气温。将CO2浓度、地球净辐射、海洋温度作为模型训练的特征输入,对全球气温进行预测。原数据共130条,覆盖年份1880-2009年,分别取原数据前50年、80年、105年以及全部用作随机森林模型训练,其余年份数据用作模型预测。在本文解决的问题中,需实现对未来30年内全球气温的预测。观察原始数据可知其均存在上升的趋势,预测数据势必会超出训练集的数据范围,仅通过重新选取训练数据集的方式在此问题中无法发挥作用。因此,本文将选取一阶差分的方法对原始数据退势,图1为原始数据退势后序列。
退势后的序列变得平稳且存在一定的周期性,能够用作模型的预测。将CO2浓度退势序列、地球净辐射退势序列、海洋温度退势序列作为新模型的特征输入,全球气温退势序列作为新模型的预测值。本文选取70%数据用于模型训练。由于退势后序列全部为差分量,模型的评估需选用原始数据,在差分量还原的过程中需要求和操作,因此必须将全部预测数据用作模型评估。模型评估函数选用平均绝对百分比误差(Mean Absolute Percentage Error)。
式中为样本数量,为原始数据标签值,为模型预测值。
通过随机搜索(Random Searching)、网格搜索(Grid Searching)方法找到模型的最优参数[4],分类器数量(n_estimators)为700,最大深度(max_depth)为8,内部节点再划分所需最小样本数(min_samples_split)为12,叶子节点最少样本数(min_samples_leaf)为1,最终将预测结果求和,完成模型评估。至此,完成模型的构建。
模型可以反应各特征的重要性占比,通过模型可知,特征重要性占比为:CO2浓度退势序列6.5%、地球净辐射退势序列3.4%、海洋温度退势序列90.1%。海洋温度退势序列重要性的占比最大,与本文开始的观测猜想一致。
2.滑动平均法对CO2浓度的预测
CO2浓度数据具备一定指数特性,可通过对数函数将其转化为直线进行预测。但模型的输入为CO2浓度退势序列,对数操作将对退势序列造成不小影响,影响最终预测结果。本文采用滑动平均法,完成对CO2浓度的预测。
窗口大小为5,初始化窗口权重为,增长因子,惩罚系数,其中窗口权重需满足以下约束条件:
设预测值为,的计算公式如下:
结合实际参数应逐渐减小,参数应逐渐增大,通过非线性规划算法求解到一组合适的窗口权重参数,完成对CO2浓度以及CO2浓度退势序列的预测。
3.指数平滑法对地球净辐射、海洋温度的预测
地球净辐射序列与海洋温度退势序列均表现出周期性,可采用小波分析、指数平滑等方法实现预测。本文采用三次指数平滑方法(Holt-Winter)预测。选取合适的周期参数,并采用非线性规划算法优化预测结果。
4.预测结果的优化
将预测结果重新整合,使用训练好的随机森林模型完成对未来30年的全球气温预测。预测结果与目标函数在1880、1920、1930、1965等特殊时间点重合,整体趋势同原始全球气温序列。对模型预测结果做出修正,本文采用线性回归修正模型预测结果。修正公式如下:
式中为待修正预测值,为拟合直线预测值,为全球气温原始数据,为全球气温原始数据长度,为待求解的参数。通过非线性规划算法,得到一组合适参数,完成对模型预测结果的修正,修正结果如图2所示。
结论
本文通过随机森林模型,结合滑动平均、指数平滑法完成对未来30年全球气温的预测,使用非線性规划法修正预测结果。找到可能影响全球变暖的主要因素,包括海洋温度、CO2浓度等。其中影响全球气温最直接的因素为海洋温度,但海洋温度的升高只是结果,其可能与不同年代的火山活动、太阳黑子活动有关,是需要科研人员考察的另一方向;次要因素为CO2浓度的增大。通过预测结果可以看出,全球气温在近一段时间内仍存在上升趋势。
参考文献
[1] 王澄海,李健,许晓光.中国近50年气温变化准3年周期的普遍性及气温未来的可能变化趋势[J].高原气象,2012,31(01):126-136.
[2] 吴兴惠,周玉萍,邢海花.集成学习之随机森林分类算法的研究与应用[J].电脑知识与技术,2020,16(21):26-27.