论文部分内容阅读
灯光是衡量人类活动程度的一种直接体现,灯光强度也一定程度上体现了人类活动的强度和广度,夜光数据作为灯光的客观体现方式也逐渐引起人们的重视。尤其是近年来数据共享政策的逐渐完善和传感器的快速发展,夜间灯光数据被广泛应用于衡量人类社会经济的活动中,例如对于国内生产总值GDP(Gross Domestic Product)预测模型的构建,可以将长时间序列的夜间灯光数据作为一个独特的变量应用其中。现今传统统计方法难以准确及时的揭示经济参量时空信息且估算GDP精度不足,故如何消除夜光遥感数据中的误差,构建可靠的时间序列夜间灯光数据,是当前研究的重要研究方向之一;此外,基于夜光遥感数据结合机器学习算法构建GDP智能预测模型时,不同的算法具有不同的预测精度和适用条件,如何为GDP智能预测模型选择最佳算法也是亟待解决的问题。本文利用国家极轨卫星携带的可见光和近红外成像辐射计(NPP/VIIRS)获取的夜间灯光影像为数据源,通过对数据产生的误差进行处理分析,得到了可以用来定量分析的长时间序列数据;其次比较不同的机器学习算法模型在预测GDP方面的利弊,并进行对比分析,得出随机森林模型在构建GDP智能模型研究时具有较好的优势,在此基础上采用贝叶斯优化和网格搜索调整超参数优化随机森林模型。本文主要研究内容与相关工作如下:(1)提出一种利用部分月度(除5、6月份)数据合成年度数据的方法。由于夜间灯光数据在时间分辨率上存在不一致性,且年数据缺失严重,导致数据不完整。针对这一问题利用Arc GIS对夜间灯光栅格数据构建循环输出模型,提出一种利用部分月度(除5、6月份)数据合成年度数据的方法。结果表明:该方式校正效果明显,具有良好的科学性和可靠性,并由此得到可供量化分析的2012-2018年NPP/VIIRS长时间序列夜间灯光数据。(2)使用预处理后的数据构建了梯度提升回归树、决策树、弹性网络回归、随机森林和BP神经网络5个预测模型,全面比较5种回归算法基于NPP/VIIRS灯光数据的预测模型,详述了算法公式、损失函数、正则化、调节参数、优缺点。并结合多种辅助数据和各个模型的优点,构建决策树模型,为了量化预测准确性,对所有算法应用5折交叉验证(5F-CV)。对于基于5F-CV的GBDT、DT、Elastic Net、随机森林(RF)和BP神经网络,重测预测得分的拟合优度值分别为0.95、0.94、0.92、0.95、0.89。结果表明随机森林(RF)算法预测精度更好,且本文采用的5种预测算法均具有的不错的重测鲁棒性。(3)提出一种基于袋外数据估计的回归误差,采用改进的网格搜索算法(Grid Search)对随机森林模型进行参数调优。同时也使用贝叶斯优化(Bayesian Optimization)对随机森林(RF)模型进行参数调优。运用嵌套5F-CV,并通过外部5F-CV循环估算模型的泛化能力,内部5F-CV循环用于确定最佳参数(例如,λ、α或C)找出最优参数模型,建立自动预测系统,根据输入的研究区数据,使算法模型自动进行精准预测。结果表明基于贝叶斯优化改进的随机森林算法在预测GDP时最好,预测精度达到97%,具有较高的准确率和鲁棒性。研究结果展示了机器学习算法和夜间光照指数用于在县级尺度上预测GDP表现出显著的能力。