基于集成学习和深度学习的短期降雨预测模型

被引量 : 0次 | 上传用户:clone111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文以阿里巴巴天池平台上的多普勒雷达图数据集为基础,针对短期降雨预测问题进行研究。经过图像分析与预处理工作后,运用并适当改进了传统机器学习模型及近年兴起的深度学习算法,提出了多种对于短期降雨预测的统计改进模型,取得了较好的预测效果。首先对数据集进行了缺失值处理以及探索性分析,研究目标变量的分布规律以及不同时段和高度下雷达图与目标变量的相关性。之后提出了缩略图和统计量两种特征选取方式,并分别使用回归树、最近邻回归、支持向量回归及贝叶斯岭回归等基础模型对两种方式所提取的数据集进行训练和预测,发现总体上缩略图方式表现更优。选取了较优的缩略图特征后,比较分析了随机森林、GBDT、XGBoost等集成模型的预测效果,其中最好RMSE得分为14.23,并提出了基于GBDT特征选择的改进Ada Boost回归模型以及基于多个强回归器组合的stacking回归模型,RMSE得分分别降低至14.11和14.18。对于目标变量双峰偏态分布的特点,本文提出了先分类再回归和深度学习的方法进行模型改进。在建模前首先利用矩阵的同步旋转变换来增加样本量,借此提高之后深度学习模型的预测效果;接着对目标变量进行区间划分,分出0、1两类区间以及缓冲区间;再基于python3.5的Mxnet深度学习框架,搭建Inception卷积神经网络;在训练过程中,先用Inception分类模型将训练、预测出0、1两类,分类错判率在10%以内;再用Inception回归模型对两类分别进行训练和预测,综合后取平均输出。经过粗略调参后,线上评测得分为14.264。最后给出了分批量处理全部数据集的思路,以待日后的改进、实现。
其他文献
目的:探讨不同种植材料表面成骨细胞的功能状态.方法:用Wistar大鼠颅顶骨建立体外培养成骨细胞模型,将第三代成骨细胞接种到金刚石涂膜(CVD)、羟基磷灰石(HA)、纯钛(Ti)3种种
对区域产权市场发展的影响因素的研究一直是学术界关注的热点。本文基于我国2005~2009年30个省份的面板数据,从法律经济学的角度实证考察了法律环境差异对区域产权交易市场发展
财务管理是当代企业管理的重要组成部分,现代企业制度建设的核心是管理现代化,而会计管理的现代化必须首先实现。会计管理的现代化意味着两个方面的含义:一、会计管理技术手段的
一"宗教"与"分散性宗教"近代中国的社会科学是从西方引进的,因而不得不使用其概念体系,但很多西方的概念在中国并没有相应的对应词语,所以我们要发明新的词汇出来。这种发明从逻
目的:制备细胞因子激活杀伤(CIK)细胞并观察其生物学特性及对不同肿瘤细胞株的杀伤作用.方法:外周血单个核细胞用无血清培养基经干扰素γ(IFN-γ),CD3McAb,白介素2(IL-2),白
灵性与宗教一直有着极为密切的关系。现代灵性逐渐脱离宗教范畴而成为一种独立性存在,它与宗教的关系也呈现出多层面、多样化的形态。本文对现代灵性与宗教的五种基本关系模
目的:保留乳房手术已成为国际上早期乳腺癌患者首选的手术方式,但我国仍有一部分符合保留乳房手术条件的患者选择乳房切除手术,因此本研究分析符合保留乳房手术条件的早期乳腺癌患者保留乳房手术选择的影响因素,以期为提高保留乳房手术率提供帮助。方法:选取2017-07-01—2019-10-31于西南医科大学附属医院收治并经病理确诊为乳腺癌且符合纳入标准的536例患者为研究对象。对符合条件的患者发放相关问卷调
社交焦虑症通常起病于青春期,而且一旦产生,自行缓解的可能性较小,如果没有及时干预,很可能发展成终身社交焦虑障碍。中职生大多处于青春期,是社交焦虑的高危人群。社交焦虑
东秦岭商丹构造带内的武关岩群大陆裂谷火山-沉积岩系、松树蛇绿岩、丹凤岩群岛弧型火山-沉积岩系及主要岩浆侵入岩体主体形成于中、新元古代。中元古代是北秦岭地壳的主要垂