论文部分内容阅读
随着气候环境对农业生产的影响日益密切,如何高效处理海量增长的气象数据,提高农业气象灾害预警的科学性成为农业气象灾害研究的热门。由于气象数据具有数据量大、类型繁多、冗余度高、价值密度低等特点,所以传统的数据分析方法往往达不到很高的处理效率。本文的主要工作就是针对气象大数据的特点,结合数据分析的研究成果,进一步研究了更加高效的大数据处理技术并应用于农业气象灾害预警。本文介绍了气象大数据的处理架构,概述了大数据处理技术,分析了现有大数据预处理技术、分类技术及各自性能。概述了自适应增强技术和分布式处理架构,分析了组合分类器和并行化技术在大数据处理中的作用,为进一步研究农业气象灾害预警提供准备工作。针对气象数据类型复杂、属性繁多的特点,结合粗糙集理论和并行化处理技术,本文首先提出一种基于信息熵的并行化属性约简算法。通过信息熵属性约简算法消除重复、冗余的气象数据,实现对知识的压缩和再提炼,并利用MapReduce架构将任务进行划分,实现算法的分布式处理。仿真结果表明,该并行化算法能够有效的运用于气象大数据约简,且具有更快的处理速度。针对农业气象灾害分类预测效率低下的问题,本文提出了基于MapReduce的K最近邻组合分类预测模型。该模型在自适应增强思想的基础上,将K最近邻(k-Nearest Neighbor, KNN)分类算法进行融合,通过寻找最优的KNN基分类器个数,构造KNN组合分类器,并利用MapReduce并行化架构,实现算法的分布式处理。仿真结果表明,该并行化组合分类模型,准确率更高,处理速度更快。最后,利用本文提出的大数据处理技术,以低温、寡照气象灾害等级指标为例,对农业气象灾害的等级进行分类预测,实现农业气象灾害的评估与预警。