论文部分内容阅读
随着科技的进步、信息化的发展、气象研究技术的提高,气象领域积累的数据量与日俱增。如何从海量的气象数据中发现有价值的信息是气象科研人员的一项重要任务。气象信息与人民的生活息息相关,人民的生活和生产制造直接受天气的影响。如果能将数据挖掘应用到气象数据中充分挖掘出可用的信息,不仅能提高天气预报准确率和灾害天气预警能力,还能指导当地的工农业生产和提高人民的生活水平,造福人民。在数据挖掘中,分类是一种非常重要的技术。现有的分类技术有决策树、贝叶斯、支持向量机、神经网络等,这些分类器都是单分类器。随着人们对分类器性能要求的提高,相关领域学者提出了集成学习的概念。所谓集成学习就是对同一个问题用多个单一的个体学习器进行组合学习,组合分类器就是将多个不同的分类器(基分类器)通过一定的方法组合起来构建而成的一个组合分类器。因此,组合分类器就是分类器的集成,同时也叫分类器的组合。实验证明,多个分类器组合在性能上超越于单分类器的性能。本文在对气象数据的特点、气象数据挖掘现状和常用的气象数据挖掘方法进行了分析的基础上。利用数据挖掘中的决策树分类方法和集成学习思想构建组合分类器,并用来对广州某局部区域气象站搜集的历史气象数据进行分析和研究。本文主要开展了下列研究:1.设计并实现了基于决策树的并行组合分类器预测模型,将组合分类器和决策树分类方法用于局部区域的气温预测中,各基分类器分别对局部区域的气温进行预测,组合分类器综合各基分类器的结果,最后获得各基分类器的协同预测。2.基于C4.5决策树算法,设计并实现了Bagging、Adaboost两种组合模型,同时基于CART决策树设计了随机森林模型。3.针对局部区域气象数据,应用了Bagging、Adaboost和随机森林三种组合分类器,分别设计并实现了局部区域气温预测模型。4.应用某局部区域的气象数据,验证了Bagging、Adaboost和随机森林三种气温组合预测模型的有效性,进而对三种模型的预测结果从准确率和性能上进行了细致的比较分析。本文的研究成果,为当地的气象局提供了决策依据,给当地居民的社会生活和工业生产提供了指导性的效果。