论文部分内容阅读
随着大数据时代的到来和互联网的迅猛发展,人类可以采集利用的数据信息迅猛增长,数据量已达到TB级甚至PB级。而传统的数据挖掘技术已经难以适应飞速发展的大数据时代。因此,如何用更快速、更有效的方法从大规模数据中筛选出有技术含量、运用率高的信息成为数据挖掘技术必须面对的棘手问题。云计算是一种用于实现并行计算的模型,它可以将大规模数据的存储和计算能力均匀的分散到由若干机器构成的集群中。集群可以由许多的廉价机器来搭建,在很大程度上降低成本。云计算这种强大的存储和计算能力以及廉价的成本优势,使数据挖掘所面临的难题得以解决。Hadoop作为当前主流的开源云计算平台,适用于处理单机无法处理的大规模数据集。由于系统本身能够对外屏蔽一些内部细节,使得程序员编写和运行用于处理海量数据的应用程序变得更加容易。本论文针对数据挖掘相关分类算法进行了深入研究,并提出将分类算法MapReduce化的方案,主要研究工作如下。1.针对海量数据预处理的瓶颈问题,提出了一种基于MapReduce编程模型的连续属性离散化算法,并给出了算法设计的方法和策略。实验结果表明该算法具有较高的执行效率,适合用于海量数据的快速离散化处理。2.根据大规模数据集在单机上训练和测试时间过长的问题,通过详细分析朴素贝叶斯分类算法的原理及可并行化点,在Hadoop分布式平台下设计并实现了一种并行朴素贝叶斯的数据分类算法。大量实验结果表明该并行化算法,具有较高的执行效率和可扩展性。3.考虑到集成分类方法中各个基分类器对集成结果所做的贡献不同,为各个基分类器赋予权值来表征其对集成分类的重要程度。在权值的确定问题上,使用智能差分进化算法自适应的优化各基分类器的权值。基于此,提出了一种基于差分进化算法的加权投票集成分类算法。实验数据表明,该算法不仅提高了集成分类的效果,还具有较强的泛化能力。