论文部分内容阅读
随着“大数据”概念的出现,国内外研究学者越发集中关注如何从大数据中获取有价值的知识,如何运用智能算法从海量数据中发现有意义的模式和规则以及如何借助有效工具从数据海洋中提取对领导决策具有支撑和引导作用的信息。聚类分析作为数据挖掘领域的一个重要研究方向,是一种将数据对象划分成若干簇或类的过程,使同一类中的对象高度相似,而不同类之间的对象具有较大的差异。然而随着数据规模的迅猛增长,单机串行的聚类算法遇到了瓶颈,主要表现在数据无法一次性装入内存、执行效率差、无法实现并行处理等方面。Hadoop分布式计算技术的出现及发展为解决这类问题提供了一种有效的手段。Hadoop分布式平台通过HDFS(分布式文件系统)存储海量数据,并结合MapReduce编程框架实现对大规模数据集的并行处理。科研工作者和用户可以根据串行聚类算法的特点,结合MapReduce编程框架,在不需要过多了解Hadoop平台底层细节的情况下,能够很容易的实现算法的并行化,从而提高算法的执行效率,帮助人们从大数据中获取有价值的信息和知识。在聚类分析中,合理设置初始化参数是基于高斯混合模型的EM聚类算法的关键指标。初始化参数的选取和设置不仅会影响算法的迭代次数和算法执行的复杂度,而且会影响到最终的聚类结果。因此,一个良好的初始化参数选取机制可以在减少迭代次数的同时,提高聚类结果的准确度。本文通过对随机初始化、K均值初始化、层次聚类初始化等传统初始化方法进行分析研究,提出了基于密度的MergeC方法。该方法依据每类样本中心部位密度大、边缘部位密度小的特点,将各类中心部位的最优候选中心提取出来进行加权合并,从而得到高斯混合模型的参数值。通过实验和分析表明,该方法是高效、可行的。针对传统EM算法中存在数据需要多次载入内存、并行性较差以及执行效率不高等问题,本文将串行EM算法与MapReduce框架结合,给出了基于Hadoop平台的分布式EM聚类算法,实现了EM算法的分布式并行处理方案。该算法通过合理的冗余操作,采用MeanMapReduce和VarMapReduce两个阶段分步计算各类的均值和协方差矩阵,达到对海量数据的分布式处理。最后通过在Hadoop集群上对不同大小的数据集进行试验对比,结果表明随着数据节点的增加,算法的执行速度得到了极大提高。算法实现了大数据并行聚类分析和挖掘,显著提高了EM算法处理海量数据集的执行效率。