基于Hadoop平台的分布式EM聚类算法

来源 :河北师范大学 | 被引量 : 0次 | 上传用户:xiaohuimin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着“大数据”概念的出现,国内外研究学者越发集中关注如何从大数据中获取有价值的知识,如何运用智能算法从海量数据中发现有意义的模式和规则以及如何借助有效工具从数据海洋中提取对领导决策具有支撑和引导作用的信息。聚类分析作为数据挖掘领域的一个重要研究方向,是一种将数据对象划分成若干簇或类的过程,使同一类中的对象高度相似,而不同类之间的对象具有较大的差异。然而随着数据规模的迅猛增长,单机串行的聚类算法遇到了瓶颈,主要表现在数据无法一次性装入内存、执行效率差、无法实现并行处理等方面。Hadoop分布式计算技术的出现及发展为解决这类问题提供了一种有效的手段。Hadoop分布式平台通过HDFS(分布式文件系统)存储海量数据,并结合MapReduce编程框架实现对大规模数据集的并行处理。科研工作者和用户可以根据串行聚类算法的特点,结合MapReduce编程框架,在不需要过多了解Hadoop平台底层细节的情况下,能够很容易的实现算法的并行化,从而提高算法的执行效率,帮助人们从大数据中获取有价值的信息和知识。在聚类分析中,合理设置初始化参数是基于高斯混合模型的EM聚类算法的关键指标。初始化参数的选取和设置不仅会影响算法的迭代次数和算法执行的复杂度,而且会影响到最终的聚类结果。因此,一个良好的初始化参数选取机制可以在减少迭代次数的同时,提高聚类结果的准确度。本文通过对随机初始化、K均值初始化、层次聚类初始化等传统初始化方法进行分析研究,提出了基于密度的MergeC方法。该方法依据每类样本中心部位密度大、边缘部位密度小的特点,将各类中心部位的最优候选中心提取出来进行加权合并,从而得到高斯混合模型的参数值。通过实验和分析表明,该方法是高效、可行的。针对传统EM算法中存在数据需要多次载入内存、并行性较差以及执行效率不高等问题,本文将串行EM算法与MapReduce框架结合,给出了基于Hadoop平台的分布式EM聚类算法,实现了EM算法的分布式并行处理方案。该算法通过合理的冗余操作,采用MeanMapReduce和VarMapReduce两个阶段分步计算各类的均值和协方差矩阵,达到对海量数据的分布式处理。最后通过在Hadoop集群上对不同大小的数据集进行试验对比,结果表明随着数据节点的增加,算法的执行速度得到了极大提高。算法实现了大数据并行聚类分析和挖掘,显著提高了EM算法处理海量数据集的执行效率。
其他文献
设施农业在我国农业面积中所占的比重日益增长,是解决我国人多地少制约可持续发展的有效工程,然而设施农业病虫害日益严峻的形势是发展设施农业所面临的重要难题。目前病虫害
射频识别技术(RFID技术)诞生于上个世纪五六十年代,其存储容量巨大,变革性质的信息处理方式使之具有革命性的信息技术优点。比如其快速、稳定、精准的捕获信息的特点以及重复
随着人们社会文化生活水平的不断提高,音乐在各种场合逐渐扮演起十分重要的角色。很多时候人们需要根据内心的情感需求迅速找到自己满意的歌曲,而不想过多地去了解歌曲具体是什
笔迹自古以来是验证书写者身份的一项重要方法。相比于人工笔迹验证,使用计算机进行笔迹验证有避免人工操作的主观性、验证速度提升、可以联网异地工作等优点,近十年来已经广泛
无线传感器网络是近些年发展起来的一项新技术,被广泛地应用在国防军事、环境监测、医疗卫生、抗灾抢险等领域。在无线传感器网络普及应用中,如何保证通信质量的前提下,降低传感
篇章关系自动识别是自然语言处理领域一项非常具有挑战性的任务,该任务通过挖掘自然语言文本之间的结构信息、语义信息和词信息等来识别文本单元之间的逻辑关系,对自动问答系
在1973年,以太网诞生了,在过去的几十年中,虽然有很多种技术与以太网竞争,但是以太网技术还是一如既往的快速前进,而有很多技术已经如过往云烟。而现在,网络中承载业务流量的
缺少视觉信息对盲人获取户外环境信息造成了很大困难,而现有帮助盲人感知户外环境的设备和方法较为稀少且存在声音时间占用长、交互不便等问题。为了帮助盲人提高户外独立行为
4G、WLAN等无线通信技术的蓬勃发展,推动着教育、医疗、社交、旅游等各行各业的转型,移动视频、生活信息服务、支付服务、云服务等无线通信业务正在逐渐渗入到人们生活的方方
信息集成是利用一个或多个数据库或其它的信息源,使得来自这些数据源的数据合并起来,就像使用一个单一的数据库的过程。在信息集成中,一个中间件系统允许用户针对全局视图提出查