基于Hadoop平台的分布式EM聚类算法

来源 :河北师范大学 | 被引量 : 0次 | 上传用户：xiaohuimin

【摘要】

：

随着“大数据”概念的出现，国内外研究学者越发集中关注如何从大数据中获取有价值的知识，如何运用智能算法从海量数据中发现有意义的模式和规则以及如何借助有效工具从数据海洋

【作者】

：

苏嘉庚

【机构】

：

河北师范大学

【出处】

：

河北师范大学

【发表日期】

：

2014年期

【关键词】

：

EM聚类算法 Hadoop平台 MapReduce框架高斯混合模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着“大数据”概念的出现，国内外研究学者越发集中关注如何从大数据中获取有价值的知识，如何运用智能算法从海量数据中发现有意义的模式和规则以及如何借助有效工具从数据海洋中提取对领导决策具有支撑和引导作用的信息。聚类分析作为数据挖掘领域的一个重要研究方向，是一种将数据对象划分成若干簇或类的过程，使同一类中的对象高度相似，而不同类之间的对象具有较大的差异。然而随着数据规模的迅猛增长，单机串行的聚类算法遇到了瓶颈，主要表现在数据无法一次性装入内存、执行效率差、无法实现并行处理等方面。Hadoop分布式计算技术的出现及发展为解决这类问题提供了一种有效的手段。Hadoop分布式平台通过HDFS（分布式文件系统）存储海量数据，并结合MapReduce编程框架实现对大规模数据集的并行处理。科研工作者和用户可以根据串行聚类算法的特点，结合MapReduce编程框架，在不需要过多了解Hadoop平台底层细节的情况下，能够很容易的实现算法的并行化，从而提高算法的执行效率，帮助人们从大数据中获取有价值的信息和知识。在聚类分析中，合理设置初始化参数是基于高斯混合模型的EM聚类算法的关键指标。初始化参数的选取和设置不仅会影响算法的迭代次数和算法执行的复杂度，而且会影响到最终的聚类结果。因此，一个良好的初始化参数选取机制可以在减少迭代次数的同时，提高聚类结果的准确度。本文通过对随机初始化、K均值初始化、层次聚类初始化等传统初始化方法进行分析研究，提出了基于密度的MergeC方法。该方法依据每类样本中心部位密度大、边缘部位密度小的特点，将各类中心部位的最优候选中心提取出来进行加权合并，从而得到高斯混合模型的参数值。通过实验和分析表明，该方法是高效、可行的。针对传统EM算法中存在数据需要多次载入内存、并行性较差以及执行效率不高等问题，本文将串行EM算法与MapReduce框架结合，给出了基于Hadoop平台的分布式EM聚类算法，实现了EM算法的分布式并行处理方案。该算法通过合理的冗余操作，采用MeanMapReduce和VarMapReduce两个阶段分步计算各类的均值和协方差矩阵，达到对海量数据的分布式处理。最后通过在Hadoop集群上对不同大小的数据集进行试验对比，结果表明随着数据节点的增加，算法的执行速度得到了极大提高。算法实现了大数据并行聚类分析和挖掘，显著提高了EM算法处理海量数据集的执行效率。

其他文献

基于粗糙神经网络的番茄灰霉病预警模型构建与实现

设施农业在我国农业面积中所占的比重日益增长,是解决我国人多地少制约可持续发展的有效工程,然而设施农业病虫害日益严峻的形势是发展设施农业所面临的重要难题。目前病虫害

学位

粗糙集理论人工神经网络番茄灰霉病病害预警物联网

基于RFID和WSN融合的物流配送系统最优路径选择算法研究

射频识别技术(RFID技术)诞生于上个世纪五六十年代,其存储容量巨大,变革性质的信息处理方式使之具有革命性的信息技术优点。比如其快速、稳定、精准的捕获信息的特点以及重复

学位

物流管理蚁群算法RFIDWSNTSP问题

基于情感曲线的音乐生成模型研究

随着人们社会文化生活水平的不断提高，音乐在各种场合逐渐扮演起十分重要的角色。很多时候人们需要根据内心的情感需求迅速找到自己满意的歌曲，而不想过多地去了解歌曲具体是什

学位

情感曲线音乐生成模型隐语音分析基因片段

基于模糊支持向量机的笔迹验证研究

笔迹自古以来是验证书写者身份的一项重要方法。相比于人工笔迹验证，使用计算机进行笔迹验证有避免人工操作的主观性、验证速度提升、可以联网异地工作等优点，近十年来已经广泛

学位

笔迹验证笔迹鉴定方向线素模糊支持向量机

无线传感器网络LEACH路由协议的研究

无线传感器网络是近些年发展起来的一项新技术，被广泛地应用在国防军事、环境监测、医疗卫生、抗灾抢险等领域。在无线传感器网络普及应用中，如何保证通信质量的前提下，降低传感

学位

无线传感器网络LEACH路由协议Telosb节点TinyOS操作系统

基于半监督学习的隐式篇章关系识别与研究

篇章关系自动识别是自然语言处理领域一项非常具有挑战性的任务,该任务通过挖掘自然语言文本之间的结构信息、语义信息和词信息等来识别文本单元之间的逻辑关系,对自动问答系

学位

隐式篇章关系识别半监督PDTB

基于令牌的电信级以太网保护技术的研究

在1973年,以太网诞生了,在过去的几十年中,虽然有很多种技术与以太网竞争,但是以太网技术还是一如既往的快速前进,而有很多技术已经如过往云烟。而现在,网络中承载业务流量的

学位

电信级以太网故障检测令牌技术保护倒换OPNET

盲人户外环境感知辅助系统研究

缺少视觉信息对盲人获取户外环境信息造成了很大困难，而现有帮助盲人感知户外环境的设备和方法较为稀少且存在声音时间占用长、交互不便等问题。为了帮助盲人提高户外独立行为

学位

人机交互可听化设计盲人群体户外环境感知辅助系统意境地图

基于跨层设计的动态博弈频谱共享模型研究

4G、WLAN等无线通信技术的蓬勃发展,推动着教育、医疗、社交、旅游等各行各业的转型,移动视频、生活信息服务、支付服务、云服务等无线通信业务正在逐渐渗入到人们生活的方方

学位

认知无线网络频谱共享跨层设计博弈论

信息集成中的动态信息源结合问题研究

信息集成是利用一个或多个数据库或其它的信息源，使得来自这些数据源的数据合并起来，就像使用一个单一的数据库的过程。在信息集成中，一个中间件系统允许用户针对全局视图提出查

学位

信息集成LAV查询分解查询重写

基于Hadoop平台的分布式EM聚类算法

其他学术论文