基于Hadoop的K-means聚类算法的实现

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:wolaile999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文中针对传统并行K—means聚类算法时间复杂度比较高的问题,结合Hadoop平台以及MapReduce编程模型的优势,提出了利用Hadoop及MapReduce编程模型实现大数据量下的K-means聚类算法。其中,Map函数完成每条记录到各个质心距离的计算并标记其所属类别,Reduce函数完成质心的更新,同时计算每条数据到其所属中心点的距离,并累计求和。通过实验,验证了K—means算法部署在Hadoop集群上并行化运行,在处理大数据时,同传统的串行算法相比,确实能够降低时间复杂度,而且表现出很好的稳定
其他文献
目前大中型企业仍然存在棘手的遗留数据,这些遗留数据库无法及时和外部健全的系统通信,新旧数据无法进行交互。为了解决这种困难,文中以SOA的思想出发,提出了一种基于集成WebServ
随着空间技术的高速发展,任务运营管理系统日益庞大、复杂,管理成本也不断增加。针对这种情况,CCSDS提出了面向服务体系架构的任务运营管理系统参考模型,即MO服务参考模型。MO参
文章阐述并分析了当前资助贫困大学生工作中存在的一些热点问题,并据以提出做好资助贫困大学生工作的若干政策措施,主要是:注重扶贫教育,强化管理工作,建立新的机制,并提高助
在无线传感器网络中一个节点的位置是非常重要的,如果节点的位置不恰当那么它的功能及其服务几乎是毫无意义的,在设计节点定位系统时,负载平衡是最重要的一个要求。文中的目的在
通过对山西财经大学学生学习十六大精神情况的调研,从学生的基本情况、学生的社会参与程度、学生对社会发展的认同程度、学生对社会问题的关注程度、社会进步对学生个体发展
随着我国科学技术的不断发展,各行各业的运营方式都在原有的基础上发生了翻天覆地的变化。其中,媒体领域的发展在新的时代背景下是最为迅猛的,各种新型媒体也如雨后春笋一般
以科学合理的基金管理达到基金收支平衡是实现基本医疗保险制度可持续发展的前提。我国基本医疗保险制度建立之初确立了“以收定支、收支平衡”的基金管理原则,但实践中存在
基于2016年流动人口动态监测抽样调查数据和相关城市宏观经济指标的匹配数据,采用Probit模型研究住房公积金对劳动关系稳定的流动人口的住房需求的影响。研究发现,住房公积金
基于中国老年健康影响因素跟踪调查2014年的数据,使用主成分分析法从9个测量指标中提取测度老年人“美好生活”的3个一级指数——安全指数、生存指数和享受指数,并合成老年人
农村失独家庭是农村弱势群体中的“弱势群体”。准确识别失独家庭的养老需求并做出相应的策略安排,是养老资源有限条件下的理性选择。本文基于对四川省H县8个镇302户失独家庭