【摘 要】
:
随着信息时代的快速发展,其数据具有海量、异构、多样、动态变化等特性。面对这些海量数据,常常陷入“数据丰富,信息贫乏”的尴尬境地。人们迫切需要强有力的数据分析工具从繁杂
论文部分内容阅读
随着信息时代的快速发展,其数据具有海量、异构、多样、动态变化等特性。面对这些海量数据,常常陷入“数据丰富,信息贫乏”的尴尬境地。人们迫切需要强有力的数据分析工具从繁杂的海量数据中找到有用知识,发现其中存在的关系和规则,帮助人们进行决策、研究,从而带来巨大的信息价值。聚类算法作为一种非监督学习的方法,是包括数据挖掘、机器学习、模式识别、图像分析等诸多领域数据统计分析的一种常用技术。Map-Reduce编程模型由Google提出的,是当前应用较为广泛的分布式计算框架。它将业务逻辑从复杂的底层实现细节中分离出来,该模型主要是面向海量数据的处理,与传统的并行计算模型相比,它对任务调度、数据分块、容错性等问题进行了封装,极大地简化了程序的设计。本文通过深入学习k-means和canopy-k-means聚类算法,在Map-Reduce上实现了这两种算法的并行化设计,并将其部署在由4台机器组成的Hadoop集群上进行测试。实验结果表明,基于Map-Reduce的canopy-k-means并行算法比k-means并行算法的聚类结果准确率更高,收敛速度更快。这两种并行算法能够得到较好的聚类结果,在大数据集上,具有较好的加速比和良好的扩展性。
其他文献
最近几年,社交网络如雨后春笋般快速发展,社交网络的开放性,互动性和娱乐性使得用户数量急剧增长,同时也伴随着大量恶意用户,这些用户对社交网络中正常用户是巨大威胁,研究社交网络
21世纪,这个伟大的信息化时代已经进入了第二个十年,随着我们互联网变得更加通畅,计算机多媒体技术正在加速发展,数字化视频相关的领域被不断地拓宽,人们对网络视频服务有着
数据挖掘是近年来在信息决策领域较为活跃的热点课题。在数据挖掘的众多技术中,聚类分析尤为重要,它把数据对象分为若干类,让同一类中对象的相似性尽可能大,不同类间对象的相
无线传感器网络(Wireless Sensor Networks, WSNs)是目前备受国际关注的热点研究技术。在无线传感器网络中,传感器节点所携带的电池能量是极其有限的;同时,受部署环境的限制,
作为一种新兴的商业模式,云计算通过开放的技术和标准把软硬件虚拟化成动态的资源,并以按需服务的形式提供给用户。云计算不仅能够大幅降低购买硬件、能源、制冷等成本,还能
我国正处在城市高速发展的阶段,社会经济的发展要求新增大量的建设用地,人地冲突严重。在快速城市化过程中,由于缺乏有效的控制机制和对城市发展、城市形态演变有序控制的技术保
随着多媒体技术在计算机领域内的高速发展和其在军事、医学、交通等方面的广泛应用,计算机视觉成为近年来一个备受关注的研究领域,它也促使了机器学习、人工智能、机器人等相
随着用户需求和开放的网络计算环境的不断变化,软件复杂性与演化要求也随之不断增强,实现Internet软件的自适应性和软件系统的动态演化对那些连续运行、安全攸关的应用有着重
目前,数字签名方案已经成为研究的热点和重点,其中的代理签名方案和盲签名方案更是研究较多的签名方案类型,将它们与备受关注的签密技术结合起来提出了许多盲签密方案和部分
对生物行为的研究能够启发新的计算方法、促进人工智能的发展。近10年来,一种名为多头绒泡菌的多核单细胞生物引起了众多科学家的兴趣,其智能行为也被广泛研究。多头绒泡菌具