基于云平台的聚类算法并行化研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:qz824zane
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类算法是数据挖掘中的重要内容,能够从数据中提取出隐藏的有用信息和知识来为人们服务,在工业、商业以及科研领域都得到了广泛应用。随着当今社会数据量急剧增加,单机聚类算法的计算能力渐渐无法满足需求,广大互联网公司为了从激烈的商业竞争中脱颖而出以获得商业成功和大量的经济利益,纷纷为大规模数据的处理寻求有效策略,于是多台计算机共同参与运算的分布式聚类算法成为当前研究热点。云计算平台是一个优秀的新型商业计算模型,通过虚拟化技术把互联网中的节点资源相融合来提供优越的计算能力,并且能够根据计算任务中任务量的实时变化情况来动态扩展集群中的节点。系统将待处理的计算任务合理分配到计算机集群中的节点上,根据实际需求得到所需的存储空间和计算能力等资源,用户在无需理解云内部的知识和细节的情况下也可以使用云平台中的基础设施。Hadoop作为Apache基金会开发的开源云计算平台,以一种高效可靠可伸缩的方式处理数据,此外还具有高容错性和低成本等优点,是一个能够分布式处理海量数据的软件框架。Hadoop核心设计是底部HDFS(分布式文件系统)和上层MapReduce(编程模式),分别为海量数据提供存储和计算。本文主要研究如何运用云平台中大量计算机节点的并行计算能力来解决大规模数据聚类的难题。针对Kmeans算法中一些不足之处提出改进:采用Canopy算法作为Kmeans聚类的初始步骤,并基于“最小最大原则”优化初始聚类中心的选取;对Kmeans迭代过程加以优化使整体计算量得到降低,进一步提高算法效率。详细分析DBSCAN算法在参数选择,内存使用、I/O开销等方面存在的问题,提出了一个基于层次的优化算法。既解除了因参数选择不当而对算法效率造成的影响,还在一定程度上降低了查询次数从而减小I/O开销。最后,通过搭建Hadoop平台分别对基于MapReduce的Kmeans和DBSCAN并行优化算法进行一系列的测试实验来验证性能。实验表明:Kmeans优化算法在迭代速度及聚类结果准确率上有所提升;DBSCAN优化算法在正确率和实效性方面均得到改善;并且通过加速比实验证明本文的并行算法更适合处理大规模数据集。
其他文献
本课题源于内蒙古工业大学与内蒙科委合作研制开发的“300W户用风光互补供电系统”项目,该系统已在太阳能和风能资源较丰富而电力基础设施较差的地区安装上百套。在研制、中试和分析用户的反馈情况时发现,FG-300W风光互补逆变电源系统还存在一些不足。其中,最为突出的是风光互补逆变电源系统的核心部件——逆变控制器,带感性负载的能力不足,易使IGBT管过热并烧毁。经过大量的实验对比发现,逆变控制器开关管IG
设计活动不仅具备创造性和智能性,而且具备群体性和协作性。随着Internet/Intranet网络和并行、高性能计算机及事务处理的普及,异地、协同、虚拟设计也在CAD中得到了广泛应用
高级在轨系统(AOS)是空间数据系统咨询委员会(CCSDS)面向载人飞船和空间站等复杂任务航天器的高带宽数据通信需求制定的一套数据通信体制标准,已逐渐被各航天技术发达国家所
超大广角镜头的突出优点在于其超大的视场角,在全景拍摄、视频群组会议、视频监控、智能交通系统、机器人导航等领域得到广泛的应用。但是超大广角所带来的弊端就是拍摄的图
随着计算机技术和网络通信技术的高速发展,以并发性、分布性、实时性、异构性和互操作性等主要特征的并发分布式系统已成为计算机技术的主流方向。并发现象以其固有的复杂性,
英特网上的信息与日剧增,蕴藏着巨大的信息量。对产品的各种评价出现在各大论坛、电子公告板以及门户网站上。同时,用户也更渴望从海量数据中得到某类产品的评价信息。然而,
粗糙集算法是近年来在数据挖掘领域出现的新兴算法,它在处理数据模糊性方面有其独特的优势,但是它计算过程中核心的过程“约简”的计算过于复杂,这严重影响了它的使用和推广
人脸识别是一个典型的图像模式分析、理解与分类计算问题,它涉及到模式识别、图像处理、计算机视觉、统计学习和认知科学等多个学科。人脸识别问题的深入研究和最终解决,可以
图像在形成、传输以及记录过程中,不可避免地会受到噪声的干扰。噪声的引入,不仅降低了图像的质量,而且严重影响图像的后续处理工作。因此,图像去噪成为图像处理中一个基础而
随着无线网络与移动终端设备的不断成熟,移动业务逐步向通信,商务与娱乐等应用相结合的方向转移。特别自2004年以来,3G进入高速发展阶段,市场出现大量多媒体通信服务的需求。