基于Hadoop云计算平台的聚类算法并行化研究

被引量 : 0次 | 上传用户:krizy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的规模与日俱增,与此同时产生了海量的相关数据,传统的数据挖掘技术由于受到计算机自身性能以及编程模型的约束,产生了瓶颈,在处理这些数据的时候显着无能为力。数据挖掘旨在从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息。面对具有高维度数据的海量数据时,单处理机受限于运算能力和内存容量,因此多处理机平行处理的解决方案就被提出来了。最常见的思路就是将大规模数据集划分为多个足够单机处理的数据子集,并将这些子集合理分发给各个单处理机节点处理,当每个节点对自己分配到数据子集的处理完成后,将各自的结果汇总合并,最终得到的是对整个数据集的处理结果。同单处理机相比,多处理机多个运算节点的并行处理数据模式可以显著提高数据挖掘效率。当前在数据挖掘并行化领域中有关方法主要有基于MPI、PVM的并行、基于CPU、GPU的并行。前者简单易用,但是对数据组织形式有较高要求,后者对硬件要求较高,不利于大规模推广。总体来说,这几种方法使得用户过多的专注于实现并行计算细节之中,使得用户无暇顾及其他方面。MapReduce是Google早在2004年就提出来的编程模型,它简化了开发并行程序的过程,推动了并行计算的广泛应用。Google的MapReduce是商业的系统,2008年Apache Hadoop开源云平台实现了MapReduce编程模型,同时也实现了类似GFS(Google File System,谷歌文件系统)的HDFS分布式文件系统。在近几年中,随着Hadoop开源平台的发展与广泛应用,使得大规模数据集的数据挖掘变得更加大众化,因此本文提出了基于Hadoop云计算平台来实现数据挖掘聚类算法的观点。云计算主要的思想是将计算任务分布在大量计算机构成的虚拟资源池上,使各种应用系统能够根据需要获取计算能力、存储空间和各种软件服务。本文的研究设想是通过部署云计算平台,并将聚类算法MapReduce并行化,同时对数据分割、任务分配、并行处理、容错等细节进行优化。由于聚类算法比较繁多,本文仅从k均值聚类算法入手,将传统的k均值算法与Canopy算法相结合,同时按照MapReduce编程模型将上述两种算法进行了并行化。改进后的算法应用在Hadoop云计算平台,通过对SogouC数据集和复旦中文数据集进行了文本聚类处理,实验表明MapReduce并行化后的Canopy算法大大提高的运行速度。因此,Canopy算法比起K均值算法更能胜任大规模数据集的聚类情况。
其他文献
石墨烯作为一种锂离子电池负极材料表现出优异的电化学性能,但石墨烯在充放电过程中容易团聚,导致其容量衰减特别快。而金属氧化物在充放电过程中体积膨胀大,因此其容量衰减
针对某污水厂出水不达标的情况,本研究采用臭氧(O3)和曝气生物滤池(BAF)组合工艺对其进行深度处理。结果表明,当采用两级臭氧+曝气生物滤池工艺时,出水COD在31~46mg/L,色度在
明自永乐后,“台阁体”长期统治文坛,其所作多为应制之文,致使内容贫乏,篇章冗赘,给文学带来严重危机。为了矫正这种流弊,以李梦阳、何景明为首的前七子首倡“复古”,刻意模
<正>常言道,"境由心生",又说"心本无生因境有"。快乐是一种心理状态,内心湛然,则无往而不乐。吃饭睡觉,稀松平常之事,但是其中大有道理。大珠《顿悟入道要门论》:"有源律师来
期刊
南宋遗民诗人丘葵生活于宋末元初,曾参加抗击蒙元的斗争,失败后隐居金门海岛。其著作《钓矶诗集》收录诗歌三百四十多首,诗风写实、闲适兼而有之,诗歌深受杜甫影响,具有唐人
清朝乾隆年间,四海承平,物阜民丰,良好的社会形势为各种文化艺术的发展提供了有利条件,诗、词、文等传统文学体裁在继续巩固其自身历史地位的同时,戏曲、小说等新兴民俗文学
在中国现代文学史上,赵清阁是一位有成就、有影响的作家。据不完全统计,在60余年的创作生涯中,她共创作了小说、戏剧剧本、电影剧本、理论著作和散文集等50余部作品;先后担任
质量管理是环境监测赖以生存和发展的基础,目前,环境监测质管工作中"重结果、轻过程"的问题仍然普遍存在,加强全过程质量管理才能确保监测数据的准确性和可靠性,为实现环境资
沈从文作为中国文坛上一个具有较大影响力的作家,其作品自创作以来便吸引了不少人为之研究和探索。特别是他的小说以鲜明的特点和独立的审美个性吸引了学者的关注,在小说的文
中国的金融改革已进入攻坚阶段,经济增速整体放缓,股市经历了2015年的暴涨与暴跌,2016年房地产泡沫越来越大,人民币加入SDR使得国内货币面临巨大贬值压力。政府主推稳定国内