基于Spark的K-medoids聚类算法的研究

来源 :大连大学 | 被引量 : 5次 | 上传用户：liyyng1987

【摘要】

：

随着互联网和传统各个行业的深度融合,数据正在呈现井喷式的增长,在这个数据为王的时代,人们愈发的认识到海量的数据中蕴含的信息对于我们的工作和生活有多重要的指导作用。

【作者】

：

臧兆杰

【出处】

：

大连大学

【发表日期】

：

2018年01期

【关键词】

：

Spark 并行化聚类大数据

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网和传统各个行业的深度融合,数据正在呈现井喷式的增长,在这个数据为王的时代,人们愈发的认识到海量的数据中蕴含的信息对于我们的工作和生活有多重要的指导作用。从这些海量的数据中快速的发掘出有用的知识并用于指导生活和生产是一个非常有价值的研究课题。显然传统的聚类算法处理的数据规模相对来说还是较少,但是聚类的效果还是不错的,但是在处理海量数据的时候,显然传统的串行算法无法迅速的完成挖掘任务,而且随着数据量的增大,运行速度变得更缓慢。本文的主要工作是通过研究传统的Canopy算法和K-medoids算法的优缺点,Canopy算法可以快速的实现粗聚类,能快速的得到几个Canopy中心,K-medoids算法对噪声的鲁棒性很好,但是需要事先指定K值,于是就将Canopy中心点作为K-medoids算法的初始聚类中心,实验表明该方案可行。但是在处理海量的时候,这两个算法就显得力不从心,于是在大数据平台上将传统的聚类算法并行化,首先将传统这两个算法结合起来在Hadoop平台上利用MapReduce编程模型实现它们的并行化(HCKM算法),虽说在一定程度上能较快的处理海量的数据,但是在实际问题中需要处理多次迭代的数据时,性能就变得差强人意。其次又在Spark平台上利用RDD的Transformation操作和Action操作将这两个算法实现其并行化(SCKM算法),能得到较好的收敛速度和结果的稳定性。本文将Canopy-K-medoids算法部署在Hadoop集群和Spark集群上运行。分别对传统K-medoids算法、HCKM算法和SCKM算法进行测试,并在加速比、准确性等方面进行比对,最终验证了基于Spark的改进的Canopy-Kmedoids算法(SCKM算法)具有很好的性能,能更快速、稳定的处理需要多次迭代的海量数据,处理的数据也具有更好的准确性。

其他文献

巧制果蔬保鲜袋

1、防氧化保鲜袋用厚0.08毫米的聚乙烯塑料薄膜,制成50厘米×75厘米的袋,然后将两个袋套在一起(内袋先用缝衣针扎上数10个小孔),中间夹上1～2层用化学物质"去氧剂"浸渍并风

期刊

保鲜袋水果蔬菜氧化反光膜

发展创汇蔬菜是条路

<正> (一)国内蔬菜市场现状国内蔬菜市场的现实情况是经过十多年的蔬菜产销体制改革,特别是农业部1988年提出并经国务院批准组织实施“莱蓝子”工程以来,在科技推动下,我国

期刊

蔬菜生产发展创汇蔬菜出口蔬菜市场中国

基于神经网络响应面的复合材料结构优化设计

用正交试验设计的方法选择样本点构建神经网络响应面,将神经网络响应面作为优化的目标函数或约束条件,加上其它常规约束条件建立优化模型,应用遗传算法(GA)进行优化,形成一套

期刊

复合材料结构优化神经网络遗传算法响应面

PBO纤维表面空气冷等离子体改性

采用等离子体处理方法对PBO(聚对苯撑苯并二口恶唑)纤维表面进行改性.用XPS和AFM测试分析等离子处理时间对PBO纤维表面组成和表面形貌的影响规律;首次采用浸润性测试和IR测试

期刊

PBO纤维等离子体表面处理界面剪切强度CarbonModificationMorphologyOxygenPlasmasPolymersShear st

双星演化中的两个问题

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

会议

探析既有居住区景观适老化改造方法

随着2012年全国人大常委会对《老年人权益保障法》的修订,社会对老人宜居区的关注也随之提高。老旧既有住宅小区内景观设计单一,以大面积绿地为主,缺乏老人休闲、健身的场地;

期刊

景观改造既有住区适老化

新教改下语文教学创新发展初探

【摘要】全国教育改革来临，新的课程标准关注学生的全面发展，赋予了语文新的难度和新的高度。促使语文教学改革从基础抓起，必须坚持课内外结合，拓展语文教学的深度和广度，借助新媒体促进教学方式的灵活多样，同时发扬传统文化，在学生中建立文化自信。　　【关键词】教育改革;语文教学;创新　　“新高考”“部编本”已经成为当今时代的热门话题。“部编本”语文教材总主编温儒敏教授曾经说过一句话“语文高考最后要实现让1

期刊

教育改革语文教学创新

重力分离SHS陶瓷内衬复合管界面现象

利用自蔓延高温合成-重力分离法制备了陶瓷内衬20碳钢、Cr25Ni20耐热钢和1Cr18Ni9Ti不锈钢高炉煤粉喷吹复合管.对其界面现象的研究表明,金属/陶瓷间的结合主要表现为机械结合

期刊

自蔓延高温合成重力分离陶瓷内衬复合管界面现象钢管陶瓷涂层SHSgravitational separationceramiclined compos

基于Spark的K-medoids聚类算法的研究

其他学术论文