基于Spark的CLARANS算法并行化实现及优化

来源 :浙江大学 | 被引量 : 0次 | 上传用户：aaasdna123

【摘要】

：

在当今移动互联网时代，每天都会产生海量的数据，在这些数据中蕴含着巨大的价值，而如何从中发掘出有价值的信息已经成为一个相当重要的研究课题。在传统计算机上处理这些海量数据

【作者】

：

翁旭

【机构】

：

浙江大学

【出处】

：

浙江大学

【发表日期】

：

2018年期

【关键词】

：

大数据处理并行计算 CLARANS算法 Spark平台

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在当今移动互联网时代，每天都会产生海量的数据，在这些数据中蕴含着巨大的价值，而如何从中发掘出有价值的信息已经成为一个相当重要的研究课题。在传统计算机上处理这些海量数据需要耗费大量的时间，满足不了如今的商业所需。为了解决该问题，本文在传统单机聚类算法的基础上，结合并行计算平台Spark对其进行了并行化设计实现与优化。　　CLARANS（Clustering Large Application based upon Randomized Search）算法是一种被广泛应用的基于划分的聚类算法，该算法鲁棒性较好，对噪声（离群点）不敏感，且算法运行时数据的输入顺序不影响聚类的结果。但是该算法有比较高的时间复杂度，难以用于处理海量数据。同时算法本身存在聚类簇数难以确定、聚类结果依赖初始中心点选择且易陷入局部最优等问题，算法聚类效率不高且难以保证聚类稳定性。　　本文首先对聚类算法的国内外研究现状进行了综述，在此基础上对聚类算法在并行化方面的研究展开了讨论，进一步又对基于遗传算法的聚类算法优化问题进行了分析。接着详细分析了Spark计算框架的主要概念和原理以及分布式文件系统HDFS的原理。同时，概括分析了聚类算法的相关知识点，为论文后续研究提供了坚实的理论基础。　　然后针对算法复杂度较高的问题，提出一种基于Spark平台的并行化SP-CLARANS算法，利用Spark集群基于内存的计算速度优势提高算法的运行效率和数据集处理的规模。针对算法对初始中心点敏感难以获得全局最优的问题提出一种利用并行化遗传算法进行优化的SPGA-CLARANS算法，结合Spark的特性对此算法的染色体编码、选择、交叉和变异算子进行了设计和改进，将遗传算法的全局搜索能力和SP-CLARANS算法的局部搜索能力相结合提高了改进算法聚类质量和稳定性。　　最后本文搭建Spark集群进行仿真实验，在集群独立运行模式下利用UCI真实数据集验证算法的准确性和稳定性，接着利用不同规模的人工数据集验证算法的聚类效率，并在大数据集上验证本文算法的并行性能。实验结果表明，本文提出的改进并行化算法具有较高的聚类准确率、聚类效率和并行性能，对于解决传统聚类算法处理海量数据的瓶颈问题，有一定的积极作用。

其他文献

石墨烯涂层织物的制备及其导电性能研究

利用化学还原的方法制备石墨烯涂层织物属于一个比较新的研究领域，这种技术可使织物获得导电性。本课题通过试验，探究石墨烯涂层织物（棉织物、涤纶织物）的制备方法与技术，最终以氧

学位

氧化石墨烯涂层织物导电性能化学还原制备工艺

Intra-Oceanic Subduction of the Paleo-Asian Oceanic Slab: New Evidence from the Early Carboniferous

ObjectivernLate Paleozoic supra-subduction zone (SSZ)-type ophiolites and intra-oceanic arc igneous petrotectonic assemblages are developed in the Erenhot—Hege

期刊

如何在生物教学中实施素质教育

素质教育是一种全新的教育思想和教育观念，它以提高全民族整体素质为目标，以激发学生学习的主体意识，充分发挥学生的学习积极性和主动精神为切入点，挖掘学生的内在潜能，发展学生的

期刊

生物教学全面实施素质教育培养学生综合能力素质教育思想生物教育工作者思想道德素质民族整体素质面向全体学生科学文化素质进行素质教育学习积极性改

传统经济管理思想对当代经济管理的影响分析

在我国经济管理活动开展中,经济管理思想具有重要的意义与作用.经济管理的管理方式相对复杂,是人文、自然、社会等多方面知识的综合.需要与实际社会经济发展情况相结合进行经

期刊

传统经济管理思想当代经济管理影响分析

非离子型混合反胶束体系在羊毛酸性染料染色中的应用

本文使用非离子表面活性剂辛基酚聚氧乙烯醚（TX-100）、失水山梨醇脂肪酸酯(Span80)、正辛醇和异辛烷制各了TX-100/Span80非离子型混合反胶束体系。并将其作为介质应用于三种酸

学位

非离子型混合反胶束酸性染料羊毛纱线染色工艺

男装面料流行趋势的预测方法

论文心理学分析阶段主要通过观察法、自然实验法和比较分析法进行研究;销售市场分析常使用的是数理统计的方法，计算样本的均值，筛选大于均值的样本进行进一步分析;色彩趋势预测

学位

男装面料消费需求流行趋势预测流程

Discovery of a ～1.37 Ga Granite in the Eastern Part of the Northern Margin of the North China Craton

ObjectivernDiabase sills with baddeleyite/zircon U-Pb ages of ～1.32 Ga have been found in many areas of the North China Craton (NCC) (Peng,2015).Some researchers

期刊

现代中式家具设计中的传统装饰

在设计思想逐渐趋向民族潮化发展下,将传统元素引入现代中式家具的设计中已是极为广泛.传统装饰能够使得中式家具设计更多样化、多元化、简洁化,使得家具更富有文化内涵和显

期刊

中式家具设计传统装饰现代

服装造型设计与人体运动适应性的研究

该论文研究的重点是服装造型设计与人体运动之间相适应的问题,将服装设计与人体功效学两门学科的内容相结合,从服装设计的视角,进行服装功效学范畴中运动性着装内容的研究.

学位

服装造型设计人体运动人体空间动态性空间

PVDF防污自洁膜的制备与表征

膜结构建筑具有造价低、节能、环保、抗震和缩短施工时间的优点，被称为“21世纪的绿色建筑”。由于使用了柔性的膜材料，具有“力随形”的特征，满足建筑的美学造型，常作为城市标志

学位

PVDF膜材荷叶效应模板法等离子体防污自洁性能分形理论

基于Spark的CLARANS算法并行化实现及优化

与本文相关的学术论文