基于Spark的分布式聚类算法研究及其在社交媒体分析中的应用

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:xuxiaohua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的快速发展,传统的机器学习算法面临数据量的挑战,巨大规模的数据计算仅仅依靠摩尔定律是不够的,而云计算的发展和分布式平台的开发,使得将全部数据投入进行分析计算变成可能。作为互联网时代的典型成功案例,社交媒体成为大数据的重要数据来源,而这些社交媒体数据中蕴含着许多有价值的信息。本文基于Spark并行框架设计并实现了并行聚类算法,并将并行聚类算法应用在了微博数据的分析系统上,实现了微博数据的聚类推荐,本文主要内容如下:首先,简要的介绍了聚类算法和本文实现算法密切相关的聚类算法,介绍了分布式计算框架的原理并着重介绍了 Spark。其次介绍了三种聚类算法原理,阐述了其并行化算法的设计与改进:分布式的CLARA算法,分布式DisAP算法,分布式的p-CLOPE算法。对实现的分布式聚类算法进行了相关的有效性、并行化加速比的对比实验。实验结果表明,算法保证了有效性的同时在Spark环境下对大数据处理也能取得良好的加速效果。然后在这三种聚类算法的基础上,搭建了微博数据聚类分析原型系统,介绍了原型系统的系统架构、设计实现。对微博数据处理的过程包括数据获取、数据预处理、特征提取和聚类过程进行了阐述。之后应用系统,进行微博的聚类分析并对话题的聚类结果进行了分析。最后介绍了 BDAP大数据挖掘平台组件包括平台结构、组件集成机制。对聚类算法的集成做了详细介绍,包括各个模块的集成方式、模块设计与实现,并最终规范化的集成到系统中。
其他文献
为了更高效地实现多核片上系统(MPSoC)温敏布图设计和实时功耗温度管理,采用自下而上的建模方法,提出MPSoC结构级热分析方法.首先采用HotSpot热分析软件提取功能模块之间的相关热阻参数;然后基于这些参数,提出模块级方法BloTAM、核级方法CorTAM和考虑本核内模块相互影响的改良核级方法BiCorTAM 3种具有不同复杂度与精度的热分析方法,它们均具有简单、高效、与现有简化模型兼容、易于
合成了化合物2-氰基-2-甲硫基-3-芳氨基丙烯酸乙酯,产物结构通过^1HNMR和元素分析证实。测定了所有化合物的Hill反应抑制活性。生物活性测定结果表明,部分化合物均表现出良好的抑制性,初步分析了标
具有电子给体(D)和电子受体的给-受体(D-π-A)分子, 由于在光诱导下可以产生分子内电荷转移(ICT)激发态, 可作为非线性光学和光电转换等材料[1,2]. D-π-A分子由于共轭体系一
用自旋俘获方法直接检测含铁的黄嘌呤氧化酶/次黄嘌呤体系中由糖产生的自由基,发现该体系中除了产生羟基自由基外,还产生烷(氧)基自由基,且糖的浓度越高,体系中产生的烷(氧)基自由基也
铁路运输在沙漠、戈壁及沙地等地区发挥着独一无二的巨大作用,可是由于自然环境制约,铁路路堤的建设和维护始终面临着风沙流的侵蚀,严重影响着线路的正常运行。针对不同地区
7月1日,浙江省贸促会与美国佐治亚州经济发展署在杭州共同举办了投资美国咨询会。会前,浙江省贸促会会长铁建设会见并宴请了以美国佐治亚州经济发展署国际投资与商务部总监马克
针对传统三维矢量场纹理映射方法中矢量场方向信息表现不明确的问题,在经典冷暖光照模型基础上,提出了基于冷暖源的渐变光照模型和基于噪声中心的冷暖光照模型.首先应用Halton序列和Gauss滤波生成稀疏噪声,然后引入冷暖源、距离因子等概念,分别通过距离因子控制和基于纹理片元噪声变化的规律,实现了由纹理冷暖色温的变化来清晰地反映矢量场方向信息.实验结果表明,文中提出的2种光照模型均能够通过冷暖色温的变化
目的:探讨同源盒基因Nkx6.2在因甲状腺素缺乏导致脑发育迟滞过程中的分子作用机制,获得能穿过血脑屏障的并跨膜进入细胞核的TN-Nkx6.2重组蛋白。本文旨在观察同源盒基因Nkx6.2