基于Spark的文本谱聚类算法并行化研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：yatou5004

【摘要】

：

随着信息技术的飞速发展,互联网上的数据呈现爆炸式增长,其中大部分数据以文本信息的形式存在。在大数据的时代背景下,面对大规模的文本数据,传统的单机串行式文本聚类算法在

【作者】

：

吴浩

【机构】

：

华中科技大学

【出处】

：

华中科技大学

【发表日期】

：

2016年期

【关键词】

：

Spark 文本聚类谱聚类并行化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术的飞速发展,互联网上的数据呈现爆炸式增长,其中大部分数据以文本信息的形式存在。在大数据的时代背景下,面对大规模的文本数据,传统的单机串行式文本聚类算法在存储和计算速度方面存在瓶颈。随着分布式计算框架(如Hadoop,Spark等)的出现,为传统的算法提供了并行化的解决方案。基于图论的谱聚类算法克服了一些传统聚类算法的缺点,能够在任意形状的样本空间得到聚类结果的全局最优解。结合谱聚类算法和分布式计算框架Spark,对大规模的文本数据集用并行化谱聚类算法进行聚类。Apache Spark是一个通用的并行计算框架,通过内存计算能极大地提高大数据计算的速度。在Spark计算框架上实现基于谱聚类算法的并行化,利用Spark计算平台的可伸缩性和基于内存计算等特点,将谱聚类算法结合Spark计算框架应用在文本聚类中,实现对海量文本数据进行并行处理和文本聚类,使谱聚类算法能够适应数据规模的扩展,并提高文本聚类的性能。相对于传统的聚类方法(如K-Means算法),实验结果显示基于图论和矩阵计算的谱聚类算法在文本聚类中的查准率、查全率以及F值等方面的聚类效果要好于其他聚类算法。结合Spark编程模型和谱聚类算法相互依赖的步骤分解,分别研究设计了并行化的文本向量间的相似矩阵计算、拉普拉斯矩阵的最小前k个特征值对应的特征向量分解和降维后的特征矩阵的K-Means聚类。分析各步骤的时间复杂度,统计不同规模集群下算法运行时间的加速比。实验结果表明,基于Spark的谱聚类算法在文本聚类中具有良好的聚类效果和运行性能。

其他文献

基于多话题的大规模社会网络影响力最大化研究

近些年来,影响力最大化问题已经是数据挖掘领域炙手可热的研究方向,并且普遍应用于社会网络分析。然而,现有大部分研究在寻找最具影响力的种子节点的同时忽略了一个事实,那就

学位

影响力最大化大规模社会网络多话题敏感的传播模型地理位置并行化

P2P环境中基于簇的信誉研究

P2P因其独特的优势逐渐成为Internet中重要的组成部分,但是随着P2P技术的广泛应用,暴露出严重的安全和自私问题：(1)安全问题。由于P2P网络缺少第三方的安全监管,也没有相应的

学位

P2P信誉簇安全信任网络

基于聚类分析的网络论坛热点话题检测

话题检测技术作为话题检测与追踪的重要组成部分,目的是要解决从文本信息流中自动识别各个未知的话题,并且能够在线发现新话题。在话题检测技术中,热点话题检测是为了识别特

学位

网络论坛信息抽取特征选择文本聚类热点话题检测

连续空间模型下的统计机器翻译

自然语言(人类语言)，是指一个基于文化特点的，用于正式场合正式场合的交流系统[1]。自然语言处理（计算语言学)是指应用于学习、理解和产生自然语言的计算技术[2]。统计机器翻译

学位

统计机器翻译连续空间特征提取双语图语义自动学习

Hadoop的安全加固研究与实现

学位

CMP中共享L2Cache失效预测算法研究

在典型的多核处理器(CMP,Chip Multi-Processor)体系结构中,多个处理器核共享二级高速缓存,这种方式不仅能够提高高速缓存的利用率,还能避免存储器硬件资源的浪费。在共享的

学位

单芯片多处理器二级高速缓存堆栈处理循环序列

基于ARM的物流分拣控制系统研究

本文通过分析RS485接口的工作原理和特性,自行定义了通信协议,研究设计了基于ARM的物料分拣控制系统,该系统是以PC机为控制上位机,以ARM嵌入式控制模块为中间控制器,以AT89S5

学位

ARMLogisticsU-BOOTLINUX内核分拣作业电子标签

压缩的列存储数据的查询优化研究与实现

传统的写优化数据库管理系统多数采用按行存储的方式,而对读优化的数据仓库管理系统而言,列存储表现出比行存储更加显著的性能。这是由于列存储技术是将数据表以列为单位进行

学位

列存储数据压缩数据解压查询优化

MAS中基于本体的通信技术研究研究及其应用

在多Agent系统中，运用Agent的自主、交互等特性来实现某个系统目标或求解大规模问题时，Agent通信是实现Agent相互作用必不可少的手段。然而由于各个Agent所拥有的知识和所处平

学位

多Agent系统通信技术消息格式语义化查询

基于SOA的监管诊断模型与算法的研究

在构建大规模企业级应用时,采用面向服务的体系架构(SOA)不失为一种可以有效控制开销的方式。通过使用SOA,企业系统可以定义、执行分布式、跨多重服务领域的服务。然而,对于

学位

SOA故障诊断可计量监管贝叶斯推理事件驱动

基于Spark的文本谱聚类算法并行化研究

其他学术论文