基于Spark的文本谱聚类算法并行化研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:yatou5004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,互联网上的数据呈现爆炸式增长,其中大部分数据以文本信息的形式存在。在大数据的时代背景下,面对大规模的文本数据,传统的单机串行式文本聚类算法在存储和计算速度方面存在瓶颈。随着分布式计算框架(如Hadoop,Spark等)的出现,为传统的算法提供了并行化的解决方案。基于图论的谱聚类算法克服了一些传统聚类算法的缺点,能够在任意形状的样本空间得到聚类结果的全局最优解。结合谱聚类算法和分布式计算框架Spark,对大规模的文本数据集用并行化谱聚类算法进行聚类。Apache Spark是一个通用的并行计算框架,通过内存计算能极大地提高大数据计算的速度。在Spark计算框架上实现基于谱聚类算法的并行化,利用Spark计算平台的可伸缩性和基于内存计算等特点,将谱聚类算法结合Spark计算框架应用在文本聚类中,实现对海量文本数据进行并行处理和文本聚类,使谱聚类算法能够适应数据规模的扩展,并提高文本聚类的性能。相对于传统的聚类方法(如K-Means算法),实验结果显示基于图论和矩阵计算的谱聚类算法在文本聚类中的查准率、查全率以及F值等方面的聚类效果要好于其他聚类算法。结合Spark编程模型和谱聚类算法相互依赖的步骤分解,分别研究设计了并行化的文本向量间的相似矩阵计算、拉普拉斯矩阵的最小前k个特征值对应的特征向量分解和降维后的特征矩阵的K-Means聚类。分析各步骤的时间复杂度,统计不同规模集群下算法运行时间的加速比。实验结果表明,基于Spark的谱聚类算法在文本聚类中具有良好的聚类效果和运行性能。
其他文献
近些年来,影响力最大化问题已经是数据挖掘领域炙手可热的研究方向,并且普遍应用于社会网络分析。然而,现有大部分研究在寻找最具影响力的种子节点的同时忽略了一个事实,那就
P2P因其独特的优势逐渐成为Internet中重要的组成部分,但是随着P2P技术的广泛应用,暴露出严重的安全和自私问题:(1)安全问题。由于P2P网络缺少第三方的安全监管,也没有相应的
话题检测技术作为话题检测与追踪的重要组成部分,目的是要解决从文本信息流中自动识别各个未知的话题,并且能够在线发现新话题。在话题检测技术中,热点话题检测是为了识别特
自然语言(人类语言),是指一个基于文化特点的,用于正式场合正式场合的交流系统[1]。自然语言处理(计算语言学)是指应用于学习、理解和产生自然语言的计算技术[2]。统计机器翻译
学位
在典型的多核处理器(CMP,Chip Multi-Processor)体系结构中,多个处理器核共享二级高速缓存,这种方式不仅能够提高高速缓存的利用率,还能避免存储器硬件资源的浪费。在共享的
本文通过分析RS485接口的工作原理和特性,自行定义了通信协议,研究设计了基于ARM的物料分拣控制系统,该系统是以PC机为控制上位机,以ARM嵌入式控制模块为中间控制器,以AT89S5
传统的写优化数据库管理系统多数采用按行存储的方式,而对读优化的数据仓库管理系统而言,列存储表现出比行存储更加显著的性能。这是由于列存储技术是将数据表以列为单位进行
在多Agent系统中,运用Agent的自主、交互等特性来实现某个系统目标或求解大规模问题时,Agent通信是实现Agent相互作用必不可少的手段。然而由于各个Agent所拥有的知识和所处平
在构建大规模企业级应用时,采用面向服务的体系架构(SOA)不失为一种可以有效控制开销的方式。通过使用SOA,企业系统可以定义、执行分布式、跨多重服务领域的服务。然而,对于