并行化文本分类算法研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:fightwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类技术作为文本处理的关键技术,在信息检索、内容过滤和主题建模等方面有着广泛应用。但随着文本数据的不断增加,传统文本分类技术分类效率低、准确率下降等弊端日益凸显,尤其无法满足对海量数据的处理需求。同时,集中式数据处理架构已不适用于当前大数据的处理和存储。因此,并行分布式计算框架的出现为该问题的解决打开了新局面。基于目前并行分布式计算框架的日臻成熟,本文在对文本分类理论知识研究的基础上,以提高K-最近邻(K-Nearest Neighbors,KNN)文本分类算法的分类性能为出发点,结合Spark框架实现文本分类的并行化。本文主要做了以下工作:第一,对文本分类的相关技术和并行分布式计算的基本原理进行了研究与总结。首先介绍了文本分类的基本概念以及关键处理技术,然后对Spark计算框架的体系结构和核心内容RDD进行了详细说明,并以此为理论基础展开对并行化文本分类算法的研究。第二,在对KNN文本分类算法的研究中我们发现,KNN文本分类算法相似度计算复杂、冗余性高,对大数据的处理速度较慢。因此,提出了基于Spark框架与聚类优化的高效KNN分类算法。该算法首先利用引入收缩因子的优化K-medoids聚类算法对训练集进行两次裁剪降低KNN相似度计算的冗余性。并在分类过程中迭代K值获得分类结果,结合Spark计算框架内存计算的机制对数据进行分区迭代实现并行化。第三,通过对文本分类的并行化实验发现,并行化中的分区处理对KNN文本分类结果的准确率有一定影响。因此,提出了基于Spark框架与词语相关度优化的高效KNN分类算法。在实现算法的并行化过程中,结合词语相关度概念,建立新的距离计算机制,对相似度计算进行优化。该算法在提高KNN文本分类算法分类效率的同时,提高了文本分类的准确率。总之,本文在分析文本分类以及并行分布式计算理论的基础上,重点研究了Spark框架下的KNN文本分类算法优化及其应用。实验结果表明,本文研究成果对解决大数据环境下分类效率下降、准确度低等问题有一定的积极作用,提高了KNN文本分类的效率和准确率,可对大规模文本数据集进行有效的分类处理。
其他文献
在研究不断变化着的现实世界时,时间是一个非常重要的因素。我们常以时间为依据来解释各种事实和数据,因为各种事件和实体间的潜在关系常常蕴涵在时态信息中。时态信息表达和时
雨量等值线是平面地图上降雨量相等的点所连成的线,它根据流域内各雨量站一次降雨量值或时段降雨量值绘制而成,等值线图以直观、清晰的特点成为各级政府及防汛部门决策的重要
客户/服务器结构是由集中式处理过程过渡到分布式处理的有效途径.不同的数据库系统之间往往难以共享数据、缺乏可互操作性,在传统的客户/服务器两层体系结构中间加入一个中间
移动Ad hoc网络(MANET),是由一组移动的无线节点组成的临时自治系统。随着个人通信网络的普及,以及军事和抢险救灾等方面的需要,MANET已经成为当前研究的热点之一。但是由于
服务提供商在支持IP服务方面面临着挑战,这需要他们能够使现有的网络具有流量工程管理。服务提供商要求IP over ATM这种方式下的流量工程在纯IP结构的网络中也要得到实现,MPL
面对日益复杂的软件系统,软件复用被认为是解决“软件危机”、提高软件开发效率和质量、实现软件产业工业化生产方式的重要途径。领域工程是可复用资源基础设施建设的主要技
云计算作为一种新的服务交付和使用模式,旨在为用户提供安全、快速、便捷的数据存储与网络计算服务。同时,动态扩展和按需付费等特性使得它很好地满足了控制服务成本和降低能
在计算机系统在电力企业得到广泛应用的今天,企业领导者们遗憾地认识到这样一种现象:建设一个计算机系统的高投入与系统运行后的低产出极不成比例。现在企业普遍采用的管理信息系统(MIS)共同存在的特点就是:需要网络支持,需要较多硬件投入,软件维护工作量大。建设了成体系的网络结构,大量前台机,工作站及高档次计算中心,高速采集并大量存储各种数据。而得到的应用无非是各种账单、文件、报表等等。因此对企业重大决策产
智能教学系统(IntelligentTutoringSystem,ITS)作为人工智能学科的重要研究应用领域是21世纪人类社会数字化教育的必然发展方向,迄今研究逾30年。传统ITS研究由于知识表示以及
针对SoC软硬件划分问题,本文采用了一种改进的多目标粒子群算法。该算法采用实数编码,通过自定义的多对一映射函数,把实数编码空间中的元素映射到处理单元空间,从而可以使粒子的