论文部分内容阅读
文本分类技术作为文本处理的关键技术,在信息检索、内容过滤和主题建模等方面有着广泛应用。但随着文本数据的不断增加,传统文本分类技术分类效率低、准确率下降等弊端日益凸显,尤其无法满足对海量数据的处理需求。同时,集中式数据处理架构已不适用于当前大数据的处理和存储。因此,并行分布式计算框架的出现为该问题的解决打开了新局面。基于目前并行分布式计算框架的日臻成熟,本文在对文本分类理论知识研究的基础上,以提高K-最近邻(K-Nearest Neighbors,KNN)文本分类算法的分类性能为出发点,结合Spark框架实现文本分类的并行化。本文主要做了以下工作:第一,对文本分类的相关技术和并行分布式计算的基本原理进行了研究与总结。首先介绍了文本分类的基本概念以及关键处理技术,然后对Spark计算框架的体系结构和核心内容RDD进行了详细说明,并以此为理论基础展开对并行化文本分类算法的研究。第二,在对KNN文本分类算法的研究中我们发现,KNN文本分类算法相似度计算复杂、冗余性高,对大数据的处理速度较慢。因此,提出了基于Spark框架与聚类优化的高效KNN分类算法。该算法首先利用引入收缩因子的优化K-medoids聚类算法对训练集进行两次裁剪降低KNN相似度计算的冗余性。并在分类过程中迭代K值获得分类结果,结合Spark计算框架内存计算的机制对数据进行分区迭代实现并行化。第三,通过对文本分类的并行化实验发现,并行化中的分区处理对KNN文本分类结果的准确率有一定影响。因此,提出了基于Spark框架与词语相关度优化的高效KNN分类算法。在实现算法的并行化过程中,结合词语相关度概念,建立新的距离计算机制,对相似度计算进行优化。该算法在提高KNN文本分类算法分类效率的同时,提高了文本分类的准确率。总之,本文在分析文本分类以及并行分布式计算理论的基础上,重点研究了Spark框架下的KNN文本分类算法优化及其应用。实验结果表明,本文研究成果对解决大数据环境下分类效率下降、准确度低等问题有一定的积极作用,提高了KNN文本分类的效率和准确率,可对大规模文本数据集进行有效的分类处理。