论文部分内容阅读
近些年,计算机技术以及网络通信技术发展的非常迅速,互联网应用也越来越普遍,极大的改善了人们的生产以及生活方式。互联网使得信息的传递更加的高效,它成为了一种重要的信息来源和载体,网络上已经存储了非常多的数据,并且数据正在以非常快的速度增长。从互联网上获得的数据,很多都是文本数据,面对海量的文本数据,如何从海量的文本数据中挖掘出有价值的信息,对很多计算机科学研究者来说都是一项艰巨而重大的任务。在数据挖掘技术中聚类是一种非常重要的数据处理方法,同时在机器学习以及其他领域中聚类也发挥着非常重要的作用。文本聚类在信息检索和数据挖掘领域中具有重要的研究价值,同时为管理和处理海量的文本信息提供了一种有效的解决方案,是一种重要的数据处理方法。由于现在互联网信息化程度比较高,每天都会产生大规模且具有多样性的文本数据,数据正在以指数级别的速度快速的增长,在单台计算机上采用串行的数据处理方法,仅仅依靠不断的提高单台计算机的性能,不能有效的对大规模的离线文本数据进行存储和计算,难以应对具有较高要求的海量数据处理的复杂任务,需要采用云计算的思想和有关技术来帮助解决大规模数据的处理问题。Hadoop是一个云数据处理平台,其集群并行的工作方式使其具备了海量数据的存储能力以及快速处理能力。传统的聚类算法有其自身的特点和局限性,需要根据其自身的特点,充分利用Hadoop的MapReduce分布式计算模型,实现算法的并行化并对算法进行优化,使其可以高效的处理海量的离线文本数据。 本文首先介绍 Apache下开源项目 Hadoop的有关内容与原理,然后对Hadoop的可靠的海量数据存储与并行计算这两个比较重要的技术进行了详细的研究。研究了文本聚类处理有关内容与原理,以及文本信息处理过程中采用的一些重要方法。介绍了文本聚类的有关算法,对常用的K-Means算法进行了深入的研究与分析,同时也深入研究了另外一种非传统聚类算法Canopy算法,根据这两种算法各自的优点和缺点提出了一种改进优化的措施,并且根据Hadoop的分布式计算思想对相关的算法进行设计与优化,使其能够高效的处理海量的离线数据。设计和实现并行的文本聚类算法,搭建Hadoop集群实验环境,对实验的数据进行预处理,使其符合实验的要求,然后通过相关的实验来检验优化后的聚类算法的聚类的质量和性能。从实验结果可以看出,以Hadoop平台为基础,实现的处理文本数据的聚类算法具有较高的处理效率和非常好的扩展性,优化和改进后的算法在数据处理的速度和准确度上有一定的提高,而且在对大规模的文本数据进行处理的时候,具有非常高的效率。