基于Hadoop的文本聚类算法的优化研究与实现

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:zhoulina1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年,计算机技术以及网络通信技术发展的非常迅速,互联网应用也越来越普遍,极大的改善了人们的生产以及生活方式。互联网使得信息的传递更加的高效,它成为了一种重要的信息来源和载体,网络上已经存储了非常多的数据,并且数据正在以非常快的速度增长。从互联网上获得的数据,很多都是文本数据,面对海量的文本数据,如何从海量的文本数据中挖掘出有价值的信息,对很多计算机科学研究者来说都是一项艰巨而重大的任务。在数据挖掘技术中聚类是一种非常重要的数据处理方法,同时在机器学习以及其他领域中聚类也发挥着非常重要的作用。文本聚类在信息检索和数据挖掘领域中具有重要的研究价值,同时为管理和处理海量的文本信息提供了一种有效的解决方案,是一种重要的数据处理方法。由于现在互联网信息化程度比较高,每天都会产生大规模且具有多样性的文本数据,数据正在以指数级别的速度快速的增长,在单台计算机上采用串行的数据处理方法,仅仅依靠不断的提高单台计算机的性能,不能有效的对大规模的离线文本数据进行存储和计算,难以应对具有较高要求的海量数据处理的复杂任务,需要采用云计算的思想和有关技术来帮助解决大规模数据的处理问题。Hadoop是一个云数据处理平台,其集群并行的工作方式使其具备了海量数据的存储能力以及快速处理能力。传统的聚类算法有其自身的特点和局限性,需要根据其自身的特点,充分利用Hadoop的MapReduce分布式计算模型,实现算法的并行化并对算法进行优化,使其可以高效的处理海量的离线文本数据。  本文首先介绍 Apache下开源项目 Hadoop的有关内容与原理,然后对Hadoop的可靠的海量数据存储与并行计算这两个比较重要的技术进行了详细的研究。研究了文本聚类处理有关内容与原理,以及文本信息处理过程中采用的一些重要方法。介绍了文本聚类的有关算法,对常用的K-Means算法进行了深入的研究与分析,同时也深入研究了另外一种非传统聚类算法Canopy算法,根据这两种算法各自的优点和缺点提出了一种改进优化的措施,并且根据Hadoop的分布式计算思想对相关的算法进行设计与优化,使其能够高效的处理海量的离线数据。设计和实现并行的文本聚类算法,搭建Hadoop集群实验环境,对实验的数据进行预处理,使其符合实验的要求,然后通过相关的实验来检验优化后的聚类算法的聚类的质量和性能。从实验结果可以看出,以Hadoop平台为基础,实现的处理文本数据的聚类算法具有较高的处理效率和非常好的扩展性,优化和改进后的算法在数据处理的速度和准确度上有一定的提高,而且在对大规模的文本数据进行处理的时候,具有非常高的效率。
其他文献
随着数据库技术的飞速发展及数据库管理系统的广泛应用,数据库不仅在数量上快速增长,规模也越来越大。激增的数据背后隐藏着许多重要的信息,对其进行更高层次的分析,能促进信息的
。 本文就客户管理系统中的几个相关要点:客户维系管理、客户挽留管理和离网客户管理等展开分析论述。较为详细地说明了与要点相关的几个功能模块的结构和需求,以及各个环节
XML(ExtensibleMarkupLanguage)是用于表示Web上数据和文档的通用标记语言,在很短的时间内就获得了广泛的认同,已经成为网络环境下主要数据交换的标准之一。目前大量计算机应用
随着经济信息化和全球化,市场竞争越来越激烈,组织机构要想在竞争中求得生存,就必须设法降低经营成本,快速开发和提供新的产品和服务,为了提高企业竞争力,越来越多的企业开始使用工
近年来,随着第三方物流行业的迅速发展,第三方物流企业间的竞争也日益加剧。如何实施客户策略以便在激烈的市场竞争中立于不败之地,是企业目前最为关注的问题。通过对企业客户进
论文综述了中文文本分类中自动分词、文本表示、特征选取和分类模型几个部分的研究现状和研究方法。每个部分都有多种实现技术,不同的实现方法对分类系统性能的影响也不同。如
本文主要研究了在J2EE平台下基于WEB服务的动态电子商务模型及其相关技术。首先对J2EE及其相关技术进行了深入分析,研究了J2EE的架构、组件、容器以及服务技术,重点介绍了J2EE
随着全球证券市场地发展,借助现代的科技手段,交易方式也在演变,原来由交易员场内撮合或者通过场外电子化交易平台手动下单的方式不能快速捕捉交易机会,因此程序化交易应运而生。
分布式交互应用是允许分散在不同地点的多个参与者能实时进行交互的网络系统,它的交互质量很大程度取决于网络延迟。在大规模分布式交互应用中用户位置的广泛分布通常需要服务
Internet的迅速发展使得WWW已经深入到社会生活的方方面面,网上的数据资源空前丰富。面对着庞大的信息,如何能够让用户及时地发现有用的信息则变得越来越困难,而对于网站,想及时