Hadoop集群技术的优化与应用研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:YUZHOU2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网应用的发展,各大IT公司纷纷推出自己的云计算平台,并把云计算作为未来重要的发展战略之一。伴随着数据量的爆炸式增长,由于单台机器不可能完成海量数据存储和计算性能要求,如何构建分布式集群系统来处理海量数据,是云计算所面临的主要挑战之一。而由Apache软件基金会开发和推出的Hadoop,由于其高可用性,高可扩展性和高容错性,已经是目前云计算平台的主流。其中充分利用了集群的存储和高速计算,Hadoop框架实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS,以及一个基于MapReduce的并行编程模型。但由于其发展时间还不长,还有很多地方值得进一步的深入研究和改进。   HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供搞吞吐量的数据访问,非常适合大规模数据集上的应用。Hadoop MapReduce是一个使用简易的编程模型,基于它写出来的应用程序能够运行在由成千上万个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。本文对Hadoop平台下的HDFS和MapReduce分别进行了深入研究和实践。   本文通过具体分析了HDFS的架构设计,并对HDFS中的NameNode,DataNode,HDFS读写文件以及HDFS中RPC(Remote Procedure Call)机制都做了详细介绍。而为了提升Hadoop平台的启动速度,主要指NameNode的启动,本文对NameNode进行优化。NameNode启动分为两个阶段:FsImage加载和BlockReport阶段。而在FsImage加载阶段,本文通过修改NameNode源代码,使用多线程替代单线程并行读写NameNode数据持久化目录以达到提升NameNode的启动速度。   在Hadoop分布式计算平台中,如何优化MapReduce计算性能也是目前研究的一个热点问题。除了编写高性能的Map和Reduce函数,主要从优化系统框架方面提升运算性能。本文通过详细介绍MapReduce编程框架,并具体分析了MapReduce中Shuffle阶段流程。分别从Map端数据压缩,重构远程数据拷贝传输协议,Reduce端内存分配优化三方面来优化和重构Shuffle。   最后根据本文所做的研究工作,搭建了一个小型Hadoop集群,实现了基于WEB日志的分析系统(其中数据来源于搜狗实验室提供的用户搜索引擎查询日志库),主要分析用户每天搜索的时间段热度。并通过对优化前后的Hadoop版本搭建的集群,分别进行了对比实验,验证了本文对于Hadoop集群平台优化的可行性,同时性能也有显著的提升。
其他文献
随着电子技术,物联网,云计算的发展和普及,无线传感器网络成为了当今研究的重点领域。它广泛地应用于医疗,军事,环保,生活等方方面面,而无线传感器网络的定位算法又是进一步研究传感
在21世纪这个网络信息时代,计算机网络技术的发展给新一代的网络(Next Generation Network,NGN)带来了新的发展,NGN以软件换技术为其核心技术,融合多种异构网络,构建一种可为
生物信息学研究生物数据的分析处理方法。生物信息学的发展过程是分子生物学与计算机技术、数学、信息学和工程领域不断交叉与融合的过程。分子生物学在分子层面关注生命活动
基于视频序列图像的目标分类识别,是实现智能监控的重要内容。它通过运动目标检测提取研究对象,并且对检索出来的运动对象进行特征提取与描述,分析出物体本身所具备的特征,以进行
随着高性能计算的发展和互联网的普及,数字内容(视频、图像等)通过各种方式更加容易地被篡改和分发。因此,为了保护已注册的数字图像免于非法使用,图像拷贝检测在版权保护中显得
随着工业体制改革的深化和国民经济的发展,对电能质量的要求越来越高电力负荷是保证电能质量的一个基本工具特别是对未来一天或几天的短期负荷预测显得特别重要。电力负荷预测是电力系统规划和研究的组要组成部分,也是电力系统经济运行的基础,其对电力系统和规划都极其重要。目前,关于电力负荷预测的方法不断涌现,但单一的模型应用一般只能局限在一定范围内,精度性较低。研究一种通用性好且预测精度较高的电力负荷预测模型对电
聚类分析是挖掘数据中潜在结构的重要工具之一,它被广泛应用在模式识别、生物科学、社会科学、心理学和数据挖掘等领域中。在网络结构分析、无线传感器网络和生物信息处理等领
近年来,随着经济的快速发展和车辆的日益增加,道路交通状况的日益严重。为了改善交通控制的问题,基于视频的智能交通监控系统已逐渐成为当前研究的重点和热点问题。基于视频的交
随着互联网技术的不断发展,网络规模逐渐增大并涌现出各种新的网络应用(如P2P、IPTV等)。这些新型流量的急速增长一方面造成严重的带宽负担,加剧网络的拥塞状况;另一方面恶意流量