面向高性能计算平台的Hadoop框架研究及优化

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:liutengyun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化时代的发展,各种各样的数据随之而来,数据结构多样化以及数据规模对相关技术提出了巨大挑战。对于处理大数据的许多应用,MapReduce编程框架的优势很明显,在谷歌、阿里巴巴等国内外著名互联网公司得到很好的应用。目前高性能计算机的性能不断提高,在生物、天体物理学等领域得到广泛应用。因此,能否充分利用现有的高性能计算平台并在其上高效部署和使用MapReduce编程框架成为了人们关注的热点研究问题。本文在高性能计算机上成功部署MapReduce编程框架的基础上,分析其在I/O过程以及任务调度中存在的问题,对存在的问题深入剖析,并提出优化方法。本文的研究工作主要包括以下几个方面。(1)研究了面向高性能计算平台的Hadoop框架涉及的理论和技术,对MapReduce编程模型以及主要I/O过程进行深入的分析。MapReduce编程模型直接部署在高性能计算机上,会产生兼容性、数据本地化优势减少和I/O竞争加剧等问题。目前该课题研究主要集中在对中间数据网络传输和存储方式的优化,取得了一定的效果。本文结合目前研究成果,对任务调度和存储资源管理等方面进行进一步优化。(2)对于面向对象存储系统高性能计算机的Hadoop平台,提出一种基于节点网络内存的shuffle过程优化策略,并设计了任务调度和文件系统两个层次的实现方法。同时针对共享文件系统处理中间数据和临时数据的I/O效率问题,提出了一种基于均衡调度的高性能计算平台的Hadoop框架I/O优化方法。通过分析各存储节点的I/O负载信息,实时选择存储目标,从而实现存储系统的动态负载均衡。(3)对于面向多层存储架构高性能计算机的Hadoop平台,提出了一种I/O加速节点多分组的任务调度方法,利用节点对应不同reduce任务中间结果量优化调度策略。对于多作业的情况,提出了基于存储服务隔离的I/O服务质量维护方法,为高优先级的作业提供独立存储服务,保证存储服务质量。(4)在对象存储系统高性能计算机和多层存储架构高性能计算机的模拟实验环境中分别对上述几类优化方法进行实验验证。通过与现有方法进行对比,验证优化方法的效果,并对实验结果进行深入分析。
其他文献
室外移动机器人定位技术是智能移动机器人的一个研究热点。随着多传感器信息融合的发展,将其应用到机器人定位中成为一种趋势。本论文主要是对Kalman滤波和H_∞滤波算法进行研
未来网络正朝着业务融合、网络融合与技术融合的方向发展,其中IP网络和电信网络的融合已经成为不可阻挡的趋势,基于软交换的下一代网络(Next Generation Network,NGN)成为研究热
对分布式的异构数据信息进行集成一直是计算机业界所关注的技术,同时也是社会经济发展中商务活动的需求。随着信息技术,特别是Internet的飞速发展,Internet逐渐成为商务活动
拆装式桥梁平时抢险和战时抢修存在的主要问题是:只有储备的杆件和桥梁图纸,没有拼装培训的实用教材和拼装培训教具,也没有可供执行的拼装技术作业顺序来指导实施桥梁拼装。
三维地理信息系统中视觉信息如何可视化输出一直都是该领域研究的重点,许多应用领域如虚拟现实、军事演习、网络游戏等都要求三维场景能够按照用户的要求动态显示。而随着计算
随着网络技术的不断发展,基于网络的E-Learning正在改变着人们学习知识的方式,越来越多的学习者渴望通过更加个性化和智能化的方式来获取知识。与此同时,海量的散布在网络上
随着基于可重配置计算技术的FPGA器件等的快速发展和普遍使用,一些计算密集型任务可以在FPGA上灵活的实现并执行,硬件任务作为一个和软件任务等同的概念出现在系统设计中,使传统
随着集群系统的需求越来越大,集群系统方案的开发越来越受到重视,特别是中小规模的通用服务器集群设计。基于U 盘的服务器集群系统方案就是针对中小规模通用服务器集群来进行研
椭圆曲线密码系统的安全性建立在椭圆曲线离散对数问题的难解性上。同其它公钥密码系统相比,它的执行速度快、密钥长度短、安全性高,因而日益受到人们的关注,成为公钥密码学
WWW(简称Web)和无线局域网是近年来发展最快、最激动人心的网络技术。Web由于其操作简便、功能丰富,使得Internet真正实现了大众化。与此同时,无线通信技术迅速普及,越来越多的