基于存储驱动的Hadoop节能调度策略研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zhang1xiao123321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
二十一世纪是信息的时代,信息传输伴随着数据量的增加,人们逐渐发现隐含在这些海量数据下的价值,于是用于分析处理海量数据的平台应运而生,Hadoop便是这其中最经典的海量数据处理框架。Hadoop需要构建一个庞大的数据节点集群,通过HDFS,Yarn,Map Reduce等组件实现海量数据的高效并行计算。然而近年来二氧化碳等温室气体的排放量逐年增加,导致了全球温室效应日益严重,与此同时大规模数据中心需要庞大的服务器集群作为支撑,以及大规模的制冷设备会消耗大量的能量以及企业成本开销,使得数据中心的节能减排问题越来越受到重视,基于这些原因使得Hadoop节能研究变得十分必要。本文通过对Hadoop自带的随机选择存储策略和磁盘轮询存储策略两种副本存储策略深入剖析,找出两种策略在能耗控制方面的缺陷,同时结合数据本地化的Hadoop任务调度原则,本文提出一种策略,即通过数据本地化原则将任务的调度问题转化为数据块副本的调度问题,创新的设计出一种基于存储驱动的Hadoop节能调度策略,同时构建出两层副本存储策略来控制集群负载均衡以及能量消耗,作为本文设计的节能调度策略的核心。本文设计的节能策略可以实现Hadoop集群任务的运行时间和总体能耗两个维度上的节能。该策略核心是两层副本存储策略。其中第一层副本存储策略根据数据节点磁盘的剩余容量,读写操作引用数实现两层算法,通过实现负载均衡提高集群整体性能,从而减少任务的运行时间。第二层副本存储策略主要考虑任务本身的种类特征以及任务所在数据节点的实时状态,通过对任务特征任务与数据节点的实时状态进行匹配,使任务被分配到能耗最少的数据节点上执行,从而达到减少集群能耗的目的。最后本文通过Xen Server平台搭建了具有32个数据节点的Hadoop集群环境,首先通过两组实验得出了本文设计的能量度量模型理论推导公式的近似参数,接下来将本文设计的节能调度策略与Hadoop自带的随机选择和磁盘轮询存储策略相对比,用三组对比实验证明了本文设计的节能调度策略在控制数据节点磁盘负载均衡方面具有较好地调节能力,可以相对减少Hadoop集群任务的总体运行时间,并且可以有效降低Hadoop集群的能量消耗。
其他文献
随着国内数据库技术的不断进步和数据库系统的广泛应用,数据库管理系统的ODBC标准符合度,渐渐成为衡量数据库管理系统质量和性能的重要标准。对数据库产品进行ODBC标准符合性
HTTPS是网络中应用最多的Web安全协议之一,主要用于保护用户的数据与隐私安全,解决了HTTP报文传输过程中的安全问题。然而不法分子基于该协议安全性高的特点,利用HTTPS页面散
随着企业信息化、自动化的不断深入,企业不同部门之间的信息共享越来越频繁,因此我们也面临着这样的一个困境:由于信息化进程的不同步,不同企业之间进行数据交换与同步会产生
随着网络技术和多媒体技术的飞速发展,家庭多媒体特别是音频、视频点播服务的应用越来越广泛,视频点播服务已发展成为信息服务中的重要组成部分。音视频点播服务(VOD)的显著
计算机电话集成技术CTI,充分利用了计算机来处理相关电话业务。由于计算机系统固有的低成本、高性能和丰富灵活的平台软件,更随着信息产业(IT)的蓬勃发展,CTI相关产业更加得
基于类中心确定隶属度函数的模糊支持向量机能有效地解决支持向量机对噪声或孤立点敏感度高的问题,但是,由于它对支持向量赋予较小的隶属度,从而降低了其分类作用。基于此,提
在802.11无线网络的传输中,存在诸多问题,例如设备数量多、频谱资源有限、无线信号之间存在干扰、队列调度方案只注重吞吐量,并且调度复杂性较高等等。这些问题导致无线通信
随着移动通信技术的高速发展,移动用户的规模不断增长,网络因管理大规模用户的频繁移动而越来越不堪重负;与此同时,用户对移动通信的质量要求也越来越高,如何在保证移动通信质量的
负载均衡是一种通过动态分配机制,提高计算机系统可用性和可伸缩性的关键技术。根据Web服务器集群中各个服务器上的工作负载情况及时调整负载均衡算法是目前基于预测机制负载
在21世纪,最优化理论和相关算法都得到了极大地发展。传统的优化方法虽然具有理论成熟,应用广泛的优点,但是随着对优化方法要求的不断提高和现代科学技术的发展,传统优化方法不能