基于性能预测的Map Reduce负载均衡优化

来源 :硅谷 | 被引量 : 0次 | 上传用户:usrrmhta
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要 Hadoop作为一个开源云计算框架,因为其优秀的分布式存储能力及其上运行的Map Reduce计算框架,越来越多的公司用Hadoop处理庞大的数据。负载均衡对分布式计算的性能有重要影响,Hadoop基于最简单的hash算法对任务进行分派,并没有对异构环境及多任务运行环境的因素做过多考虑。为了解决上述存在的不足,我们提出一种负载均衡框架,对计算节点的性能情况进行监控,预测节点的计算能力,依据预测结果来对Map Reduce的计算任务进行分配,从而最大化分布式集群的计算能力。
  关键词 Hadoop;Map Reduce;负载均衡;性能预测
  中图分类号:TP311 文献标识码:A 文章编号:1671-7597(2015)02-0063-02
  随着互联网络、智能设备的迅速发展,每个人每天在网络上都会产生大量的数据,对于企业来说,对于大数据的存储与处理越发显得重要。在Hadoop上面的Map Reduce是一个强大的分布式计算框架。它的执行包括两个基本的函数:Map和Reduce。对于一个计算任务,框架会把任务分成一些Map与Reduce作业,S每个作业在不同的计算节点上并行执行,良好的调度算法能够显著的提高系统的并行性、资源利用率,使系统达到负载均衡。
  对于Map Reduce操作的负载均衡是困难的,默认的Hadoop调度算法根据数据本地性原则选择合适的节点执行Map作业,对于Reduce操作则采用hash算法来把不同key的数据分给不同的Reduce作业。默认的调度算法有两个明显的问题,首先,该算法没有对异构环境进行考虑,对于大规模的分布式集群来说,很难保证机器的同构性,因此,若对性能不同的机器上执行相同的Reduce作业,必然會导致执行效率变低;其次,Hadoop是一个可以执行多任务的系统,当前环境下可能已经有一些任务正在运行,那么每个节点的剩余计算能力也不相同,同样不能将Reduce作业平均分配到每个节点。因此,本文提出了一个基于性能预测的Reduce作业调度算法。
  1 相关技术
  1)Map Reduce。
  Map/Reduce是Google提出的一种并行分布式计算架构,用于大规模数据集的并行计算,现在已在搜索和处理海量数据领域得到了广泛的应用。Google的云计算技术源于信息检索领域的海量数据的分析任务,指定一个Map函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce函数,用来保证所有映射的键值对中的每一个共享相同的键组。Map操作是一个分解的过程,它将输入数据拆分为大量的数据块,将每一个数据块分配给一个计算节点进行处理,从而具有分布式的特点;Reduce操作与Map操作刚好相反,会将分开的数据整合到一起,最后将汇总的结果进行输出。
  2)指数平滑法。
  指数平滑法(Exponential Smoothing,ES)是布朗(Robert G.Brown)所提出,布朗认为时间序列的态势具有稳定性或规则性,所以时间序列可被合理地顺势推延,最近的过去态势,在某种程度上会持续的未来,所以将较大的权数放在最近的资料。指数平滑法是用以往的历史数据的指数加权组合,来直接预报时间序列的将来值。
  2 可用计算节点性能估算
  1)性能定义。
  为了对分布式节点的运算能力进行估算,首先需要对分布式计算节点的计算能力进行建模。计算节点的性能指标通常由cpu速度、内存容量、磁盘读写速度、网络带宽等多种因素相关,为了简化性能评估模型,本文只对cpu计算速度指标进行研究。对于cpu的计算速度来说,最基本的评价要素为cpu的主频、多核能力与并行能力。
  根据上述公式一系列共识,我们可用通过原始的cpu性能指标、实时cpu运行指标以及估计算法预测每个可用计算节点的可用计算能力。下面,我们将根据计算得到的结果,对Reduce工作进行合理的调度。
  3 基于预测结果的调度算法
  Map Reduce主要分为Map函数与Reduce函数两个阶段,对于Map函数来说,数据移动的代价远远数据计算的代价,因此默认的数据本地化计算已经拥有较好的性能。对于Reduce函数来说,由于运行环境的异构性以及多任务的计算环境,如果把更多的Reduce任务分配到计算能力更强的机器,则会显著提高框架性能。因此我们提出了以下对于Reduce任务进行分配的算法:
  首先根据每台可用计算节点的性能指标计算整个集群的性能;然后根据Reduce任务个数对集群性能进行均分,得到每个Reduce任务的均分性能;接着建立最大堆的数据结构,保存每个可用计算节点的性能指标,对于每一个Reduce任务,依次取最大堆顶的计算节点进行任务分配,分配后减去Reduce均分性能,若性能大于0,则入堆,否则把计算节点从堆中删除,直到Reduce任务分配完毕位置。
  4 结论
  本文主要分析了当前Hadoop中Map Reduce负载均衡策略对于异构环境以及多任务环境的不足,并且尝试提出了一种基于平滑指数预测的Reduce任务调度框架,依据每个可用计算节点的计算能力来对任务进行调度,并给出了理论方法与算法
  描述。
  本文提出的框架可以对Map Reduce负载均衡进行优化,但也存在需要补充的一些地方,首先对于性能的定义与估算只考虑了cpu计算能力,没有对存储、网络等指标进行考虑,其次每个Reduce任务根据hash算法获得计算数据,计算数据是否均匀与数据逻辑有关,本文并没有解决这个问题。作者将会在将来的工作中着力解决上述两个问题。
  注:本文受多摄像头的吸虫机绿色控害技术研究(国家星火项目2011GA750019)资助
  参考文献
  [1]K. Shvachko, H. Kuang, S. Radia, R. Chansler, “The Hadoop Distributed File System,” 26th IEEE Symposium on Mass Storage Systems and technologies, Yahoo!, Sunnyvale, pp. 1-10, May 2010.
  [2]J. Dittrich, J.-A. Quian?e-Ruiz, A. Jindal, Y. Kargin, V. Setty and J.Schad, “Hadoop++: Making a yellow elephant run like a cheetah(without it even noticing),” Proceedings of VLDB Endowment,3(2),pp.515-529,September 2010.
  [3]柳香,李瑞台,李俊红,段胜业.Hadoop性能优化研究[J].河北师范大学学报(自然科学版),2011(06):567-570.
  [4]刘娟,豆育升,何晨,唐红.基于调度器的Hadoop性能优化方法研究[J].计算机工程与设计,2013(01):190-194.
其他文献
摘 要 21世纪以来,高校的建设进入了校园数字化建设的时代。数字化建设的重点就是数据资源的整合,但是现有的常见的数据整合方案都或多或少存在不足。本文结合实际分析了说数据整合上存在的不足,并提出了基于SOA架构的数据整合方案。该体系结构将系统划分成为业务系统层、共享服务层和整合业务应用层。整合数据资源的好处是显而易见的,它能规范高校全局的信息标准,根据业务的不同创建不同的数据主体,实现跨功能的无障碍
样品经消解后,在酸性条件下,六价铬与二苯碳酰二肼(DPC)反应生成紫红色化合物,在540 nm处测定其吸光度.绘制了阿达玛变换多参数测定仪在5个不同铬浓度下的工作曲线,测试并计
摘 要 企业数据信息对企业工作的顺利开展具有十分重要的作用,确保数据库的安全是企业必须重视的关键问题。笔者结合实践经验,对企业数据库备份和灾难性数据恢复方法进行探究,希望能有助于提高企业数据库的安全性。  关键词 企业数据库;数据库备份;灾难性数据恢复  中图分类号:TP311 文献标识码:A 文章编号:1671-7597(2015)02-0042-01  随着信息技术的发展,企业的管理信息和各种
摘 要 随着近几年来我国经济的快速发展,各种科学技术也在不断的进步,由于人们对于生活的要求逐渐增高,从而生活品质也开始提升。例如人们开始对电视机提出各种各样的要求,其中最重要的一点就是整个液晶电视显示器的成像效果,以及机体的质量问题。对此文章对测光式LED液晶电视背光源基础上恒流驱动电路的设计与研究进行了简要的阐述。  关键词 侧光式;LED液晶电视;背光源;恒流驱动电路  中图分类号:TN949
简要介绍了段塞流捕集器的结构及分类,通过巴基斯坦LPG项目实例,描述了在国内外段塞流捕集基础上,优化管式段塞流捕集器的设计形式;通过ANSYS分析储液段鞍座支撑受力,攻克了
摘 要 近年来,航空、航天等行业发展迅猛,需要测量的参数也越来越多,其精度要求也越来越高,测试系统也是越来越庞大,因此,测量设备很有必要向小型化、高精度、轻量化、功能复杂化的方向发展。本文介绍的一种基于MSP430单片机的模拟量测量技术,利用MSP430单片机强大的运算能力、富含各种模拟电路接口和内部资源、功耗极低的特征,实现了对模拟量的有效测量,并通过系统实例详细论证了本测量方法的可靠性和准确性
摘 要 已形成国际标准的控制器局域网络CAN(Control Area Network)总线具有通信率高、易实现、性价比高等诸多特点,并被广泛应用到汽车等工业领域。本文对CAN总线技术的特点和协议进行了阐述,并根据其特点设计了基于CAN总线的车辆监控软件,该软件能够以友好的人机界面显示车辆底盘参数,使车辆信息对驾驶员或乘客透明化。  关键词 CAN;VC++;ID;监控软件  中图分类号:TB47
期刊
本文提出了一种基于纹理边缘合成的图像修复方法 ,根据所有需修复区域范围周围的边缘纹理特征和特点,获得所有边缘图像点的最好自动耦合效果,并且连接起所需修复区域部分内所有遗失的边缘纹理点线,然后沿着这些连接的点线,在有效的图像部分区内的曲线图像周围,寻找最耦合匹配块,用来构成包含边缘纹理的纹理图块,恢复数码图像中因各种原因所丢失的图像信息,然后进行补充填充。通过大量的仿真实验得出:对很多大型复杂的自然
摘 要 管制管板的连接尤其是以胀接为主的失效泄漏是管壳式换热器失效的主要原因之一。本文主要对换热器当中的问题进行探讨,找出机械胀接与换热器之间存在的问题,并且提出合理的解决方法来化解当中的问题。  关键词 换热器制造;满足胀管率;机械胀接试验  中图分类号:TK172 文献标识码:A 文章编号:1671-7597(2015)02-0059-01  到目前为主,国内对换热器的胀管质量研究文件还是比较