Hadoop平台作业调度算法研究与改进

来源 :河北经贸大学 | 被引量 : 6次 | 上传用户:c_zhang08
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着搜索引擎、社交网络等数据密集型互联网应用的发展,信息和数据量呈现爆炸式增长的趋势,如何存储和处理越来越庞大的数据信息,于是产生了云计算。云计算把原有的技术如网格计算和分布式计算进行整合并以新的模式呈现出来,它构建在大量廉价的服务器上,利用虚拟化技术整合现有的计算资源、存储资源和带宽资源,通过统一的接口为用户提供按需分配的各种资源。在所有的云计算平台中,Hadoop是最流行的开源云平台架构,其中的核心技术HDFS和MapReduce分别实现了Google云平台中的GFS和MapReduce,它们分别具有对海量数据进行存储和处理的功能。如何通过设计不同的作业调度算法来提升MapReduce性能,已然成为学术界和工业界都非常关注的一个热点问题,本文主要研究了延迟调度算法和LATE调度算法,并针对算法中存在的问题提出了改进。延迟调度算法是为了解决“数据本地性”问题而提出的一种算法,核心思想是空闲节点在申请作业时,优先选择作业队列中在该节点上具有待处理数据的作业,若在规定的时间内仍没有找到本地作业,则选择队首作业执行。这种方法大大提高了作业本地执行的概率,同时也产生了一些问题,若作业待处理数据集中在某几个节点上,则会加重这些节点的负载,容易导致集群负载不平衡,影响执行效率。本文对延迟调度算法进行改进,思路如下:一是均衡负载,在作业等待本地目标节点的同时,检测空闲节点的负载情况,如果节点负载超过阈值,则暂时不予分配任务;二是增加热点数据块的副本数量,以提高这些数据成功访问的概率。通过上述两种方式达到提升Hadoop集群运行效率的目的。LATE调度算法是针对异构集群节点运行速度不同提出的一种快节点运行慢节点上面任务的方法,以缩短集群的整体运行时间。但该调度算法未充分考虑备份任务在同一机架和不同机架推测执行时数据传输消耗的时间差异性以及集群不同节点的负载情况。本文综合这两个方面进行改进,在推测作业剩余完成时间时,考虑数据迁移的时间成本,以剩余时间和迁移时间之和为权值进行排序,再结合集群中节点的负载情况进行分析,避免节点处于超负荷状态仍分配任务,缩短作业的响应时间,提升集群的利用率。通过搭建实验平台验证,与原有的调度算法相比,延迟调度算法的改进缩短了作业平均响应时间,提高了集群的效率。改进后的LATE调度算法比改进前对落后任务的判断更加准确,对跨机架作业的推测执行更加合理,提高了集群的效率。
其他文献
当前,在聚类分析中仍然存在准确性和完备性方面的不足,也没有哪种算法能够同时适用于应用的各个方面且都是有效的。在高性能计算方面,主要面临着由于大数据集(数据密集型计算
火灾对人类造成了极大的破坏,如何正确识别火灾具有重要的现实意义。传统的传感器式烟雾识别方法受环境的影响较大,而基于视频的烟雾识别对硬件要求不高,具有更好的可实施性
求解NP难度问题是目前计算机科学技术的瓶颈任务,对于NP难度问题的求解可能根本就不存在既完整又快速的算法。等圆packing问题是一类典型的NP难度问题,是当今国际上公认的研
随着Internet技术应用的日益广泛,高等院校的管理信息化程度在近些年得到了较大的发展。实验教学管理服务于学生实践教学,是高校管理中的重要组成部分。在当前高校的实验教学管
在海量信息存储系统中,为了达到较高的访问性能和良好的可扩展性,关键是要避免系统中的性能瓶颈,由于存储系统中元数据的访问是系统的主要负载,元数据服务器成为系统中潜在的
对等流媒体直播系统应用到WiFi无线局域网时,由于IEEE802.11协议不负责跨接入点的域间服务质量保证,导致移动客户端在跨域移动时会产生传输中断和地址切换的问题,再加上对等
随着Internet的发展,网络广告已经成为当今最热门的广告形式。为了能够更快适应Web2.0快速的发展需求,人们推出了一种称为内文广告的网络广告新模式。内文广告是一种新型的网
学位
21世纪是不同领域科技创造性集成和融合的时代。随着地图制图技术、地理信息系统(GIS)技术与主流IT技术的融合,极大的推动了电子地图服务的发展。电子地图服务已经越来越广泛
数据网格是网格环境下共享和管理存储资源和分布式数据资源的大规模、可扩展的框架结构,它适应数据密集型应用对网格环境下数据共享和处理的需要,给用户提供了透明访问远程异构