数据局部性感知的Hadoop任务调度器

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:qq912214209
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
任务调度是分布式并行计算平台,如Hadoop、Dryad等,最核心的功能。任务调度结果的优劣极大地影响着系统吞吐率、计算集群的资源利用率以及作业的性能。同时,由于计算集群的异构性、负载的动态可变性以及任务特征的多样性等原因,也使得调度问题成为了分布式集群中最困难的问题之一。本文在大量地研究了当前的分布式并行计算平台中的各种调度算法的基础上,深入研究了当前Hadoop系统中的任务调度算法的优缺点,特别针对MapReduce的资源再分配过程进行了改进和优化:1)针对当前Hadoop系统在Map任务的调度时采用的基于队列的任务调度方式所存在的缺点(数据本地化程度不能达到最佳),将调度问题重新映射为一个流网络并且通过对流网络的最大流求解,以获得在节省网络开销方面更优的调度方案。2)在1)的基础上对算法进一步细化和改进,考虑任务对节点的偏好度,以达到进一步降低网络开销的目的。3)核心路由器的带宽往往是限制数据传输速率的最主要的因素,本文通过改进MapReduce中Reduce任务调度方式,降低了Shuffle阶段跨机架的网络数据传输量,节省了核心路由器宝贵的带宽资源。最后,通过实际的Hadoop实验环境对本文所提出的调度模型和算法的有效性与高效性进行了验证。实验结果表明,该算法在降低MapReduce应用的网络数据传输量方面表现优异。
其他文献
随着互联网的广泛应用,网络安全问题日益严峻,恶意代码已成为互联网最严重的安全威胁之一。当前恶意代码传播与攻击手段呈现复杂化、多样化的趋势。传播方面出现了新的传播方
随着信息技术的飞速发展,计算机已经普遍应用于各行各业,成为目前应用最为广泛的信息处理和信息传输的设备。而这些信息处理设备在商业、军事、政府中处理重要的涉密信息时,
中医舌诊是通过观察舌的各种特征来了解人体的健康状况,从而对各种疾病做出诊断及病情评估,是祖国中医学应用最广、最有价值的诊法之一。随着现代科学技术的发展,将图像处理
近年来,随着虚拟仪器技术、运动控制技术的显著进步以及工业总线的迅速普及,将虚拟仪器技术应用于数控折弯机系统,使信号采集、传输、处理分析和控制一体化,已成为一种趋势。
自上世纪九十年代以来,多媒体信息迅速膨胀,基于内容的视频检索成为了研究的热门课题。其中,如何利用机器学习理论使计算机能自动获取视频中的语义信息,以便有效地进行视频语
近几年来,随着脉冲神经网络及其学习算法研究的快速发展,越来越多的研究结果显示脉冲神经元通过接受、发放脉冲来传输信息和实现功能的工作原理更加接近于真实的生物神经元,
随着现代电子技术的发展,通信技术、计算机网络技术都有了飞速的进步,而二者的结合又将两种技术推广到更多的应用领域。传统的通信网正在逐步发展成为以通信技术为底层支撑,
随着计算机网络技术的飞速发展,网络已进入社会生活的各个领域和环节,人们日常生活中的许多活动都逐步转移到网络上来。网络信息技术应用的日益普及,应用层次逐渐深入,应用领域从
科学工作流作为近年来出现的一种新的应用泛型,可集成、构造和协同分布异构的数据、服务和软件,提高科学实验过程的自动化。科学工作流应用通常是数据和计算密集型的,对计算
发展循环经济是一项涉及面广、综合性很强的系统工程,是建设资源节约型、环境友好型社会和实现可持续发展的重要途径。循环经济评价指标体系是国家建立循环经济统计制度的基