Map/Reduce型海量数据处理平台中作业调度技术研究

来源 :北京工业大学 | 被引量 : 4次 | 上传用户:psetpsetc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Map/Reduce型海量数据处理平台(以下简称“Map/Reduce平台”)是海量数据处理领域的最新技术进展。Map/Reduce平台具有简化的并行编程模型、以数据本地化处理为导向的计算模式以及细粒度的资源分配和回收方式等新特征。作业调度是Map/Reduce平台的核心功能之一。作业调度统一管理和调度Map/Reduce平台中计算资源和存储资源,保证用户作业公平合理地共享Map/Reduce平台资源,提高作业执行效率。既有作业调度策略多针对于Map、Reduce阶段进行独立优化,鲜有考虑Map、Reduce任务间数据依赖关系导致Reduce任务的执行需等待所有Map任务执行结束,增加Reduce任务空闲等待时间,从而降低作业执行效率。本文面向开放Map/Reduce平台,针对现有作业调度策略未考虑Reduce任务空闲等待时间导致作业执行效率低下的问题,开展可抢占式作业调度方法的研究。以作业调度高效性为目标,对可抢占式作业调度策略、Reduce任务计算资源抢占模型和重调度模型等关键问题进行探讨。本文的主要贡献包括:(1)面向Map/Reduce平台设计Master/Slave的可抢占式作业调度架构及任务状态模型。采用Master/Slave架构,保障可抢占式作业调度决策与执行功能分离、调度执行功能分布和便于与既有Map/Reduce平台集成。设计任务状态模型,并定义Reduce任务挂起状态,便于进行任务生命周期的管理;(2)面向Map/Reduce平台设计Reduce任务计算资源抢占模型和Reduce任务重调度模型。依据Map任务剩余执行时间、Reduce任务拷贝剩余处理时间和Map任务完成进度确定Reduce任务资源抢占时机和Reduce任务恢复执行时机,降低Reduce任务挂起、恢复操作的性能开销;(3)实现可抢占式作业调度方法与既有Map/Reduce平台作业调度策略的无缝集成。通过对Reduce任务释放资源进行优先分配和避免对Map任务进行碎片式资源分配的原则,来提升Reduce任务释放资源的利用率,降低Reduce任务挂起和恢复操作对其他Map任务的影响;(4)总结本文的研究成果,实现具有可抢占作业调度功能的Map/Reduce平台Predoop,将本文所提出的Reduce任务资源抢占和重调度模型、Reduce任务挂起和恢复机制以及可抢占式作业调度策略集成其中;(5)对Predoop进行性能测试分析。结果表明,和开源Map/Reduce平台Hadoop相比,Predoop的作业平均周转时间最大降低14.55%,Reduce任务平均等待时间最大降低90.02%。对于作业中所含有的Map任务规模较大的场景,本文所设计的可抢占式作业调度方法具有较大的性能优势。
其他文献
工作流管理技术是近年来在计算机领域发展中最为迅速的几项技术之一.随着工作流管理系统应用规模的不断扩大、应用领域的不断拓展,如何定义正确的工作流模型,以及对已有业务
本论文对求解函数总体极小的方法-谷峰法进行了验证与测算,分别描述了一元函数,二元函数及n元(n>2)函数应用谷峰法的算法思想和详细实现,并在计算机上进行了编程实现,做了大
随着地理信息系统应用范围的扩展和应用需求的深化,对于空间应用的组成和实现方式提出了新的要求,对于数据的共享能力和数据间的互操作性提出了新的要求,而传统的应用系统间
在现代微处理器的设计、测试、验证过程中,编译器扮演着重要的角色,它是软件和硬件之间的桥梁,如何最大限度的使用处理器的结构特点以改善处理器的性能是编译器和体系结构设
该文将ABC方法引入到Web Services业务系统开发中,通过将业务流程作为Web Services业务系统体系结构的一个重要的制品,来指导整个业务系统的开发,并将其贯穿于整个开发过程.A
随着视频点播等网络多媒体技术的快速发展,现有的TCP拥塞控制机制已无法有效地解决网络拥塞问题.为了改善这种状况,可以通过改进现有的拥塞控制算法来获得较好的性能.该文先
整数因式分解是一个很古老的数学问题,该问题是指:给出一个正整数,将其分解成一些素数相乘的形式。整数因式分解算法有很多,相比之下,对大整数进行因式分解,数域筛法是目前渐进意义
近年来,随着计算机和网络通信等技术的高速发展,各种多媒体数据和信息的种类和数量与日俱增.如何有效的管理各种多媒体数据,并且能够有效地从这个巨大的多媒体信息库中找到需
随着网络应用日益广泛,网络安全已成为现今人们关心和研究的热点问题.设计安全措施来防范未经授权访问系统的资源和数据,是当前网络安全领域的一个十分重要而迫切的问题.目前
随着因特网、Web技术的快速发展,用户对服务可用性和服务质量的要求越来越高.如何提高基于Web的分布式文件存储系统的可用性是我们面临的一个新问题.在分布式文件存储系统中,