论文部分内容阅读
现有的编程模型不易在保证充分结合结构优势的同时,将作业内逻辑关系和计算机算法合理映射,从而影响了应用程序运行效率的提高。因此,如何在保证高效的前提下减少开销成为研究课题,需要研究更高性能、更廉价、合理映射并与结构充分结合的处理方式。 Map-Reduce编程模型可运行在廉价异构计算机组成的集群上,并能保证高可靠性、扩展性和容错性等特点,可降低计算成本并高效发挥集群性能。该编程模型为数据并行编程模型,作业模式是串行的并行处理模式,该模式导致当作业内部的子任务间具有复杂串并行关系时,无法合理地自发调度执行,这在一定程度上,增加了开发人员的工作量,并且无法充分利用并行结构优势。 为此,本文提出一种新的作业执行描述定义,并通过证明该描述定义正确性和通用性,确认该定义能够描述所有作业执行过程。根据定义对原Map-Reduce编程模型进行了改进,新模型可自发根据子任务间逻辑关系进行调度,无逻辑关系的子任务间并行执行,充分发挥并行结构优势。基于上述思想,本文对改进后Map-Reduce编程模型进行了设计和实现,并在Hadoop平台上实验验证分析了模型的正确性、容错性和性能。 实验表明,与原有Map-Reduce编程模型比较,新模型可以自发根据作业内子任务串并行关系调度执行,更充分利用集群内部资源,有利于发挥结构优势,提高作业的执行效率和系统的整体性能,且对于作业内部不同子任务间串并行关系提高幅度有所不同。针对本研究中存在的问题,本文提出了相应的解决思想,为未来工作做出准备。