论文部分内容阅读
作为一种正在迅速发展的基础设施,网格能够共享大规模分布的计算资源、存储资源、数据资源、软件资源、设备资源及人力资源等,能够突破现有的计算限制,实现大规模协同的科学计算及协同问题求解,从而为高性能科学计算提供一种新的计算模式。由于网格资源具有大规模分布性、类型异构多样性、动态变化性等特点,网格的研究具有极大的挑战性。为了提高网格的可用性和易用性,提升网格服务质量,网格中的任务管理至关重要,已成为网格技术中的热点研究方向之一。然而,迄今为止,网格中的任务管理仍有待进一步的系统研究。 本文围绕计算网格环境中的任务管理开展了广泛深入的理论与技术研究,并进行了大量的实验研究。在分析计算网格中任务特点及应用需求的基础上,研究了任务管理体系结构、任务调度、任务监控和任务性能预测等网格任务管理中的关键问题。研究工作取得了以下的创新性成果: (1) 提出了面向用户的任务管理体系结构。该体系结构是在分析计算网格中任务特点及应用需求的基础上提出的。它以任务管理为核心,以提供高质量网格服务为目的,在兼顾性能及服务质量的同时,力求其好用性。提供了任务定义、任务调度、任务提交和任务监控等功能,并将这些功能以工作流的方式提供给用户。另外还集成了应用程序可视化分析、任务性能预测、检查点设置、任务迁移和任务安全等辅助功能,能够实现任务定义重用和自动灵活的文件操作。 (2) 提出并实现了适用于多种类型任务的调度策略及启发式贪心调度算法——HGSA算法。HGSA算法利用能够反映任务需求的可定制的资源属性权重和负载影响因子作为启发知识,实现资源排序;采用贪心算法实现资源选择,并完成任务的部署。 (3) 提出并实现了一种能够监控任务执行全过程的任务监控体系——MMS。MMS采用分布式的分层结构,能够监控在多个资源上执行的任务,并支持多用户。除了能够监控网格中的任务外,MMS还能够监控任务执行过程中的文件操作。MMS采用任务注册表实现客户端任务与其远程执行进程间的映射,利用任务注册码来进一步确保任务不被非法用户监控;监控部件采用自顶向下的方式启动,这种方式能够在监控部件意外退出的情况下重新启动,提高监控部件的可用性。 (4) 提出了一种基于案例和人工神经网络的任务执行时间预测算法——CBPP算法。实验模拟表明,该算法综合利用了案例的指导性和人工神经网络的自学习及良好的非线性逼近能力,实现了网格环境中复杂任务性能的有效预测。 (5) 此外,利用本文的研究成果,开发并实现了一个适用于网格平台的任务管理系统。该系统实现了对任务管理全过程(包括任务定义、提交、调度、监控与分析及结果收集)的可视操纵,隐藏了网格复杂的技术细节。论文给出了系统的具体设计及实现方法。