论文部分内容阅读
集群系统是一组独立的计算机的组合,他们可以自主的共同协作以完成一件任务。集群已被广泛应用于高性能计算领域,提供了低成本,可扩展及高性能的计算能力,在众多的科学计算、工程计算中取得了良好的使用效果。集群也常被用来提供高可用性的服务,为企业、银行和电信等系统提供高度稳定和可靠的运行环境。
集群/作业管理系统是构成集群的重要软件系统,它的主要任务是对集群的资源进行集中的监控和管理,为用户提交的任务分配可用的计算资源,并监控和管理作业的执行及结果的返回;同时,他还提供了系统容错和错误恢复的能力,对于大型的计算任务来讲,可以在事故或错误发生时将其损失减少到最小程度。
本文主要对集群的负载监视和检查点技术进行了深入的调查和研究,并分别独立的在实验室环境下实现了集群的负载监视和用于容错的检查点模块,为研究集群管理系统的实现技术打下了基础。