论文部分内容阅读
随着人们对计算能力需求的增大,而大规模并行机的昂贵价格令人望而却步,集群系统的出现解决了这一矛盾,它提供了很高的性价比、良好的扩展性和高可用性。 要使集群系统向用户提供高效方便的计算资源,必须有一个与之匹配的集群管理软件。集群管理软件必须能够高效的控制和管理用户作业和系统资源、提供单一的作业管理环境、自动的作业负载平衡、可配置的作业调度、作业管理、节点管理、系统容错、软件管理、license管理、记帐管理等功能。 本文主要阐述如何设计和实现一个基于web的集群管理系统。首先,文章介绍了集群的相关知识。接着,文章详细阐述了集群系统的架构。其次,文章分别介绍了基于web的面向集群管理员和集群用户的集群管理系统的设计原则、设计思想以及要实现的功能。面向集群管理员的集群管理主要功能包括分为用户管理、节点管理、文件操作、作业管理、作业控制、记帐管理,软件管理(含license管理)、行业管理,而面向用户的web集群管理主要提供用户作业管理、用户作业提交、用户信息更改以及用户记帐管理等4大功能。其中作业管理、节点管理和队列管理借鉴了广泛应用的作业管理系统PBS,其功能强大,而且可以免费获取源码。再次,文章分析和比较了当前流行的作业管理系统,提出了作业管理系统的评价模型,并详细的分析了PBS的功能和不足之处。最后,文章实现了基于web的集群管理系统。 本文实现的web方式集群管理已经成功运行于我校高性能计算中心HP RX2600集群系统,其主要特点包括:个性化的用户平台、简介的操作界面、可靠的安全保证、记帐等功能。而且,通过底层数据库支持,能够记录用户作业的提交,从而大大提高用户的工作效率。此外,系统和PBS之间函数接口的可移植性很好,可以方便的应用于其他的操作系统。