论文部分内容阅读
当前,越来越多的学科通过高性能计算作为辅助手段,极大地促进了自身的发展。作为一种高性能计算体系结构,高性能集群正在变得越来越流行。集群系统的管理是有效搭建和利用集群系统的基础,如何有效有序地对集群中各节点上的软硬件实行管理,就是集群管理的主要研究任务。
本文通过对集群管理相关技术的研究,设计和实现了一套综合的高性能集群管理系统,改善了当前集群管理中缺乏用户审核、应用程序管理等缺点。通过该系统,管理员可以通过单一的客户端程序直接对多个集群系统上的各种配置资源、用户、应用程序实施综合管理,有助管理效率的提高。系统以JMX管理技术为基础,以Agent-Server-Client三层式的管理体系对集群系统进行了统一管理。通过引入模块化的设计,使得系统对不同的集群系统配置具有适应性和扩展性。以管理对象对集群待管理资源进行了封装,并以镜像的方法汇集,使得管理能以有序的方法进行。通过引入可配置的日志和报警检测机制,使得管理系统能灵活有效地检测集群的状况。系统还提供了一个友好的用户操作界面,以曲线、图表等手段有效地向管理员展示集群系统的状况并提供了节点管理、用户管理等管理手段。
目前该系统已基本完成,并已在华南理工大学高性能网格计算平台内试运行。