论文部分内容阅读
在高性能计算机的研究当中,如何保证系统的可用性和应用的可靠性一直就是需要首要考虑的问题之一。机群以其高性价比和高可扩展性已经成为构造高性能计算机一种主要的方法,而节点间松散耦合的结构也使得机群系统更易于保证系统的可用性。随着机群系统规模的逐渐增大,也带来许多了新的问题,如更加频繁的组件失效,软件体系结构的扩展性等问题。这些新的问题对如何保证系统的可用性带来了更多的挑战。机群容错中间件技术将机群、容错和中间件技术结合在一起,是一种在机群系统软件层实现的能够同时保证系统可用性和应用可靠性的方法。 本文结合曙光4000A系统的机群操作系统Phoenix高可用核心的设计与实现,对机群容错中间件的关键技术进行了探索,重点研究了:1)在大规模情况下,适用于机群系统的容错中间件的框架与体系结构;2)在容错中间件技术中,适合于大规模机群的容错实现机制;3)在采用容错中间件情况下,对机群系统可用性和应用可靠性的评价。本文取得的研究成果如下: 1.在提出和分析机群系统规模变大给系统可用性所带米的新的挑战后,提出了一个用于大规模机群系统的容错中间件框架DCFT-Kernel。这个框架采用了分区管理的思想及“平等式”与“结构式”结合的体系结构,较当前的机群高可用软件有效地解决了大规模系统所带来的系统扩展性、软件体系结构扩展性、和容错机制扩展性等问题。DCFT-Kernel框架由组服务、故障管理服务、配置服务、事件服务和用户接口组成,能够提供完备的错误侦测、错误修复、错误通知功能。 2.在分析了将容错技术应用到机群系统在理论上需要解决的问题后,提出了一种用于实现机群容错中间件核心容错机制的关键技术——组服务技术。机群容错中间件的工作基础是自身的高可靠,组服务技术通过采用组结构和成员关系协议,能够保证机群容错中间什自身在运行时严格的一致性和高可靠性。在组服务基础上,提出的机群容错机制充分考虑了机群系统和并行应用的特点,提供了层次化的故障侦测和处理方法,能够对大部分的系统故障和应用故障进行有效的处理。 3.在曙光4000A系统上实现了一个实际运行的机群容错中间件系统DCFTM。DCFTM位于机群操作系统的核心,为机群操作系统的各种服务部件提供高可用支持,同时也可以直接向上层应用程序提供编程接口,保障应用程序的容错运行。通过对DCFTM实际运行的性能分析表明:1)DCFTM能够保证机群操作系统中各类服务的高可用运行,在故障处理时可以提供很高的响应时间,能够及时的发现和修复各种故障,并通知这些事件。2)DCFTM只占据很少的系统开销,只要将心跳间隔时