论文部分内容阅读
该文从研究MPI的P4实现和CRR技术出发,分析了在MPI上为达到检查点设置和卷回恢复的正确性和高效性所应该采用的各项技术.在此基础上设计并实现了基于MPICH的P4实现的检查点设置的卷回恢复和进程迁移系统ChaRM4MPI.该系统首先在MPI系统上设置了中央管理机制,然后在此基础上实现了重要的容错功能;1、协调的检查点设置;2、同步的检查点卷回机制;3、同步进程迁移;4、节点故障检测机制和相应的降级重构功能.这些设计做到了用户透明,用户级实现和性能优化的特点.