论文部分内容阅读
近年来计算机处理能力的不断增强,使软件容错技术受到了广泛的关注。软件容错具有灵活性较强和实现费用低的特点,因而被越来越多地应用到不同的领域。随着Linux操作系统的不断普及,基于该操作系统下的应用也越来越广泛,Linux软件的容错性越来越受到重视。许多研究通过修改Linux系统内核,来提高Linux软件的容错性。当进程正常运行时,进程检查点机制在恰当的时刻设置检查点,将进程状态通过检查点文件保存到存储器中。如果随后进程发生故障,则从存储器中读出保存的进程状态,使进程回卷继续运行,从而避免从头开始执行,减少计算损失。本文首先对检查点技术以及Linux系统进程管理的相关问题进行了综述,分析了检查点系统的关键技术及其原理,总结了实现进程检查点需要解决的问题。其次设计并实现了基于检查点的进程级容错系统。该系统由三部分组成:故障处理、进程监控、检查点设置与回卷。故障处理包括故障检测与故障分析,判断是否进行进程恢复与检查点设置:进程监控实现对关键进程的实时保护,使进程正常运行;检查点设置与回卷主要分为检查点时间间隔控制与检查点设置,使用检查点技术保存和恢复进程上下文及部分系统上下文,以及一些和进程运行相关的信息。检查点时间间隔选取是影响检查点系统性能的一个方面。本文最后在AFOM模型的基础上对其进行了改进,静态确定检查点时间间隔的最优值。实验表明使用该方法可以帮助用户设置合适的检查点间隔,有效的减小检查点的开销。