论文部分内容阅读
分布式系统的错误频率的增加导致运行应用任务完成时间增长,并且近年来大量记录了大规模分布式系统运行状态的现场失效数据以规范格式公布,在此背景下,本文研究分布式系统下基于检查点的容错服务,利用系统失效关联性特征来建立模型,得到减小分布式任务的完成时间的检查点放置策略,从而在保证系统可靠性的前提下,降低容错服务的实现代价,提高分布式系统的运行效率。论文主要的工作和贡献包括:(1)研究检查点/恢复技术的基本机制及其实现方式,分析分布式系统中保存通信状态以及保证其一致性的难点,通过实现了一个原型系统,研究全局检查点的代价、分布式系统的规模以及应用程序大小之间的关系;(2)提出一个基于检查点和系统失效关联性特征的容错模型,根据失效事件相关性分析结果,提出一种分布式系统节点关联性分组方法,利用节点分组信息建立以最小化浪费时间为目标的优化方程,得出了主动检查点的放置周期,并提出了一个包含主动检查点以及被动检查点的两类检查点放置策略;(3)基于FTA中失效数据格式,设计并实现了基于检查点的容错服务,并进行了对比仿真。首先选取FTA中部分系统失效数据,分别实现了本文提出的容错服务以及其他检查点容错服务,评估其中的参数,再利用剩下的系统失效数据进行性能评估,实验结果表明本文提出的容错服务的额外浪费时间较低,达到了预期目的。