论文部分内容阅读
在容错计算系统的研究中,系统同步问题是一个极其复杂的难点问题;另外,在当前以COST技术为基础的软件实现和软硬件协同实现容错计算的热门研究中,容错透明性也一直是一个重点和难点问题;此外,基于卷回的故障恢复机制对系统I/O操作处理存在先天不足,必须加以克服。再者,由于半主动任务复制和被动任务复制的冗余方式不能容忍系统拜占庭故障(Byzantine-fault),而主动任务复制既可屏蔽系统崩溃失效(crash-failure),又可屏蔽拜占庭故障。鉴于这些重要问题,本文通过对一般容错计算系统的实现原理进行深入研究,提出了容错系统的功能模型和同步定理,从而研究并实现了一种基于Linux/PC平台下的TMR主动任务复制透明容错计算系统。着重研究了该系统的同步策略、透明容错算法及其实现技术,并对系统性能进行了评估与优化。首先,根据容错计算的定义与实质,通过Petri网工具,建立一般容错计算系统的功能模型,从理论上对容错计算系统的同步问题进行形式化研究,推导得出一般容错计算系统的同步定理,并在此基础上,对容错计算系统的同步机制进行系统性研究。其次,按同步定理要求,重点对TMR主动任务复制容错系统的同步必要条件进行研究,通过排除主动复制任务进程的局部非确定性操作对系统同步机制的影响,使系统同步必要条件得到满足,从而设计实现TMR主动任务复制容错系统的同步策略和同步算法。为使系统容错功能对用户透明,本文专门研究设计了一种透明同步机制,它利用操作系统的ptrace()调用暂停容错系统应用任务的主动复制进程,解析主动复制任务进程中的系统调用,修改系统调用返回值,从而实现了系统透明容错算法。而且利用Markov RewardModel工具,基于TMR冗余结构,本文还对主动任务复制容错计算系统的容错开销进行了理论计算,得出系统容错开销与主动复制任务进程的同步频率成正比。基于PC/Linux系统平台,通过主动任务复制系统的透明容错算法,本文设计实现了一个TMR主动任务复制透明容错计算系统。其中还设计实现了一个两级表决的高可靠表决机制。并利用故障注入技术测试验证了该系统的透明容错功能。最后,基于TMR主动任务复制透明容错计算的PC/Linux平台实现系统,本文对其进行了性能分析与优化。通过实验测试容错系统的容错开销,验证了容错开销与系统任务进程的同步频率成正比。并且,本文对容错开销的基本原因进行了分析,得知同步消息的通信开销和主动复制任务进程的初始异步度是容错开销的最为重要来源。由此,从减少同步消息的通信开销和主动复制任务进程的初始异步度上对系统容错开销进行了优化设计,提出了一种基于以太网的低延迟通信方法LLCE。LLCE通过减少操作系统对网络通信协议层的影响,旁路掉传统TCP/IP协议栈,直接对网卡硬件编程,有效减少了网络通信延迟时间,有效增加了网络通信带宽。从而在一定程度上减少了TMR主动任务复制透明容错计算系统的容错开销。