论文部分内容阅读
星载计算机(On-Board Computer,OBC)是卫星中完成控制和计算任务的现代数字计算机系统,它是卫星综合电子系统的控制和管理中心,在民用和军用领域都发挥着重要作用。星载计算机对可靠性有非常高的要求,本文采用冗余容错和重构纠错技术,研究了基于FPGA的星载计算机的系统可靠性设计方法。
可编程器件(如FPGA)具有开发周期短,开发成本低,灵活性高,可重复编程等特点,在星载计算机设计中应用日趋广泛。星载计算机长期工作在太空环境中,经常受到空间高能粒子的辐射干扰,因此必须采取一定的可靠性设计技术,以便及时处理因辐射引起的故障。传统的故障处理方式是硬件的冗余容错,如三模冗余方法、静态备份方法,以及两者相结合的混合容错方法。但是三模冗余和静态备份方法在可靠性提升方面作用有限;混合容错方法虽然可以得到较好的可靠性,但资源冗余严重,难于在实际系统中使用。
基于上述问题,本论文提出了一种基于局部动态可重构的三模冗余方法,该方法对可编程器件采用三模冗余方法进行容错设计,并将三个冗余模块的bit文件保存在片外存储器中。当某一模块出现故障后,系统会调用相应的bit文件对该模块进行局部重构修复,修复的过程不会影响其他模块的正常运行。同时,为了解决冗余模块之间的状态同步问题,本文提出了一个状态寄存器复制机制,重构后的初始化模块可以自动复制相邻模块的状态寄存器,尽快与系统完成同步。分析和实验表明,和已有方法相比,基于局部动态可重构的三模冗余方法可以显著提高系统的可靠性,同时资源开销仅相当于三模冗余的消耗。
同时,本论文也在系统级可靠性设计方面进行了研究,提出了一系列的可靠性设计方法,如存储模块的EDAC设计,通过增加冗余存储资源的方式进行ECC校验;FPGA的回读设计,通过回读FPGA内部配置存储器的数据来检测是否发生故障;关键器件的看门狗设计,对关键芯片进行状态监控;板卡的电压和温度监控设计,保证系统的电气特性正常。通过对星载计算机进行全面的状态监控和故障检测,保证其长期的可靠运行。