论文部分内容阅读
随着工艺尺寸的缩小,软错误引发的粒子翻转成为导致处理器运行结果失效的主导性因素。为了权衡设计开销(如:面积等)和可靠性,精确高效的软错误量化方法成为指导容错优化方案设计的关键。当前软错误量化挑战集中表现:“精度-效率难权衡”,“多位翻转(Multi-Cell Upsets,MCU)比例急剧增加导致量化复杂度高”以及“当前量化方法无法很好适应大规模众核处理器结构”等三个方面。针对这些问题,本文基于模型分析驱动的思路分别提出了对应的优化方案:1)本文针对精度-效率难权衡的问题,对软错误在传播过程中的屏蔽效应的充分观察和分析,设计了基于概率图模型(Probabilistic Graphical Models,PGM)驱动的评估精度和效率系统优化方法,并通过三种不同的复杂度和精度权衡的实现方式得到不同的评估的精度-效率优化结果,可灵活应用不同的应用场景,包括:i)MEA-PGM-FO方案快速考虑一阶屏蔽效应提供更优的评估上界,相比仿真注入方法(Fault Injection,FI)保持52x加速比的同时把上界高估幅度降低了最优45.96%和平均8.48%,适合于高效高可靠性设计如汽车控制系统;ii)MEA-PGM-HMM方案采用启发式模型得到快速精确的近似评估值,达到59x加速比的同时把高估的上界值减少了最优98.18%和平均79.14%,适合于面向流处理等低可靠设计的高效量化环境;iii)MEA-PGM-HO是基于截断式推断的高精度高效优化方案,保持43.87x加速比的同时可以把高估的上界值缩小了最优95%和平均87.28%,更适合于航空和航天等极度可靠的场景。2)本文针对复杂的MCU问题设计了基于直方图分析的边界模型(Histogram based Boundary Model,Hi Bo M)驱动的量化方法,一方面利用SBU快速高效量化方法(如错误屏蔽感知的系列优化方案)的统计结果基于边界模型评估面向MCU的量化指标上界和下界;另一方面还采用仿真划分的方式进行分段的边界模型评估,从而得到浮动范围更小的评估区间。它能有效的把MCU问题简化为1位翻转(Single Bit Upset,SBU),灵活扩展到了任意SBU的量化评估方法,并快速得到高精度的评估值,仿真结果指出与精确的错误注入方法相比,可达到44.67~94.6x加速比。3)本文还针对新的处理器结构众核片上网络(Network on Chip,No C)的软错误量化方法从网络结构量化和处理器部件量化两个角度分别提出了:基于PRP的并发注入量化方法和面向MCU的预分析加速注入统计方法,前者首先从分析模型的角度定义了PRP量化指标,并以No C特有的可靠性感知链路添加为例进行了系统验证,通过1次(或少数几次)仿真快速统计PRP值验证软错误的影响以及容错方案的有效;后者面向更精确的SBU+MCU错误模型提出了基于细粒度量化评价的预分析加速统计方法MEPA,通过应用程序的通信特性、可靠性方案的容错能力以及本征的错误屏蔽等可预测信息取消或中断不必要的仿真实现5x加速比。总之,本文基于分析模型驱动的思路,设计、实现和验证了一系列量化方案MEA-PGM-FO、MEA-PGM-HMM、MEA-PGM-HO、Hi Bo M、PRP以及MEPA等,有效解决了面向处理器软错误量化方法面临的精度-效率难权衡的固有问题,MCU新软错误模型以及众核新处理器结构等挑战。