异构并行计算机容错技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:w897156334
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
并行计算是实现超高性能计算的主要技术手段。当前,随着GPGPU性能的不断提高,利用CPU和GPU构建的异构并行系统已经成为高性能计算机领域的研究热点。然而随着并行计算系统规模的不断增长,高性能计算机面临严峻的挑战。由于异构并行系统更为复杂的体系结构以及其特有的性质,且商用GPGPU容错能力较弱,所以由CPU和GPU构建的大规模异构并行系统的可靠性问题更为尖锐,尚缺乏实用的容错手段。本文针对异构并行计算机的容错技术展开研究,以异构并行系统硬件故障在软件中的传播行为为理论基础,对应用级checkpointing技术的保存数据量优化问题进行研究;分析了异构并行系统多checkpoint的全局开销最优化问题,并提出了设置方案;同时,针对异构并行系统提出了一种新的面向GPU的多副本容错技术RB-TMR,并对其所具备的关键机制进行了详细的研究与设计实现。本文的主要贡献如下:1、提出了一种面向一般计算系统的计算可接受模型。建立程序的执行结果可接受以及可接受度的定义,并进一步定义程序多次执行的可接受和多次执行的可接受度,以此为基础得到可接受度的相关定理和推论。针对异构并行系统将可接受度的相关定理和推论进行了扩展,并建立异构并行系统的可接受模型,同时进一步案例分析两种常见的容错技术checkpoint/restart和TMR应用到异构并行系统上时,对可接受模型的影响,从而给出容错机制的指导意见和优化方法。2、基于过程间相关性理论,提出了由CPU和GPU构成的异构并行系统中硬件故障在软件中传播行为描述方法,我们称其为故障传播模型。同时,根据故障传播模型,设计了针对该系统的checkpointing机制,并针对影响checkpoint/restart开销的主要问题之一——checkpoint保存数据量进行了优化。实验证明该优化方法可以有效的减小开销,提高容错性能。3、深入研究了面向异构并行系统的多个checkpoint的全局开销最小化问题,提出了面向异构并行系统的同步及异步两种机制的多checkpoint全局开销最小化的优化设置方法。首先提出了两个针对优化设置多个checkpoint位置的基本问题。然后通过对异构并行系统体系结构和程序特性的分析,提出了基于两种机制的异构并行系统的多checkpoint设置方法:同步及异步机制的checkpoint设置方法。同时,根据checkpoint优化设置的两个具体问题分别对这两种机制进行优化设置分析和数学建模,并给出了相应的求解算法。4、提出了一种回滚机制与TMR技术相结合的容错技术RB-TMR。这一技术可以有效应对fail-stop故障与瞬时故障两种类型的故障进行容错,我们给出了这一技术的实现方法,并针对异构并行系统体系结构及程序模型的特征对其中关键机制的设计进行了具体分析和讨论。同时,设计并实现了一个面向RB-TMR机制的源到源编译辅助工具,可以辅助用户面向CUDA程序完成RB-TMR机制的实现,减轻了用户实现RB-TMR机制的负担。实验结果表明RB-TMR技术能够实现较高的错误检出和纠正率,有效减小可能需要回滚恢复的概率,根据综合评定,其相对于传统checkpointing及TMR技术有更好的容错性能。
其他文献
目的:探讨阿法骨化醇联合阿伦膦酸钠(ALN)治疗绝经后骨质疏松症(PMO)患者的临床效果及对其疼痛症状和骨代谢指标的影响。方法:选取2015年2月-2017年3月本院门诊收治的80例PMO
战争题材的影片当是中国电影的传统强项,在中国电影类型美学取得长足发展的当下,战争题材的影片仍占较大份额。在类型美学的语境中,国产战争题材的影片已经升级成为战争类型片,战
报纸
1病例资料患者女性,74岁;因慢性肾炎尿毒症于2000年行左前臂桡动脉头静脉侧侧吻合后开始行维持性血液透析2次,周,血流量300~400mL/min;至2005年7月无明显诱因出现左前臂肿胀,透析中自
随着新教学体制的深入发展,人们对体育教学的重视度也越来越高,它作为文化科学知识的重要组成部分,在对人才的培养方面起着十分重要的作用。在体育教学中,培养学生的体育兴趣
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
构建爆破质量评价管理体系符合现代化矿山企业建设管理思路,对提高企业爆破管理水平和降低工序成本有积极的作用。针对露天矿山爆破质量评价管理,引入精细爆破管理理念,提出