【摘 要】
:
随着并行计算的规模越来越大,超级计算机的规模扩展到成千上万的独立节点,这意味着硬件更容易在运行时间较长的任务时发生故障,已经有结论表明超过10万个处理器节点的系统在
论文部分内容阅读
随着并行计算的规模越来越大,超级计算机的规模扩展到成千上万的独立节点,这意味着硬件更容易在运行时间较长的任务时发生故障,已经有结论表明超过10万个处理器节点的系统在几分钟之内便会出现一次节点故障,而用户需要并行程序能够适应硬件故障而继续执行,希望并行机能够达到一定的容错效果,因此,如何实现容错是高性能计算领域一个相当重要的课题。
高性能计算系统中最广泛使用的编程接口规范是MPI(Massage PassingInterface),本文首先介绍了基于MPI的编程环境目前存在的相关容错技术,总结了基于外存储设备进行checkpoint的相关技术,介绍了多种MPI的容错机制。
本文提出了一种新的容错机制,采用存储领域中的容错编码技术,实现内存方式(in-mermory)的容错。本文分别实现了基于RAID4、RAID5、RDP、X-Code等多种编码方案的内存方式的容错,并且在FT-MPI环境下进行了实验。本文所提出的内存编码实现方式,对于中等规模需要迅速恢复故障程序的情况下,具有实际的应用价值。
本文最后对各种内存方式作了理论分析,进行了测试,与磁盘写检查点的方案进行了比较,分析实验结果,给出了容错性能的评价结论,并对今后的进-步工作进行了讨论。
其他文献
随着企业生产规模的不断扩大,自动化立体仓库由于其物资存储效率高,占用空间少等特点越来越被广泛应用。立体仓库主要使用固定货架来存放货物,对固定货架货物拣选路径的优化
随着因特网技术的迅速发展和不断的普及。Web日志资源越来越丰富,如何充分利用这些资源,从中提取到用户所感兴趣的信息数据,是当前计算机领域的一大挑战。Web日志挖掘就是利用数
数字水印技术作为信息隐藏理论的一个重要分支,是目前信息安全领域一个新的研究方向,在数字作品版权保护、保密通信等领域会发挥重要的作用。进一步提高空域算法的鲁棒性,通
现有的Ad hoc网络低能耗协议中,多数是针对单独的数据链路层或网络层进行协议设计,而没有根据网络五层协议栈进行设计,良好的Ad hoc网络协议需要上下层互相协助,现有的Ad hoc网络
随着Web技术的普及和信息技术的发展、推广与应用,以图像、声音和视频为主的多媒体信息迅速成为信息交流和服务的主流,现代信息处理的对象和方法都有了很大的变化。大量各种
随着信息技术的发展,各行各业信息化程度越来越高,随之而来的是对系统功能、性能等方面要求的日益增多。传统的网络开发模型,如C/S架构和B/S架构,或是在B/S架构基础上最新发
当前,随着网络的高速发展,以及网络的突发业务流量的急剧增加,网络应用系统的性能已经成为人们关注的焦点。深入研究表明,在真实的网络应用环境中,自相似模型更适于描述真实
电子选举是密码学的重要应用方面,与传统的人工选举相比,电子选举可以节约大量的人力物力,具有明显的优点。目前已发展的电子选举协议的安全性都依赖于中央机构,这就要求投票
随着信息科技的高速发展,解放军大力加强了部队各方面的信息化建设。解放军某部针对新时期干部管理特点,基于成熟的目标管理理念,并以某设计研究所为试点研制和开发了基于B/S