【摘 要】
:
基于BSP的并行计算系统适用于面向海量数据的图计算、矩阵计算等需要多次迭代的算法实现。其与MapReduce并行计算系统类似,也将基于低成本服务器和本地磁盘来提高海量数据的
论文部分内容阅读
基于BSP的并行计算系统适用于面向海量数据的图计算、矩阵计算等需要多次迭代的算法实现。其与MapReduce并行计算系统类似,也将基于低成本服务器和本地磁盘来提高海量数据的并行处理能力。而在上述由大规模商用计算机组成的集群中,经常会出现节点的故障,因此如何能够容忍这些故障的出现,并及时地采取补救措施是非常必要的,课题研究的目的是通过故障恢复机制的合理设计与实现,使得系统具有较强的容错能力。因此实现故障恢复的透明性和提高故障检测、诊断、恢复的效率,减少对系统正常工作的影响将是课题研究的重点和难点问题。针对上述问题,本文研究并实现了基于增量检查点的回滚故障恢复机制,它不仅能够有效的节省存储资源,而且故障的发生相对用户具有透明性。文中主要从三个方面展开了研究。首先,针对数据量大时读、写检查点会降低系统效率的问题,本文在原有的检查点机制的基础上进行了改进,实现了检查点的增量读、写,这样不仅大大的提高了读、写检查点的速度,而且有效的节省了系统的存储资源,当数据量达到一定规模时,增量读、写检查点的实现能够有效的提高系统的效率;其次,实现了基于“心跳”的故障侦测功能,成功的解决了主控端如何获得系统故障信息的问题。通过“心跳”主控端可以及时的获取故障相关信息,并触发相应的故障恢复方案。最后,针对作业运行过程中故障发生的随机性,本文对系统中出现的故障按迭代计算过程的前、中、后分成三阶段,并根据故障发生的阶段和类型分别对这三阶段的故障进行处理。经过实际部署与应用,基于BSP的大规模图处理系统的故障恢复机制取得了预期的效果,系统通过“心跳”能够侦测到作业运行过程中可能出现的各类故障并根据故障所处的作业运行阶段和具体的故障类型采取不同的故障恢复方案。同时,该容错系统具有良好的可扩展性,可以方便地增加能够处理的故障种类,或通过进一步的修改应用于相关系统的故障恢复。
其他文献
本文首先通过介绍面向对象数据库的产生背景,发展和现状,比较了其和传统关系型数据库在基本特性、开发方式、适用领域、性能上的区别,指出了面向对象数据库更合适用于有数据类型
本文把P2P模型和基于本体 (Ontology) 的形式化知识管理方法结合起来,用动态演变的局部本体(Local Ontology)来跟踪单个用户的需求变化,用所有局部本体的融合和映射(Merging an
数字水印技术,是指在数字化的多媒体信息中嵌入某种不易察觉的信号,在需要的时候可通过特定的算法,将此信号提出,用以确认身份的技术. 该文介绍了数字水印系统的嵌入与检测模
基于位置服务的空间查询在交通导航、救援服务以及数字战场等诸多领域有着广泛的应用前景。近年来,随着无线通信和全球定位系统(Global Positioning System,GPS)定位技术的发
随着网络技术的发展,XML在各个领域的应用越来越频繁,于是以XML格式表示的数据大批量的出现,为了有效地管理这些数据,原生XML数据库应用而生。这是一种根据XML数据的特点设计
本文首先对电子邮件基本原理做了简单的介绍,并介绍了SMTP、POP3以及IMAP等相关的电子邮件协议。探讨了LDAP(Lightweight Directory Access Protocol)的原理、概念和具体应用
目前,呼叫中心在技术和应用上都得到了快速充分的发展,平台之间技术上的差异已经逐渐缩小;而平台功能的兼容性及辅助子系统的功能将决定平台是否在激烈的市场竞争中脱颖而出.
OPC是工业控制和生产自动化领域中硬件和软件之间的接口标准。它是一种基于Microsoft公司DCOM的技术。由于DCOM的平台相关性,因此不利于OPC技术的广泛应用。 由于代表分布
随着Internet/Intranet发展,Web应用领域扩大,XML已成为面向Web的网络语言.基于XML信息抽取成为与Web语义相关的重要研究课题.该文在分析XML语义及基于SBT信息抽取方法基础上
网络编码[9]的核心思想是在网络传输的内部节点中,可以对各个数据包进行进一步编码,而不像传统传输方式中仅仅将数据包进行转发。目前已经证明,在实际应用中,利用伽罗瓦域对数据