集群作业管理系统中负载监视和检查点技术的研究与实现

来源 :南开大学 | 被引量 : 0次 | 上传用户:aji_y
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
集群系统是一组独立的计算机的组合,他们可以自主的共同协作以完成一件任务。集群已被广泛应用于高性能计算领域,提供了低成本,可扩展及高性能的计算能力,在众多的科学计算、工程计算中取得了良好的使用效果。集群也常被用来提供高可用性的服务,为企业、银行和电信等系统提供高度稳定和可靠的运行环境。 集群/作业管理系统是构成集群的重要软件系统,它的主要任务是对集群的资源进行集中的监控和管理,为用户提交的任务分配可用的计算资源,并监控和管理作业的执行及结果的返回;同时,他还提供了系统容错和错误恢复的能力,对于大型的计算任务来讲,可以在事故或错误发生时将其损失减少到最小程度。 本文主要对集群的负载监视和检查点技术进行了深入的调查和研究,并分别独立的在实验室环境下实现了集群的负载监视和用于容错的检查点模块,为研究集群管理系统的实现技术打下了基础。
其他文献
随着网络技术的发展和Internet在全球的推广,网络在给人类社会带来便利的同时,网络安全问题也困扰着网络技术的发展和应用,信息安全问题也成为社会关注的焦点之一。在信息技术的
本文以提高网络的容错度为目的,在M(o)bius立方体这种互连网络拓扑结构下,考虑故障处理器发生的概率和故障处理器的分布状况,即在条件连通度下分析互连网络的容错性能和容错
电源技术是一种应用功率半导体器件,综合电力变换技术、现代电子技术、自动控制技术的多学科的边缘交叉技术。随着科学技术的发展,电源技术又与现代控制理论、材料科学、电机工程、微电子技术等许多领域密切相关。 本文结合日本株式会社要求研制设计的三相交流AC150V、450HZ输入,220V、50/60HZ单相正弦波输出的逆变电源设计项目,针对正弦波逆变器的工作原理、控制方式以及输出滤波等问题进行了研究
容迟网络(DTN)通常被认为是一类由于设备经常移动、分布稀疏的特性或是设备电量受限或是可能经常发生故障等因素,通信设备之间缺乏稳定连接的网络。由于其不稳定的网络性质,针对
人脸自动识别系统是模式识别、数学图像处理、计算机视觉、神经网络等学科的一大研究热点,可以广泛地应用于安全部门、电视电话会议、身份识别、数字监控等领域。由于快速增
关键字检索和不确定数据处理是近年数据库领域的两个研究热点。本文研究的主题是在含有不确定数据的关系数据库和XML数据库上了运用关键字方法,检索用户查询的关键字。本文的
随着网络技术和分布式技术的发展,计算机支持的协同工作(CSCW)已成为计算机领域研究的热点,同时在计算机辅助教学(CAI)领域中,计算机支持的协作学习(CSCL)也随着网络教学的发
  遥感解译系统需要在图像实时处理过程中获取各种背景和专题数据以辅助确定目标对象的性质并最终生成多种解译产品,系统成败的关键之一在于各种类型数据的高效组织和使用。
今后的计算机系统会向“能力更强、无所不在”的趋势发展,逻辑上统一而物理上分散的分布式系统、嵌入式系统则是对这两个概念的最好诠释。这些不断涌现的要求各异的环境对操
Linux操作系统是一个完全自由、免费和公开的操作系统,它提供了完整的操作系统的内核源程序,给我们提供了一个建立自主产权的操作系统的学习机会,对于我国发展自主的操作系