论文部分内容阅读
目前,计算机系统已全面进入“云计算”、“大数据”时代,由大规模服务器集群响应海量请求和处理海量数据已经成为必然趋势。但是仅仅具有高性能计算能力的集群系统还远远不能满足这种大规模应用的需要,它必须还能够提供连续的服务。所以如何提高集群系统的可用性,尽最大可能避免因系统失效而导致的严重后果,并设计可扩展的高可用集群系统,已经成为当前集群系统研究的热点问题之一。本文对高可用集群系统进行了研究,设计了一个高可用集群系统的框架,并对高可用集群系统的两个重要问题:容错机制和任务分配与迁移机制进行了深入研究。针对目前心跳检测算法普遍将心跳包的超时时间阈值设定为固定值而导致误判的问题,本文提出了一个基于ARMA预测的双层心跳检测算法,该算法采用ARMA方法预测心跳包的到达时间间隔,动态设置心跳包的超时时间,从而减少对节点状态的误判;针对目前负载均衡分配算法未考虑任务与资源的相关度问题,本文提出一个资源相关度关键的负载均衡分配算法,该算法充分考虑任务与各节点资源的相关度,能够在保证系统负载均衡的前提下,尽可能地将任务分配给与其相关度高的资源运行。论文将提出的心跳检测算法应用于容错机制中,负载均衡算法应用于任务分配机制中,并初步实现了高可用集群核心部分的原型系统。对所实现的系统进行了性能测试实验,对实验数据的分析表明:系统具有故障检测正确率高、可用性高、负载均衡性能优秀以及任务等待时间短等优点。