论文部分内容阅读
应用于金融业、电信业、能源、交通、航空等关系到国家经济安全和社会安全的关键行业中的复杂计算机系统不仅要求具有极强的事务处理能力,还要求具有极高的可用性,能够提供高速、稳定的信息处理服务。这类系统一旦发生延误和失效将会造成不可估量的经济损失,还有可能产生负面的社会影响。开展面向此类复杂计算机系统的可用性测试研究,将有助于提高其可用性,对于保障国民经济平稳运行具有重要意义。以往的一些研究曾提出计算机系统的硬件部件之间以及软件故障之间存在着某种模式的相关性,并且相关性的存在会影响系统的可用性,但是大多是从理论角度出发,并未给出实际系统中相关性存在的直接证据,这使得围绕相关性的讨论往往缺乏实际系统的支撑而说服力不足。为此论文针对某银行计算机系统故障记录和高端服务器运行日志进行分析,指出了系统级部件和元件级部件之间可能存在相关性的证据。为了更好的建模系统可用性,论文对银行计算机系统故障记录和LANL故障数据集进行了故障分布对比分析,发现基于对称多处理机架构的计算系统发生硬件故障的故障间隔时间分布属于Weibull族。为了达到高可用性要求,应用于关键行业中的复杂计算机系统往往采用k-out-of-n系统架构,论文重点讨论了考虑相关性因素的均分负载k-out-of-n系统的建模问题。首先利用随机过程理论为均分负载型的k-out-of-n系统建立系统模型,指出了该类系统自第i-1次部件失效起到发生第i次部件失效的时间的分布函数服从一个两参数威布尔分布,且系统在不同状态的停留时间存在相关性。本文引入copula理论,提出了利用Gumbel Copula函数来捕捉系统在不同状态的停留时间之间右尾相关性的变化,给出了指定失效序列的k-out-of-n系统的部件相关系数矩阵计算算法。分析结果表明,使用考虑相关性的均分负载k-out-of-n系统模型,比不考虑相关性的模型更贴近系统实际运行情况。为了直观的描述系统部件相关性问题,论文介绍了一种基于可靠性框图发展而来的系统描述模型DRBD(Dynamic Reliability Block Diagram)。论文介绍了DRBD的优点,并应用DRBD模型的思想描述了串联可靠性模型、共因/共模故障模型、冗余模型、RAID磁盘阵列模型等多种常见的系统构架方式,提出了基于DRBD模型评测系统可用性的方法,并针对上述多种系统部件连接方式分析了向广义随机Petri网(Generalized Stochastic Petri Net,GSPN)转化并求解可用性的方法。传统的可用性测试方法,利用长时间在线运行多台、同配置的目标系统进行在线测试。但是应用于关键行业中的复杂计算机系统可用性较高,这导致在线跟踪测试将耗费相当长的时间才能得到准确的结果。论文针对这一问题提出了一种基于MTBF(mean time between failure)阈值的k-out-of-n系统可用性测试方法,将系统级可用性测试转化为面向冗余部件的可用性测试。本文面向事务处理型容错计算机系统设计并实现了一个可用性评测系统,由故障注入平台,可用性评测套件以及可用性评测系统数据库组成。利用HP Superdome服务器仿照银行业务系统搭建了一个模拟的双模应用系统环境,在线测试表明,评测结果与官方公布的结果处于同一数量级,本文提出的可用性测试系统可以在较短时间内测试目标系统是否达到要求的可用性级别。