论文部分内容阅读
随着互联网技术的发展,Internet正逐渐向面向服务的体系结构(Service Oriented Architecture,SOA)演化。SOA以用户为中心,目标是为用户提供良好的服务体验,使用户在任何时候、任何地点都能够获得良好的服务。故障管理对于服务QoS保证非常重要,服务的不可用或性能降级都会引起SLA(Service Level Agreement,服务等级协定)违约,影响SP的信誉,并造成经济损失。因此,SP需要面向服务的故障管理机制,在服务发生故障时能迅速定位故障并采取相应措施,以缩短服务宕机时间和性能降级时间。本文围绕着互联网服务的故障管理体系及其相关诊断算法进行了研究,研究的侧重点在于基于概率技术的服务故障诊断,服务故障传播模型建立,故障定位算法的分析和改进,HMM故障传播、以及基于Viterbi的故障假设推理。论文的主要工作包含以下几个方面:(1)分析造成服务故障的复杂原因,比较了现有的故障诊断技术,选择图论技术作为本文研究的理论工具,采用概率模型,提出了HMM故障传播模型。HMM模型通过建立故障之间的依赖转移关系,简化了故障诊断过程。(2)提出了基于隐马尔可夫过程(Hidden Markov Model)的故障传播模型(FPM)的完备形式化表达,在新一代故障传播模型的建模过程中,考虑故障之间的转移关系,同时考虑故障与症状之间的转移关系。故障之间的转移对于外界来说是不可见的,即无法直接确定故障组件。通过HMM故障传播模型对系统的不确定进行建模。(3)针对现实网络中数据获取的困难性,将探针选择与故障先验概率获取通过信息熵结合在HMM故障传播模型中,提出前向一后向算法(Forward-backward)算法,将探针选择融入到模型参数获得的过程中去,使模型参数获取与探针选择成为有机整体。(4)故障诊断的问题可以描述为在观测症状已知的前提下推理故障组件的过程。通过最大的信息熵增益最小覆盖探针集合准则,合理地降低诊断探针产生的网络负载。在故障假设推理部分,提出了信息不完备下的Viterbi N-best的方法,通过排序,保留局部前向函数的前N条记录,递归地进行计算,获得全局最优,推理得到故障源。