论文部分内容阅读
网络故障诊断是网络故障管理的核心部分。提高网络故障诊断能力,实现快速准确的故障诊断,对提高网络系统的鲁棒性、可靠性和系统服务的可用性非常重要。同时,网络诊断能力的提高对减少网络故障的修复时间、降低网络的维护成本也具有重要意义。当前,业界对网络故障诊断已经进行了许多研究工作,从不同的出发点提出了许多故障诊断技术,但仍存在很多问题尚未解决,如在告警丢失、虚假告警较严重和故障模型误差较大的情况下的故障诊断。由于以上现象在当前的网络故障管理中普遍存在,因此有必要寻找一种能够有效地解决上述问题的网络故障诊断模型和方法。本文以实现精确而高效的网络智能故障诊断为目标,针对网络故障管理中的告警信息、故障模型和定位结果不确定性较大情况下的故障诊断问题开展研究,研究侧重点在于故障传播模型的建立、故障定位算法的分析和改进、非确定性情况下故障测试方案的建立以及面向服务的网络故障管理系统框架设计。本文的主要研究工作包括以下几方面:1.对现有的网络故障传播模型进行比较分析,采用二分图作为故障定位的故障传播模型,提出了二分图故障传播模型的形式化定义。基于自顶向下和分层的故障诊断思想,对面向服务的网络故障管理任务进行分解,提出了分层诊断模型和各层故障传播模型的具体建模方法。2.在二分图模型基础上考虑了虚假故障因素,提出了改进的二分图故障传播模型,并通过对故障定位问题目标函数的变换将故障定位问题转化为0—1的最小化规划问题。提出了基于拉格朗日松弛法的故障定位方法LRA对该最小化问题进行求解,并通过仿真实验对算法的有效性进行验证。仿真实验结果表明,与IHU算法相比,LRA算法的精度和效率都有一定程度的提高。3.考虑了告警丢失因素,在改进的二分图模型中加入了隐含的症状节点层,提出了基于三层因果图的网络故障传播模型。在该模型基础上,提出了基于空间搜索的故障定位方案,该方案首先利用启发性方法对所有潜在的故障空间进行搜索,得到一个满足相关性和不冗余性条件的故障假设子空间,然后在该子空间中选取置信度最大的假设作为结果。提出的故障空间启发性搜索算法包括改进的IHU算法RIHU和递归的最小假设创建算法RHC。仿真实验表明,上述算法在提高检测率的同时,降低了算法的误检率,提高了算法的精确性,在告警丢失和虚假告警较严重的情况下比LRA算法的效果更好。4.针对网络故障传播模型和故障定位算法结果中不确定性因素导致最终诊断结果不准确的问题,提出了基于前L个最佳故障假设的故障诊断方案。该方案首先利用故障定位算法求解前L个最佳故障假设,然后利用测试技术对前L个最佳故障假设进行逐步测试,根据测试结果确定网络中发生的实际故障。提出的测试技术有基于信息收益的测试技术和基于互信息的测试技术。5.在网络故障诊断关键技术研究的基础上,设计了面向服务的故障管理系统架构,描述了系统的主要功能模块——数据采集子系统和故障诊断子系统的详细设计。