论文部分内容阅读
随着网络技术的不断发展,计算模式也不断的发生着重大的变革,近年来先后出现了网格,广域网P2P,云计算系统等等,这些都是大规模的网络计算系统典型代表。然而网络计算系统在不断发展和演化的同时,也遇到了不少新的挑战。诸如现代军事,金融,航天航空,电力,工业制造甚至于民用互联网应用等领域对网络计算系统的要求越来越高,不仅仅要求系统能够提供快速处理各种应用业务的功能,也要求系统能够持续地提供高可靠,高可用,低耗费,低成本等特点的高质量服务。但是,即便在计算机应用水平高度成熟,应用范围高度普及的现代社会,仍然存在大量服务失败的情况。因此,如何为网络应用提供高可信性(Dependability)的支持,也就成为分布式计算技术应用与发展的关键。面向这些新的要求,学术界以及工业界做了大量的基础性研究,本文针对可信计算中大规模分布式可信监控的若干问题展开探讨和研究。在对已有的相关技术及研究成果总结和深入分析的基础上,提出了在大规模分布式计算环境中的可信监控系统的体系结构以及监控策略,并设计了相应的自组织式的监控模式以及相关自组织算法、异常消息散播算法、系统异常检测算法,最后实现了一个自组织式的原型系统。具体研究工作如下:①针对大规模分布式系统的特点,分析总结了其在可信监控方面面临的问题;根据现代开放性网络分布式系统的特点,提出了开放网络环境下的分布式监控的类型以及系统监控与上层应用相分离的监控体系结构;建立了可信监控数据采集、异常分析、可信策略控制、组成员管理、监控消息发布等模块的总体监控架构,并给出了监控系统的运行流程;②将传统的故障检测含义进行了扩展,在基于时间预测的故障检测基础之上,把系统异常检测也包含在故障检测之内,形成对系统的综合可信监测;提出了针对大规模分布式系统的分邻域自组织可信监测协议,设计并分析了相关算法;分析了传统的Gossip协议在故障检测方面的优缺点,提出了基于自组织式的Gossip监测算法,并将其进一步改进为基于异步散播的可信监测算法。仿真实验表明,在监控的准确性方面分邻域的自组织可信监测更优,且在通信耗费方面取得了较大进步。而基于异步散播的可信监控算法有效地降低了监测控的时间耗费,增强了大规模分布式系统监控的实时性和fail-stop类型故障检测的准确性。③针对传统Δt故障检测方法仅对fail-stop类型的故障进行监测的局限性,从模式识别的角度考虑系统的运行状态的变化,以多维可信监测指标向量作为异常判别的输入,利用降维技术以及原始样本数据最大分散化的思想设计了基于PCA的异常判别算法;结合高维数据向低维空间映射时存在内部流形结构的特点提出了PCLPP异常判别算法;利用样本分类标签进行监督学习的Fisher判别分析的优点并结合流形学习提出了DLPP异常判别算法。仿真实验表明,基于模式识别的异常监测算法能有效地识别出包含系统固有缺陷及恶意故障引起的系统异常,识别精度较高,满足分布式系统中可信监控的实际需求,并且在样本的控制方面也有突出表现。④设计了大规模分布式可信监控的原型系统,对系统中每个组件的实现过程给出了详细的介绍;在工程实践方面提出了设计面向大规模分布式应用的可信监控系统的若干原则;在该原型系统之上做了本文所述监控系统的系列实验,验证了系统各组件的功能。综上,本文在分析研究当前可信监控技术在大规模分布式应用环境中所面临的若干关键问题,设计并改进了一系列监测算法,分邻域自组织算法,以及基于模式识别技术的异常监测方法,对这些协议、算法进行了理论分析及证明并得到了仿真实验的验证。