论文部分内容阅读
随着分布式计算系统的广泛应用,系统规模持续增长,系统组件数量庞大种类繁多,相互之间的联系和作用也不断增多,故障的发生成为一种常态而非例外情况。视频监控随着近年平安城市的迅速发展,已经逐步过渡到实时分析的阶段。视频监控分析系统目前已广泛运用于城市视频监控系统。但是,发生故障或维护工作都可能引起视频分析云的失效,对城市公共安全维护的影响巨大。为解决上述问题,从视频分析云计算平台自身维护机制上的高可用性、对于可能故障的预测分析机制、基于故障感知的虚拟机容错配置机制和面向行业应用的高可用调度优化等多方面进行增强研究,能有效解决上述问题,提高系统可用性。对于视频分析云计算平台维护机制上的高可用性问题,由于视频监控是不间断运行的,对视频分析云计算平台的维护需要在不停机的状态下进行,并以最低的成本和最高的系统可用性完成整个维护过程。系统组件间的依赖关系容易引起维护过程的停滞和错误。针对这个问题,云感知维护机制通过支持多重粒度的维护(包括服务级、虚拟机级以及节点级),以减少环境依赖的影响。同时,云感知维护机制维护了一张整个系统的依赖关系图,当维护请求到来时,云感知维护机制通过依赖关系图识别所涉及服务组件间的相互依赖,提出一种改进的维护策略,从而减少依赖对系统效率和可用性带来的影响。更重要的是,云感知维护机制提供了一种对更新维护过程的会话控制方法,以避免复杂的跨层依赖可能带来的失败。视频分析云计算系统中节点数目的增加以及节点组件异构性的存在使得系统发生故障的几率大大增加,单个节点故障的发生有可能会引起其关联节点的连锁反应甚至影响整个系统,整个系统失效的概率也随之增加。对于需要持续稳定运行的视频监控分析云系统来说,一旦由于某种原因致使系统失效将会带来严重的后果。针对这个问题,分析故障的时空联系,以进行有效的故障预测分析,并基于故障感知研究虚拟机容错配置机制,能有效提高整个视频分析云计算系统的可用性。对于可能故障的预测分析问题,主动的故障预测框架分析故障之间的时间和空间的相互关系,通过在时间域和空间域分类故障签名,探索故障发生的时空关系。节点分配信息也被利用以改进预测相关性。联合系统的离线和在线预测的实验结果表明将故障预测应用于高可用性网络计算自主管理是积极可行的。对于基于故障感知的虚拟机容错配置机制,前验性的视频分析云平台利用故障预测技术减轻故障的发生对系统的可用性和能力的潜在影响,并在系统可用性和能力两个因素之间取得了一定的平衡。在进行节点选择时,系统不仅考虑到节点的性能状态,同时考虑到节点发生故障的可能性。当预测到故障发生或者故障实际发生的情况下,该机制对视频系统虚拟机进行重配置和重新调度,以保证系统的高生产能力和高可用性。使用三种不同的资源配置策略评估了重配置机制在提高系统能力和可用性方面的性能,实验结果表明,系统性能包括能力和可用性都有显著的提升。针对行业应用的高可用调度优化,异构云终端优化调度模型针对智能分析云终端与后台云处理中心节点的异构问题,在网络带宽和计算能力受限情况下,从基础设施角度自动实现智能分析任务的有效优化,以最大程度提高视频分析任务的总体完成率。同时,大规模视频监控平台作为共享的公共资源,无可避免地需要执行多个视频分析任务,这些分析任务之间往往存在依赖关系。在对相关任务的依赖性进行理解的基础上,进一步分析了任务间的多依赖特性对高效容错的云终端任务调度模型的影响,并对调度机制进行了进一步改进。实验结果证明,相对于传统的分布式任务处理机制来说,异构云终端优化调度模型可以有效提高全局分析任务完成率,保证了大规模视频监控分析网络的工作效率和可靠性。在不同的终端处理能力和处理压力下,面向容错的调度机制优于传统机制15%至30%,相比于传统机制能很好的适应系统异构性的变化。