论文部分内容阅读
随着软件即服务的云计算服务理念的兴起与发展,面向服务的系统被越来越多的企业和用户所接受,企业受益资源的合理利用,节省成本,用户体验高品质的服务,享受便利。论文选题来源于小区云主站监控系统项目,传统电力系统主站现场出现问题时,用户需要自行反馈问题并等待运维人员远程解决,用户发现问题时异常已造成了损失,缺乏对异常的及时告警,浪费了人力、财力和时间,严重影响了用户体验和运维效率。通过对云计算资源的集中化管理,各类指标的实时监控、诊断和告警,系统解决了传统运维方式效率低下和资源分散管理的问题,但云监控系统普遍采用固定阈值的告警策略,主观性太强,因此,灵活告警阈值的设定和异常指标的准确判断成为了项目中的一个难题。本文结合云监控系统的业务需求、云监控系统的国内外现状,通过对开源监控工具Zabbix和时间序列预测工具Prophet的研究与分析,设计实现了一个云监控系统,具体工作如下:1)使用开源监控工具Zabbix对集群服务器、网络和应用的性能指标进行采集,并在Zabbix基础上进行二次开发,在web端进行各类监控指标的可视化显示;2)使用时间序列预测工具Prophet完成对服务器、网络和应用的时间序列指标的预测,动态调整告警阈值,对各类指标进行异常诊断;3)基于诊断结果对异常信息进行邮件和短信方式告警,及时发现问题,降低损失;4)完成指标诊断配置、异常告警配置、异常信息管理和告警信息管理的功能;5)对系统功能性需求中的采集、诊断、告警和非功能性需求中的系统性能进行全方位测试。系统已完成测试并在公司内部投入使用,基本满足了日常运维工作的需求,提升了运维效率、减轻了运维压力,对小区云主站和公司电力运维的发展意义重大而深远。