论文部分内容阅读
随着互联网+概念的提出,大数据和云计算的兴起,传统行业不断拥抱互联网,持续进行信息系统建设和改造。然而在获得新技术带来的各种好处和效益的同时,如何去维护这些繁杂的信息系统,特别是在大流量、大数据、高负载情形下,确保系统能够顺利运行,这给各个行业各个公司的决策者和各个信息部门维护者带来了极大的挑战。因此,本文设计并实现了运维监控与管理系统,通过定期采集信息系统各个生产服务器、数据库服务器、中间件等信息,同时给用户提供数据报表、告警等功能,来减轻用户运维工作难度。本文首先叙述了本运维监控与管理系统研究背景和意义,然后对核心数据采集服务的设计和实现做了详细的介绍,主要包含内容如下:1)实现多监控目标数据采集服务。本系统采用拉模式和推模式相结合,对IT基础设施、数据库(My SQL、Oracle、SQL Server)、常见中间件(Redis、Docker、Rabbit MQ)实现了监控。不仅如此,为保证采集服务的高可用性,本系统基于Zoo Keeper,实现了服务的注册和备份。2)实现高可扩展的监控数据存储服务。得益于Rabbit MQ,系统将数据采集与存储服务解耦开来。用户可以根据目前负载情况,部署多个存储服务,来改善系统吞吐量。3)完成高效的历史监控数据查询系统。鉴于用户对最近历史监控数据查询操作频繁,本文设计并实现了基于Redis高效的缓存系统。4)建立数据预测模型,能对机器资源使用和负载作出预测决断。本系统设计并实现数据预测模块,能对常见的机器资源使用情况作出合理的预测,帮助用户提前做好防范,降低运维风险。最后,论文分别针对上述研究内容进行实现,完成了系统并给出了测试结果。结果表明,本系统在易用性、服务稳定性表现突出,能极大减轻运维人员工作量,提高其工作效率,提升了企业经济效益。