论文部分内容阅读
目前运营商的网络建设的逐步成熟,3G业务的快速发展,网络质量的好坏已成为电信运营商关注的重要课题,如何保证网络的高质量,已成为最重要的运营商网络优化工作。要满足这些需求就需要分析大量的数据,电信的无线PCMD话单和业务话单每天的数据量上TB级,原来的网络优化平台由于架构上的限制对如此大的数据量越来越力不从心。为了对海量的数据进行分析处理,快速查询统计达到对网络情况精确了解,进行精准网络优化,因此建立一个大数据分析平台势在必行。Hadoop[1]架构是业内公认的处理海量数据的高性价比解决方案。这个方案提供了一种可以构建在普通PC服务器上的高可用性、高性能的分布式计算和存储的方法。尤其适合于日志分析。因此开发一套基于Hadoop技术的电信大数据分析平台是电信网络优化部门的很好的选择。本文首先介绍了当前的Hadoop技术的发展现状,介绍了Hadoop技术及相关组件。重点对HDFS[2],YARN[3],Mapreduce[4],Hive[5],HBase[6]的工作原理进行的介绍,描述了电信大数据分析时运用hadoop技术的优势。也为电信大数据分析平台的设计和实现中运用这些技术打下一个基础。然后认真分析电信的用户投诉快速处理,小区负荷分析,业务质量分析,故障排查,重大场景保障,业务占比分析,全网指标统计,用户行为分析,主流业务分析等需求,以及分析电信大数据分析平台所处的位置后,进行了系统总体设计。通过对需求的分类,利用Hadoop中不同组件的特性,发挥各自优势,用Hbase实现了快速查询功能,用Hive实现了快速统计分析功能。另外实现中间件为外部系统提供一系列API接口,使其可以使用数据平台中的计算资源以及已经实现的数据分析算法等。在各个功能的实现过程中根据电信数据的特性对Hbase数据库的使用以及Hive表的使用进行了仔细规划和设计。在已实现的功能的使用中发现有数据倾斜等情况,没能完全发挥Hadoop的高并发的分布式系统的全部威力,根据各个任务情况和数据特性进行优化和调整,最终得到了性能上的提升。最后实现了电信大数据分析平台,其中包括实现了业务负荷,用户感知,实时监控,网络质量分析,安全问题分析,投诉处理等功能,并对电信大数据分析平台进行了展示。