论文部分内容阅读
随着通信行业和互联网行业的快速发展,用户在上网过程中产生的数据量以TB级速度增长,企业的海量数据处理和存储面临着严峻的挑战,数据的处理能力和存储能力以成为企业发展需要考虑的一个严峻的问题,分布式计算和云存储的应用能解决这一问题。Hadoop分布式系统以其随机访问、实时读写为大数据提供了存储条件。同时,Hadoop分布式系统之所以备受广大企业的青睐,是因为其处理性能和系统稳定性高、成本低和扩展性强的特点。HBase是Hadoop系统中的子项目,在数据更新和存储上与关系型数据库不同,它同时也继承了Hadoop的优点。HBase提供的接口方便了开发人员的应用。因此,许多大企业都用到了Hadoop分布式系统对海量数据进行处理和存储。本文对通信企业在海量数据处理与存储上遇到的问题进行了分析,设计了系统的总体架构,并实现了其中的主要模块功能。作者的主要工作如下:(1)针对中国电信某分公司提出全省上网日志文件的存储与查询需求进行分析,同时考虑到系统的安全和稳定性的需求,提出了系统的总体架构。并搭建了Hadoop集群的实验环境,为系统的实现提供了良好的支撑。(2)根据每个模块实现的功能将系统的总体架构分为数据采集、数据处理、数据存储和数据呈现四个模块,以及各个模块的功能进行了详细设计。同时,实现了系统的数据处理模块、数据存储模块和数据呈现模块的功能。(3)实现了海量数据存储和计算平台的主要功能模块。数据处理模块主要使用MapReduce程序对数据进行处理,主要对数据进行连接操作。数据存储模块使用三种不同的存储方式进行存储,包括关系型数据库Oracle、Lucene和HBase分布式数据库。数据呈现模块又分为WEB端和Service端,采用WebService的方式实现。WEB端主要是页面的呈现使用了缓存技术。Service端主要是数据的查询,查询出的结果以Json的数据形式传递给前段页面。(4)通过四组不同数量级的数据分别对Oracle、Lucene和HBase存储和查询性能进行了实验分析,同时结合Hadoop的存储能力对实验结果进行了分析。实验结果证实了使用该系统能满足用户提出的需求。