论文部分内容阅读
近年来,随着移动通信的发展,尤其是3G/4G移动通信网络的迅速扩张以及云计算技术的快速发展,各种互联网技术不仅仅局限于PC端,智能设备终端以及各种云服务的迅速膨胀。随之而来就是数据的井喷式大爆炸,在大数据时代,我们必须想方设法存储和分析这些数据。但是目前对于任何单独的硬件都无法存储和分析这些超大数据,因此,基于该问题以分布式系统为基础,本论文旨在构建一个能够采集、预处理、存储、分析计算的并且可以进行资源监控分析运行状态的大数据平台,并基于此平台做一些推荐应用的简单研究测试。本论文针对超大规模数据的存储、分析、应用以及可监控统计分析工作流的平台需求,提出一种基于Hadoop生态系统及其组件的集群平台构建模型。该模型是针对超大数据量的存储分析而提出的,由数据采集预处理系统、数据存储系统、数据计算分析系统以及平台资源统计分析系统构成。数据采集预处理系统是由基于分布式消息系统的Kafka集群搭建而成,该系统既可以将数据发往基于Hadoop的离线处理系统又可以发往基于Spark的准实时处理系统。数据存储系统由基于Hadoop的HDFS分布式文件系统和HBase分布式数据库组成。数据计算分析系统是由MapReduce和以MapReduce为底层计算模型的Hive组成。平台资源统计分析系统则对Hadoop大数据平台集群的计算资源和存储资源的统计分析进行展示,即可以实时监控集群运行状态,也可以根据系统的分析模块得出最近几天或者当天的平台集群的运行状况,指导用户使用集群各种服务、调试和排查作业问题以及优化作业执行过程。最后,结合Mahout库对数据平台在推荐系统上的应用进行了研究测试。