论文部分内容阅读
在海量数据处理中,如何高效、快速地从海量数据中挖掘出潜在价值并转化为决策依据的能力,将成为企业的核心竞争力。数据分析的重要性毋庸置疑,但随着数据的产生速度越来越快,数据量越来越大,数据处理技术遇到的挑战也越来越大。如何从海量数据中挖掘出有用的价值,分析出深层含义,进而转化为可操作的信息,已经成为各互联网企业不得不处理的问题。本文对目前海量数据处理遇到的数据收集、数据存储、数据分析和海量数据查询等问题进行分析。通过与传统的基于关系型数据库的数据分析模型和基于Hadoop的海量数据系统之间的比较,可以看出Hadoop在海量数据处理过程中,有着易扩展、成本低、吞吐量大等特点。本文分析了传统的关系型数据库在海量数据查询遇到的问题。对NoSQL数据库进行了介绍,并与传统的关系型数据库进行了比较,总结了NoSQL数据库的优缺点,并对其使用的场合进行总结。对MapReduce的性能进行了性能分析,得出了MapRecue框架中的CPU、I0和网络开销的量化分析的结果,并对MapReduce性能提出优化意见。以此为基础设计了基于Hadoop的数据分析系统,并在实际中得到测试和应用。本文主要进行了如下方而的工作:1.分析和比较NoSQL数据库和传统的关系型数据库的优缺点。2.量化分析了MapReduce框架编程中的IO、CPU和网络开销等问题,并给出优化意见。3.采用分布式数据收集系统,对海量数据进行收集,解决了日志实时收集的问题。4.采用Hadoop框架,使用HDFS解决了海量数据的存储问题,使用MapReduce编程框架解决了海量数据处理的问题。5.采用Avatar Node方式对Hadoop框架的单NameNode节点进行改进,增强Hadoop集群的稳定性。6.设计基于Hadoop的海量数据处理系统,并进行测试和在实际中得到应用。