论文部分内容阅读
在当今的技术领域,大数据是个热门的IT流行词语。为了减轻处理大量数据时的复杂度, Apache开发了Hadoop——一个可靠的、可扩展的分布式计算框架。Hadoop分布式架构能够轻松应对二十世纪的大数据挑战,这些数据包含结构化和非结构化的数据,而且Hadoop分布式架构还能大规模并行处理这些海量数据。因此对Hadoop、以及其重要组成部件:Hadoop分布式文件系统和MapReduce(Google MapReduce的开源实现)有一个基本的认识很有必要。在对Hadoop分布式文件系统和MapReduce有了一定认识的基础上,对如何提高Hadoop稳定性进行研究,并尝试优化其性能。在本文中,首先对文章论题的研究背景、研究内容和研究目的进行了讨论,探究Hadoop在二十一世纪不可或缺的重大作用;在这个理论基础上,进行了Hadoop分布式架构系统的搭建,以及在Hadoop分布式架构中加载HBase、Hive等模块,并分析解决Hadoop集群搭建与运行中常常遇到的问题;然后进一步对Hadoop分布式文件系统进行分析与研究,分析常用的读写方式;最后对HDFS在实际应用中可能存在的优化点进行探讨,进行理论研究,然后在研究的基础上,基于已经搭建好的Hadoop集群进行测试。