论文部分内容阅读
经济快速发展已经成为当今社会发展的主题,伴随着Internet技术的快速发展,信息量更是呈现出爆炸性的增长,人们每天在面对繁忙工作的同时,也需要面对非常庞大的数据量,用更为精确的表达就是说需要大量用于存储数据的空间和存储大量冗余数据的拷贝。这些数据也都以一定的速度在不断迅速增长。因此,数据如何有效地保存及如何快速地从大量的数据中读取自己需要的数据,将可能变为影响一个企业快速发展必须要考虑的问题。云存储具有传统数据存储技术不可替代的优势:高可靠性、高通用性、高扩展性、大容量,云存储让企业实现提高效率、降低成本不再成为一个难题。本文的研究内容为基于云计算数据存储技术的研究,本文主要对Hadoop平台中的两个核心组件HDFS文件系统和MapReduce分布式计算模型进行了详细的分析,并提出了HDFS文件系统可能存在的一些问题,比如单一节点存在的性能瓶颈和NameNode节点的可扩展性差等,对此进行分析后,本文在原来的HDFS文件系统基础上对它进行了一个简单的优化,从而可以整体上提高系统的性能,增加系统处理数据的数量。在论文的最后,对改进前后的系统进行测试,实验数据表明,改进后的系统在我们可以接受的性能损失下,能够达到我们预期的结果。同时,本文对当前较为流行的Hadoop平台分析研究后,希望人们可以更多地了解Hadoop平台,并以此来促进它的发展,来更好地解决我们在存储方面的难题。