论文部分内容阅读
随着互联网的飞速发展,人类已经进入大数据时代,数据量呈现爆炸式的增长,云计算作为解决海量数据的有效手段也越来越受到人们重视。同时,云存储作为云计算支撑性的底层服务也显得越发重要。尤其是目前最为流行的开源分布式文件系统Hadoop Distributed File System (HDFS),以其廉价、简单易部署的特点成为各大企业的首选。但是由于其自身的一些缺陷制约了HDFS的应用。本文首先研究了目前几种主流的分布式文件系统,分析了各自的特点,重点剖析了HDFS系统架构及其运行机制。HDFS采用的是主从式的架构,系统只有一个主节点,这种架构容易造成单点失效和高并发访问的性能瓶颈问题。本文针对这一问题,提出了一种去中心化全分布式架构。该架构通过将单个Namenode水平扩展为多个来解决单点失效问题。通过对元数据同步机制的深入研究,我们使用Secondary Namenode解决系统的元数据一致性问题。同时,文件采用读写分开的方式存储,对只读性文件的存储策略进行改进,采用一致性Hash存储,将部分元数据隐藏在文件名中,从而降低内存中的元数据量。同时采用文件偏移量而非固定分块方式存储文件位置,减小文件碎片。最后通过系统仿真,说明在可靠性、文件碎片、内存元数据方面所提架构比HDFS系统具有较大提升。