论文部分内容阅读
HDFS(Hadoop Distributed File System)作为开源系统广泛地适用于各类存储服务中,具有高容错,易扩展,廉价存储等特点。然而,HDFS基于单一的服务器Name Node来处理元数据信息管理,当处理海量小文件时会造成Name Node内存过分消耗以及存储和读取性能并不理想,使Name Node成为系统瓶颈。本文提出一种基于HAR(Hadoop Archive)的优化机制来提高Name Node存储元数据信息的内存利用效率和提高读取小文件的访问效率。另外,该策略也扩展了HAR文件追