论文部分内容阅读
存储系统经历了单盘系统,磁盘阵列(Redundant.Arraysof Inexpensive Disks,RAID),开放系统的直连式存储(Direct-Attached Storage,DAS),网络附属存储(Network Attached Storage,NAS),存储域网络(Storage Area Network,SAN)以及分布式存储系统几个发展阶段。随着数据量的急剧增长,数据存储需求对存储系统的可靠性、吞吐性能提出了更高要求。分布式存储系统能够分散数据服务器的压力,获得较高的吞吐量提供高可靠性、高性能的数据存储能力。故分布式存储系统成为当前服务供应商常用的存储技术,其中云存储就是一个很典型的应用。 自从云计算提出以来,企业界与学术界对云存储进行了广泛研究。其中大部分云存储平台的容错机制为副本冗余机制。该机制的优点在于系统实现简单、能达到服务器负载均衡的目的、有较高的吞吐量,但副本备份需要消耗大量的存储空间。针对副本冗余机制消耗存储空间多的问题,有学者提出采用纠删码容错机制作为云存储系统的容错机制。采用这种方法能够减少备份所消耗的存储量,且能够提供较高的可靠性,但是将降低服务器负载均衡能力。 针对上述情况,本文提出了一种在云存储平台下通过维护一张文件访问频率表来自适应调整容错方式的容错机制AFSFM。在AFSFM中对于常读取的文件采用副本冗余容错机制,以获得更高的吞吐量和服务器负载均衡;对于不常读取的文件采用纠删码容错机制,以减少备份数据所花费的存储空间。 本文主要工作如下: 1)分析总结了纠删码在分布式系统中的实现原理具体实现步骤; 2)分析了开源云存储平台HDFS系统架构、通信方式以及工作原理。 3)在前两点的基础上的实现了AFSFM框架,并对关键步骤进行了分析说明; 4)针对AFSFM的特性设计实验对AFSFM的可靠性以及AFSFM的系统性能进行了验证和测试,并对实验结果进行了分析。 实验结果表明:AFSFM框架能够正确地恢复受损数据,具有较高的可靠性;AFSFM在内存占用,特别是内存Cache占用率上要大于使用副本冗余机制的系统;AFSFM在CPU使用率上AFSFM要稍高于使用副本冗余机制的系统;AFSFM在较使用副本冗余机制的系统在内部吞吐量是有所减少。综合上面分析,证明AFSFM基本达到了预期的效果,有其自身的优越性。