论文部分内容阅读
随着互联网的快速发展,网络中产生的数据量呈指数级增长趋势,如何对海量数据进行高效的存取已经成了计算机领域的一个研究热点。HDFS(HadoopDistributed File System)是Hadoop的一个分布式文件系统,它可以部署运行在普通的硬件服务器上。HDFS具有高可靠性,支持海量数据的高效存取。HDFS放开了部分POSIX约束,支持以流的形式读写数据。 HDFS仍是一个处在发展和完善阶段的云存储系统,现有的数据管理策略依然存在许多不足之处。HDFS现有的副本管理策略在创建副本时,创建的副本个数是固定的;创建的副本在选取存储节点Datanode时,采用的是随机选取的算法。现有的副本管理策略存在系统存储空间的浪费,集群负载不均衡,性能不高等问题。 本文通过对HDFS分布式文件系统的存储原理进行分析,结合云存储领域的相关知识、理论,对HDFS现有的副本管理策略进行了改进。主要包括以下方面的内容: (1)对HDFS默认的副本放置策略进行了改进。HDFS默认的数据放置策略是随机选取Datanode节点进行副本存放。然而集群中每个Datanode节点的性能和负载是不一致的,集群中有些节点处于高负荷状态,有些节点处于低负荷状态,有一些节点是新加入的;随机的选取Datanode节点进行副本存放,集群容易产生负载不均衡。改进后的副本放置策略通过对Datanode节点的性能和负载进行分析,根据得到的权值选择最优的节点进行副本的放置。 (2)对HDFS默认的副本创建策略进行了改进。改进后的策略通过对文件最近一段时间的访问热度和访问趋势进行统计分析,根据文件的访问热度值和访问趋势动态的调整副本的个数;根据系统的可靠性要求和副本的可用性计算副本的默认创建个数。改进后的策略使得集群的整体性能和数据处理效率得到了进一步的提升。 (3)搭建HDFS分布式存储环境,分别对改进的副本放置策略和副本创建策略进行实验验证。实验结果表明改进后的副本管理策略充分利用了集群中各个Datanode节点的性能,提高了集群的可靠性和处理速度,更好的实现了集群的负载均衡。