论文部分内容阅读
随着计算机技术的快速发展、互联网带宽的增长以及智能设备的普及,信息处理与网络服务已经融入到人们生活的点点滴滴。尤其近些年P2P、社交网络、移动互联网、物联网、电子商务与多媒体共享等网络技术的发展,给人们提供便利的同时,也带来了全球信息数据的爆炸性增长。图灵奖获得者Jim Gray曾就全球数据量的增长提出了一条新的经验定律:未来全球每18个月产生的数据量等于从此以前所产生的数据量总和!如何有效地存储、管理和利用如此庞大的数据成为了亟待解决的问题,对其进行深入地研究,具有很重要的现实意义。如今各个行业、各种应用对其所需存储系统的要求越来越高。分布式存储系统以其廉价性和高扩展性等优点,理所当然地成为了海量数据存储的首要选择。然而,由于在分布式存储系统中各个存储节点的可靠性不高,为了保证数据的可靠性,系统会较频繁地对失效节点进行修复。本文基于OpenStack平台搭建了一个Hadoop实验集群,并在搭建的实验集群中应用了复制策略、XOR策略、RS策略和SR策略四种存储策略。我们通过理论分析,对比了四种存储策略的理论存储开销、理论修复网络流量开销和存储单个文件的可靠性。接着通过在所搭建Hadoop实验集群上进行的实验,得出了四种存储策略存储不同大小文件的实验存储开销、实验修复网络流量开销等性能,将其和理论性能进行了对比,并根据所得实验结果和各个存储策略的特点,通过较为全面的分析,给出了四种存储策略所适用的不同应用场景。分布式存储系统有“一次写入,多次读取”的特点,当用户在从分布式文件系统中读取文件时,需要从各个节点下载所需的数据块,重构出原始文件,特别是对于一些热门的文件,在用户读取文件的高峰时期,分布式存储系统这种“多次读取”的特点就会造成网络拥塞,不仅影响文件的可用性,还可能影响文件的可靠性。论文通过研究基于分布式存储系统的数据分发策略,将分布式存储技术与CDN的思想结合,把通信问题转换为分布式存储问题,在分布式存储架构下利用增加存储开销来缓解高峰期网络拥塞。并以Hadoop集群实验为例,验证了此数据分发策略的可行性。