基于Hadoop的分布式存储与数据分发策略研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:lfshiyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的快速发展、互联网带宽的增长以及智能设备的普及,信息处理与网络服务已经融入到人们生活的点点滴滴。尤其近些年P2P、社交网络、移动互联网、物联网、电子商务与多媒体共享等网络技术的发展,给人们提供便利的同时,也带来了全球信息数据的爆炸性增长。图灵奖获得者Jim Gray曾就全球数据量的增长提出了一条新的经验定律:未来全球每18个月产生的数据量等于从此以前所产生的数据量总和!如何有效地存储、管理和利用如此庞大的数据成为了亟待解决的问题,对其进行深入地研究,具有很重要的现实意义。如今各个行业、各种应用对其所需存储系统的要求越来越高。分布式存储系统以其廉价性和高扩展性等优点,理所当然地成为了海量数据存储的首要选择。然而,由于在分布式存储系统中各个存储节点的可靠性不高,为了保证数据的可靠性,系统会较频繁地对失效节点进行修复。本文基于OpenStack平台搭建了一个Hadoop实验集群,并在搭建的实验集群中应用了复制策略、XOR策略、RS策略和SR策略四种存储策略。我们通过理论分析,对比了四种存储策略的理论存储开销、理论修复网络流量开销和存储单个文件的可靠性。接着通过在所搭建Hadoop实验集群上进行的实验,得出了四种存储策略存储不同大小文件的实验存储开销、实验修复网络流量开销等性能,将其和理论性能进行了对比,并根据所得实验结果和各个存储策略的特点,通过较为全面的分析,给出了四种存储策略所适用的不同应用场景。分布式存储系统有“一次写入,多次读取”的特点,当用户在从分布式文件系统中读取文件时,需要从各个节点下载所需的数据块,重构出原始文件,特别是对于一些热门的文件,在用户读取文件的高峰时期,分布式存储系统这种“多次读取”的特点就会造成网络拥塞,不仅影响文件的可用性,还可能影响文件的可靠性。论文通过研究基于分布式存储系统的数据分发策略,将分布式存储技术与CDN的思想结合,把通信问题转换为分布式存储问题,在分布式存储架构下利用增加存储开销来缓解高峰期网络拥塞。并以Hadoop集群实验为例,验证了此数据分发策略的可行性。
其他文献
随着铁路服务需要的不断增加,人们对运输能力和通信速度的需求也越来越来大LTE作为一种先进的通信系统,采用正交频分复用OFDM技术和多输入多输出MIMO技术相结合的方式,其具有
多业务IP通信网是下一代网络(NGN)演进的方向。如何规划和设计网络,尽可能地获得均衡的网络负荷,藉此确保用户的服务质量(QoS),并保持较高的网络资源利用率,就是当前IP通信网重点
无线局域网(WLAN)提供了传统有线局域网的功能,并具备有线网络无法相比的移动、漫游等特性,能够使用户真正实现随时、随地、随意的宽带网络接入,因而具备极大的应用前景。随着无
半导体工艺水平的飞速发展使当今的集成电路进入了超深亚微米(VDSM)阶段。集成电路特征尺寸从um级到nm级的急剧缩小、工作频率从MHz到GHz的不断提高已使寄生参数成为影响VLSI
高频雷达系统在国家的经济和防御事业中发挥着举足轻重的作用。该雷达系统的研究尤其是核心信号处理技术的研究受到各国研究学者的广泛关注。本文从预研角度出发,针对目前高频
在OFDM系统中,如何对系统资源进行有效的管理分配,是提高系统性能的关键技术之一。本文研究的重点是自适应算法在OFDM系统资源分配中的应用,即动态资源分配方式。论文首先介