基于HDFS的分布式存储的研究与优化

来源 :电子科技大学 | 被引量 : 6次 | 上传用户:hdc988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年随着互联网的高速发展,接入互联网的用户越来越多,各种互联网相关的服务也已经深入到整个社会的各个方面,小到个人吃饭打车,大到影响全国人民的火车订票视频观看等系统,无时无刻影响着我们的生活。在可预见的未来,互联网将会继续发展,而由此产生的数据将会变得越来越庞大,对于这些数据的处理以及有价值的信息处理会变得很重要。而HDFS不管是作为云计算MapReduce的基本存储系统还是单纯作为海量大数据存储平台,在现在的社会中都发挥着愈发重要的作用。作为一个被广泛使用的大规模分布式文件系统,他能够在高可用性以及高可靠性的前提下高效地进行数据存储及访问就会变得非常重要。本文针对这样一个问题,对HDFS的NameNode以及DataNode进行了仔细的研究,并阐述了现在版本中HDFS的一些局限性,并提出了相关的优化方案。本文主要工作如下:(1)介绍云计算的一些相关知识,并对Hadoop进行了相关介绍,主要是对HDFS的Namenode工作原理以及DataNode的读写过程进行了详细介绍,另外对MapReduce计算流程也进行了简单介绍。(2)对HDFS的高可用性进行了介绍,并对早期版本的HDFS高可用性解决方案进行了介绍以及分析对比,由此引出了Hadoop 2.x新加入的新特性,HA(High Availability高可用性)机制。对HDFS HA进行了详细的分析,并提出了新的可更有利于扩展性的方案,并对优化方案的元数据一致性以及主备切换进行了分析。在设计的实验里,对优化后的元数据一致性保证得到了验证。而在双节点故障的情况下,优化后的方案大大减少了主备Namenode节点切换的时间,优化效果明显。(3)对HDFS中文件读写进行了了解与分析。由于磁盘的读写会是文件读写的瓶颈所在,故本文提出了一个基于缓存的优化设计。在这个设计方案中,我们将用Memcached来实现这个缓存层,对于DataNode上的文件读写首先会经过Memcached缓存中间层,以达到读写性能的提升。最后,分别对这个方案进行了一系列的读写测试和MapReduce的基准测试,测试结果表明了这个方案对读写以及MapReduce都有一定的性能提升。
其他文献
<正>安阳殷墟的考古工作迄今已78年了。在我国古代文化遗址中,它是发掘时间最长,发掘次数最多, 发现的遗迹、遗物最丰富,参加考古发掘的人员最广的一个。78年来,殷墟考古的历
试图应用感性工学的研究方法探索在主题概念下的产品形态建构方法。并以"萌动"为例,运用感性微分法对其内涵意义进行调查分析,再把分析结果转化为形态建构技术,最后依此来指
目的探索慢性不完全性睡眠剥夺对幼鼠循环脂肪细胞因子表达的影响。方法 27只3周龄雄性SD大鼠,随机分为睡眠剥夺组(剥夺组)、睡眠剥夺恢复组(恢复组)、对照组。采用旋转滚轮法建
翁岗沟泥石流位于贵州都匀市摆忙乡,是一条老泥石流沟。近年来由于煤矿开采和降雨作用,该区域发生了大量崩塌现象,并发生了两处大型滑坡。通过实地调查,崩滑产生的大量破碎堆
电子产品的人机交互性主要体现在可识别性、可操作性和导航性3个方面,设计师应该将自己放在使用环境中,把整个人机交互作为一个动态系统,考虑人在整个系统中的主导性,兼顾电
<正>政府扶贫资源首次向NGO开放,是中国的扶贫模式从政府“包办”向“政府-非政府组织”携手合作转变的第一步 2005年12月19日,被中国人民大学农业与农村发展学院教授康晓光
针对元件组合流变模型多半反映的是蠕变线性关系或发生加速蠕变时间过快的不足,根据工程现场压缩蠕变试验成果,提出工程岩体流变效应的损伤因子,建立非线性损伤黏弹塑性本构
个人上网需要向公安部门备案,并不是重庆公安局的新发明,实际在中国早已有此规定,只不过,现在不是由个人去备案,而是由网络接入商代为进行
介绍转基因技术中几种较为常用的外源DNA导入方法——载体介导法、直接转化法和自身机制法,并针对其在苹果抗性育种、控制发育和品质改良方面的应用进行简单概述。同时,对苹
<正>化疗药物可损伤神经系统的任何部位,引起脑病、脊髓病、颅神经病、周围神经病、肌病和卒中样综合征等[1]。根据其损伤的不同部位可分为中枢神经系统毒性、周围神经系统毒