基于HDFS的分布式存储系统的研究与实现

来源 :电子科技大学 | 被引量 : 13次 | 上传用户:bbmaju0813
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,传统的技术已经无法满足日益增长的存储需求,分布式存储技术应运而生。HDFS是Apache开发的云计算平台Hadoop的分布式存储系统,可以运行在大规模廉价的服务器集群上,具有较高的容错能力,针对超大数据集的处理进行了优化,具有较高的数据吞吐量。然而,HDFS的设计也不是完美的,存在着一些缺陷。本文研究了HDFS分布式存储模型,针对HDFS可扩展性差和写延迟高的缺点,对其进行改进,主要工作和研究成果如下:(1)一种动态负载均衡的分布式NameNode策略。HDFS设计了单节点的元数据服务器(NameNode)来管理元数据,这种设计虽然实现起来简单高效但是存在三个缺点:系统的可扩展性差、元数据可用性差和隔离性差。针对这个问题,现有的HDFS Federation策略和NCUC策略均存在着单点故障和没有动态负载均衡的缺陷。本文提出了一种动态负载均衡的分布式NameNode策略来解决这个问题。在本文提出的策略中,元数据通过多副本的形式存放在NameNode集群中,元数据分布的时候考虑到异构服务器之间的性能差异和当前的负载情况,当NameNode之间的负载动态变化时启动动态负载均衡策略,在客户端使用元数据缓存策略来降低元数据访问时间,当NameNode出现故障或者元数据副本丢失的时候启动元数据自动恢复。(2)一种延迟的自适应副本同步策略。HDFS使用简单的强一致性策略进行副本之间的同步,这种设计虽然保证了多副本之间始终处于一致性的状态,但是导致写文件延迟高和写吞吐率低的缺点,使得HDFS不适合有一定交互性等对于写性能要求高的场景。针对这个问题,现有的一些解决方案也存在着一些缺点:动态副本同步策略需要NameNode参与副本同步,而Quorum策略的读性能相对较差。本文提出了一种延迟的自适应副本同步策略来解决这个问题:在写操作执行的时候,选择部分副本执行副本同步,对其余的副本进行延迟的自适应副本同步,提高了写性能;通过使用BlockList结构,不需要NameNode参与副本同步,并且相较于Quorum策略也优化了读取性能。(3)本文对HDFS进行改进优化,在设计和实现的过程中使用了本文提出的动态负载均衡的分布式NameNode策略和延迟的自适应副本同步策略,解决了HDFS可扩展性差、元数据可用性低、写延迟高的问题。
其他文献
随着各行各业内部管理的软件化和业务网络化,软件行业需要更适合的软件过程来管理和开发出更加适合的软件。目前,国际通用的软件过程RUP过程有固有的软件开发规范和预定义角
自从智能化时代到来后,模糊控制和神经网络就已成为学者们热点研究的学科,而且近几年随着对智能化要求程度的提高,建立在二者基础之上的模糊神经网络也逐渐的发展和完善起来
模式串匹配是计算机科学中一个基本、重要的研究问题。随着信息技术的高速发展,它在Internet网络信息搜索、数据流挖掘、网络入侵检测、计算生物学等领域中的应用越来越广泛
矿产资源定量预测是地质学和数学、信息技术、计算机技术相结合的产物,它建立矿产资源与地质条件之间的定量关系,从而使矿产资源预测更加客观、更加准确,效率也大幅提升,同时
随着人工智能的快速发展,伴随其而来的相关技术与应用应运而生,以人工智能为基础的产业蓬勃发展,其中图像识别与目标跟踪技术在各个领域应用广泛,特别是在安全监控与增强现实
网络管理涉及的问题很多,管理的范围很广,随着网络规模的扩大和网络复杂性的提高,网络管理的难度也日益增加。网络管理业务是有一定流程的,尽管不同的功能域可能存在不同的流
随着互联网的快速发展,网络上的信息呈爆炸式增长,如何快速而准确地获取用户感兴趣的信息,这一需求推动了信息抽取的发展。信息抽取最常用的方法是模式匹配法,为了减少自动抽
随着互联网的快速发展,网络上关于某一主题的新闻报道呈爆炸式增长,大量的事件信息存在冗余、不完整、不一致、有歧义现象。如何能快速准确地获得某一主题详细而完整的信息是
随着网格技术的不断发展及网格应用研究的深入,网格环境下业务流程越来越复杂。随着业务流程规模因跨领域跨组织而增大,导致业务流程的高复杂性,就会由于状态空间爆炸而给网
在Ad hoc网络应用中,存在的主要问题是安全问题和资源消耗问题。如何在路由过程中保证安全,并节省有限的资源和通信带宽是目前需要解决的主要问题。本文针对Ad hoc网络路由的