基于HDFS的云存储系统研究——分布式架构REPERA设计与实现

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:nowolfjin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
云计算基于网络,是网格计算、并行计算和分布式计算的进一步发展。它采用了网络存储、虚拟化和负载均衡等技术,将用户任务合理转移到位于网络的大型计算中心来完成,实现了计算机软硬件资源的充分整合和共享。云存储是在云计算的概念上延伸和发展出来的。它通过将网络中各种不同类型的存储设备集合起来协同工作,对外提供数据存储和访问服务。在众多的开源云计算平台中,由自由软件基金会Apache基于Google云计算的设计理念实现的Hadoop Project引起了广泛关注。其中的Hadoop分布式文件系统(HDFS,Hadoop Distributed File System)研究云存储相关技术,实现了海量数据的存储管理。HDFS具有扩展性强、可靠性高、成本低等优势,有利于大型和小型的学术团体进行实验环境的搭建。完善的文件管理方法和类似于流式的数据读取机制,使HDFS成为云存储研究的热点之一。  云存储必须关注的是如何高效地保证存储数据的有效性、完整性、可用性以及存储的持久性。目前,文件存储所采用的技术主要有两种:数据的完全备份和纠删码方法,这两种方法各有优劣。数据的完全备份可以降低用户的访问延迟,但却需要构建地理位置不同的数据中心,同时消耗更多的存储空间和传输带宽;纠删码方法可以增强数据的持久化存储能力,占用空间相对较少,但会因解码操作消耗更多的系统资源,延长用户的访问延迟。如何集二者之长优势互补?在占用存储空间较少的同时不增加用户的访问延迟,并能保证数据的有效性、完整性和可用性,增强数据的持久化存储能力,就成为本文的研究课题。  本文采用了数据的完全备份和纠删码相结合的方法,基于HDFS设计并实现了分布式架构 REPERA。作为云存储架构的一种形式, REPERA除了具有HDFS的扩展性高、可靠性强、支持大规模数据集管理和类似于流式的快速数据存取特点外,还具有两种数据存储方法的优点,平衡了数据的访问延迟和持久化存储之间的矛盾,,节省了较多的存储空间。此外,REPERA系统的实现给用户预留了配置参数,用户可以根据自身需要对存储策略进行配置,在不同的应用场景下分别选择更偏向于完全备份还是纠删码,达到最优化。本文将在详细分析HDFS内部机制的基础上提出REPERA架构的设计理念,然后设计并实现该架构,并通过具体实验测试验证REPERA架构的可行性。
其他文献
学位
学位
随着社会的发展,自然环境与人类健康之间的协调关系逐步成为了社会焦点,医院康复花园应运而生,这种形式在国外已非常盛行,并形成较完善的理论体系,但目前在国内并没有真正意义上的
随着中国经济水平的持续快速增长和城市化进程的快速增加,全国各地都在大力兴建新城区。新城区开发的前提就是城市公共配套设施的建设。基础教育设施作为城市最主要的公共配套
学位
学位
伴随着高等级公路的迅猛发展,其路域生态环境的恢复和景观再造的需求也日益迫切起来。本论文通过对寒区高等级公路生态环境的实地调查,重点对路域植被的状况进行搜集整理,对寒区
电教建筑是国内近十年来科教建筑中发展最快的类型之一。而高等学校的电教中心又是电教建筑中建造量最大,内容最丰富。影响面最广和设计问题最复杂的一种。本文运用系统分析的
学位
学位
地方级小型森林公园建设中的游憩城市化是一个复杂的问题,它的解决涉及到包括规划、管理、生态、可持续发展等在内的多个理论方面。由于社会的城市化进程速度的加快的原因,地方