论文部分内容阅读
作为一种数据安全策略,备份是避免数据丢失的最基本也是最后的手段。云存储技术的出现为数据备份提供了新思路。云存储以下方面的特点适合于数据备份:云存储提供完整的数据存储服务,用户可以得到一个智能的备份软件以及一个管理完善的存储容量;云存储仅仅是对数据进行备份,用户不必担心失去对原始数据的控制;云存储服务具有价格上的优势,备份同样规模的数据,云存储所需的费用远比购置存储设备建立数据中心成本上要低廉的多。本文设计实现了基于云存储软件HDFS的数据备份系统-HBDBS(HDFS Based Data Backup System),该系统充分利用云存储技术的优势,应用企业已有的廉价计算机设备建立数据备份集群,满足用户数据备份/恢复业务的需要。该系统分为客户端、备份服务器和HDFS集群三个部分。客户端是用户需要进行数据备份/恢复服务的计算机节点,按照地域、网络带宽等分成若干个群,当需要进行数据备份或者恢复时,他们向负责本群的备份服务器提出请求,得到许可后进行文件的备份和恢复操作。备份服务器是客户端和HDFS集群间的数据备份和恢复的桥梁,由多个高性能、大存储量的服务器构成,每个服务器负责一个客户端群。他们接受客户端的备份恢复请求,对用户进行身份验证并缓存客户端的数据。针对HDFS适合于大文件存储的特点,备份服务器通过设置上传阈值的策略对小文件进行合并上传备份以提高系统性能。备份服务器同时保存客户端备份文件的映像表,当客户端提出恢复请求时,从HDFS集群中读取备份文件,按照文件映像表发送给客户端。HDFS集群由安装了HDFS软件的计算机构成,向备份服务器提供备份、恢复服务,实现系统的核心功能。HDFS集群由一个Namenode和一定数目的Datanodes组成。Namenode执行文件系统的名字空间操作,也负责确定数据块到具体Datanode节点的映射;DataNode用于存储数据,由企业内部大量廉价计算机配置而成,并且可以根据备份数据的规模进行动态扩展。本文设计的基于HDFS的云数据备份系统在安全性、可扩展性、经济性及可靠性上均具有一定的优势:安全性:备份服务器通过用户身份认证等措施保证客户端与备份服务器间的安全;通过Hadoop的安全机制实现了备份服务器和HDFS集群的通信与数据传输安全。可扩展性:借助Hadoop软件强大的存储可扩展和计算可扩展能力,可以根据需要随时扩展HDFS集群的规模,增加系统的备份能力。经济性:HDFS是专门针对廉价硬件设计的分布式文件系统,具有良好的兼容性,任何计算机都可以通过安装该软件加入备份集群。因此可以充分利用企业已有大量闲置廉价计算机资源,节省设备采购的开销。可靠性:备份文件在HDFS集群中以多副本的形式进行保存,同时还可以根据文件的重要程度,增加副本的份数,提高可靠性。云存储技术是新兴的技术,我们下一步的目标是研究如何能够让该技术在数据备份领域发挥更大的作用。