论文部分内容阅读
随着科学技术的飞速发展,数据作为信息的载体,其数量在持续不断地增长,为了满足庞大的数据存储的需求这就需要有存储系统能够存储海量的数据,同时要求该过程中的带宽代价不宜过高。而随着系统规模的增大,系统的容错能力以及其可靠性的问题日益突出。海量数据对存储系统提出了非常严苛的要求,其存储容量需要更大,其安全性需求更高,存储性能要求更好,成本开销要求更低。大规模分布式存储系统因为其海量的存储能力,高吞吐量,高可用性,高可拓展性和低成本的优势被广泛部署和使用。而结合了网络编码理论的再生码作为分布式存储系统的一项主要编码技术,因为其能够有效的降低修复带宽而被提出。而考虑到目前所研究的分布式存储系统再生码有以下方面的缺点,首先其大多是同构的分布式存储系统再生码,即其从存活的节点所下载的数据量是一样的,同时其拥有相同的下载代价。而实际情况从存活节点所下载的数据量往往是不一样的,而且其往往拥有不同的下载代价。其次,传统再生码在修复过程当中往往有过高的磁盘I/O(磁盘I/O表示的是修复过程中磁盘读取总量),而磁盘I/O是分布式存储系统中的一项宝贵资源,在磁盘阵列系统中磁盘访问通常是瓶颈,所以对于分布式存储系统来说磁盘I/O不宜过高。最后分布式存储系统往往拥有很高的安全需求,我们需要设计达到满足其安全需求的编码方式。针对以上提出的问题,本文提出了在异构的情况下(即在修复过程中从存活节点所下载的数据量不一样,而且其拥有不同的下载代价)通过将复制和再生码相结合的编码方式进行分布式存储系统编码,在本文中将其称为异构复制再生码(HRRC)。本文的主要工作和创新点概括如下:对于传统再生码往往拥有过高的磁盘I/O,以及因为异构分布式存储系统再生码相比于同构分布式存储系统再生码,其修复带宽偏高的问题,本文提出了异构复制再生码(HRRC),其中的研究主要包括系统模型的建立,得到信息流图,依据最大流最小割定理,推导得出了能够构造得出再生码的基本条件。并在该系统模型下得到其单个节点存储容量和修复带宽的折中关系。在该方法中我们引入了下载代价的概念,我们通过理论分析得出了在该方法下的下载代价是比之前的再生码更低的。同时我们对分布式存储系统再生码中比较关注的相关参数包括磁盘I/O以及节点修复带宽进行仿真和数值分析。仿真结果表明HRRC能够有效的降低磁盘I/O和节点修复带宽。针对于分布式存储系统往往拥有很高的安全需求,数据存储及其安全性得到广泛关注,对于搭线窃听的安全模型本文研究了分布式存储系统当中HRRC的数据安全性问题。本文考虑的是在本地数据中心某单个节点失效时,远程数据中心的数据来帮助我们完成修复的过程,窃听者会在修复过程中通过窃听获得数据。本文得到了该情形下的信息流图,依据最大流最小割定理,推导得出了能够构造得出安全再生码字的基本条件。本文根据系统模型得出了该系统模型下单个节点存储容量和修复带宽的折中关系以及节点存储容量和安全等级的关系。同时本文根据信息流图以及相关仿真分析了该种情况下如何使得分布式存储系统有更好的安全等级要求。仿真结果表明HRRC能够为该系统带来更好的安全属性,同时也得出了通过增大存储代价能够为该系统带来更好的安全属性。