论文部分内容阅读
存储服务作为云计算的核心业务,伴随计算机科学技术、互联网技术和相关网络应用技术的迅速发展,其存储的数据对象呈现指数级增长。与此同时,实际生产环境对大规模存储系统的数据可用性、可靠性提出了更高的要求。磁盘作为当今主流存储系统的主要存储介质,成为了研究的重点。因此,如何构造一个具有高可靠性、高可用性的磁盘存储系统就成为了研究热点。 目前存储系统中的数据失效恢复问题已经基本可以被冗余数据恢复技术解决,但仍旧还有一些问题存在。主要表现在以下四个方面:1)缺乏稳定性,在数据恢复过程由于对恢复粒度的控制没有适配具体的存储系统环境,可能导致严重的后果。2)影响用户访问,在存储系统中总资源如网络传输带宽是有限的,数据的恢复过程势必占用系统资源。因此这会影响对整个存储系统的访问。3)方法策略单一,传统的数据恢复技术采用积极恢复策略或者延迟恢复策略来对失效数据进行恢复,而且通常被单一化的使用。4)对存储系统适配度低,备份恢复技术往往只从恢复数据的角度出发,而忽视了存储系统对用户服务保障、负载均衡等方面的要求。 针对以上传统的数据备份恢复技术的不足,我们需要进一步研究存储系统中数据失效恢复的核心技术。本文就是为了应对上述问题而进行研究实验的。 本文的主要研究工作体现在以下几个方面: 1.提出了磁盘失效预测模型并对比了典型算法。所有典型算法在同一平台同一数据源上进行计算,公平、公正地对算法结果进行对比,得出一般性结论。 2.提出了存储系统数据恢复调度模型和算法。以最大化存储系统数据可用性、最小化数据恢复影响和存储系统负载均衡为目标来建立数据恢复调度模型。模型基于复制冗余策略,模拟实际云存储系统拓扑结构,构造可用性、恢复影响和负载均衡量化表达式,最终提出最优化数学表达式。 3.设计并实现了基于磁盘失效预测数据恢复调度系统。基于前述的磁盘失效预测模型,对预判失效的磁盘和失效磁盘上的数据进行迁移。不同的迁移策略对迁移顺序、迁移开始时间以及迁移目地磁盘均有不同选择依据,目地是为了达到存储系统实时可靠性最高、影响用户访问程度最低和负载均衡的目的。