论文部分内容阅读
在大数据存储研究领域中,数据存储与维护是一个具有挑战性的研究课题。由于数据量爆炸式增长,导致数据中心的数据规模庞大且冗余度高,不仅耗费巨大的存储空间和能耗,而且数据管理的复杂程度和存储风险也急剧提高。为了减轻数据存储负担和提高数据存储效率,重复数据删除技术成为了近年来存储技术研究的焦点之一。在重复数据删除技术中,主要存在两方面的问题:1、指纹索引造成的磁盘瓶颈问题。2、数据碎片化严重降低恢复性能。因此,本文将利用强化学习和模式匹配的方法分别解决这两个问题。具体研究内容如下:1)提出了一种基于强化学习的指纹索引预取算法。首先,利用数据流的上下文信息,提取数据流分段的特征;然后,通过选择适当的反馈机制,建立特征和数据流分段的映射关联关系,构建高效的索引结构;其后,用强化学习训练数据段之间的相似性,用分数表示;对每一个新的数据段,用多臂老虎机模型对当前反馈最好的数据分段和未知的分段进行权衡比较,动态的选择一个数据段进行预取;进一步研究优化数据分段的缓存机制,设计缓存算法。最后在4个数据集上验证了本方法的有效性,实验结果表明本文的方法大大减少了内存开销且实现了有效重删。2)提出了一种基于模式匹配优化数据恢复的算法。首先研究了重删之后数据存储碎片化的分布特性,分析数据恢复过程的数据读性能;然后利用模式匹配思想,将局部相关联的数据块识别出来,计算最长公共子序列形成连续模式的磁盘读取操作,减少磁盘随机读次数;再利用双循环缓冲设计最大化模式匹配算法,优化调度合并读操作,从而加速数据恢复性能;研究数据恢复的缓存预取机制优化,分析在不同缓存粒度情形下,对数据恢复的性能影响;最后在重写情形下,比较数据恢复性能。大量实验表明基于模式匹配的算法能够进一步提高恢复性能。