重复数据删除中智能预取算法设计与分析

来源 :天津理工大学 | 被引量 : 1次 | 上传用户:pxh504705648
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据存储研究领域中,数据存储与维护是一个具有挑战性的研究课题。由于数据量爆炸式增长,导致数据中心的数据规模庞大且冗余度高,不仅耗费巨大的存储空间和能耗,而且数据管理的复杂程度和存储风险也急剧提高。为了减轻数据存储负担和提高数据存储效率,重复数据删除技术成为了近年来存储技术研究的焦点之一。在重复数据删除技术中,主要存在两方面的问题:1、指纹索引造成的磁盘瓶颈问题。2、数据碎片化严重降低恢复性能。因此,本文将利用强化学习和模式匹配的方法分别解决这两个问题。具体研究内容如下:1)提出了一种基于强化学习的指纹索引预取算法。首先,利用数据流的上下文信息,提取数据流分段的特征;然后,通过选择适当的反馈机制,建立特征和数据流分段的映射关联关系,构建高效的索引结构;其后,用强化学习训练数据段之间的相似性,用分数表示;对每一个新的数据段,用多臂老虎机模型对当前反馈最好的数据分段和未知的分段进行权衡比较,动态的选择一个数据段进行预取;进一步研究优化数据分段的缓存机制,设计缓存算法。最后在4个数据集上验证了本方法的有效性,实验结果表明本文的方法大大减少了内存开销且实现了有效重删。2)提出了一种基于模式匹配优化数据恢复的算法。首先研究了重删之后数据存储碎片化的分布特性,分析数据恢复过程的数据读性能;然后利用模式匹配思想,将局部相关联的数据块识别出来,计算最长公共子序列形成连续模式的磁盘读取操作,减少磁盘随机读次数;再利用双循环缓冲设计最大化模式匹配算法,优化调度合并读操作,从而加速数据恢复性能;研究数据恢复的缓存预取机制优化,分析在不同缓存粒度情形下,对数据恢复的性能影响;最后在重写情形下,比较数据恢复性能。大量实验表明基于模式匹配的算法能够进一步提高恢复性能。
其他文献
随着互联网应用的日益发展,人们的生活和工作已经越来离不开互联网。我们每天都需要通过浏览器访问网页。但是互联网上有着大量的恶意Web服务器,当用户访问到这类的服务器时,用
目前学者们花了大量的工作来研究树木的真实感建模,目的是使计算机模拟出的树木能更加接近真实的自然树,也取得了很好的效果,但这些研亢工作大多都集中在树木的静态模拟。然
在工程实践中,越来越多的研究者开始使用多方位、精密的微位移视觉测量技术来对物体进行全方位、多自由度的测量。例如大坝、桥梁、大型建筑物等物体微变形、微位移的检测,铁轨
在众多类型的恶意软件中,僵尸网络被认为是网络安全的最大威胁。近几年,随着僵尸网络技术的发展,其结构逐渐从中心式向分布式进行转变。P2P僵尸网络利用分布式P2P网络技术来
随着数据挖掘技术的发展,人们尝试将该技术运用于Web,形成了Web挖掘技术,Web用户浏览模式挖掘是Web挖掘的一个重要研究方向。Web用户浏览模式挖掘是通过对Web站点服务器日志
随着社会的发展,软件的规模越来越庞大,设计越来越复杂,而软件的质量也越来越难以保证。软件测试是保证软件质量的重要手段,如何有效的开展测试,将各种各样的测试方法巧妙地结合起
计算几何可以应用于计算机图形学、地理信息系统和三维地质建模等生产和生活中的各个方面,本文研究了基于GPU的并行计算几何相关算法,以及相关计算几何算法在三维地质建模方面
煤炭是我国的主要能源资源,科学、合理的开采一直被煤炭企业所重视。了解井下煤炭质量(以下简称煤质)变化趋势及煤层结构分布情况对于煤炭企业进行生产计划、开采方案等的制定
信息化是充分利用计算机技术、网络技术及通信技术将过去孤立分散的信息集中形成信息网络体系的过程。信息化实现了信息的交流和共享从而极大提高了社会各种活动的功能和效率