网络存储中的重复数据删除技术研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:qq_13439718
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,网络中传输和存储的数据越来越多,而这些数据中往往存在大量的冗余数据,给网络带宽和存储设备造成了极大的浪费。删除数据中的重复数据,可以大大地节省网络带宽和存储空间,节省用于数据存储的费用,这对改进网络存储性能具备重要的理论意义和实践价值。   本文对现有的各种重复数据删除技术进行了较深入研究,针对IP网络远程镜像系统和基于云存储的文件系统,设计并实现了基于iSCSI的重复数据删除方法和基于云存储的重复数据删除方法。   IP网络远程镜像系统中的重复数据删除,是基于iSCSI数据块进行的删重,通过在本地站点添加中间件进行重复数据删除,在远程站点进行数据重构,实现了重复数据删除的端到端透明性,使得用户不需要修改原有镜像系统就能实现带宽精简。该重复数据删除方法先使用bloom filter算法进行全盘的相似数据块检测,使重复数据删除更灵活有效;再使用改进的rsync算法进行相似数据块的删重,实现了基于iSCSI数据块的删重。   基于云存储的重复数据删除文件系统(CDFS,Cloud-baseddeduplication file system)采用一个通用的云存储服务作为后端存储,使得用户对云存储服务采购适应性更强。通过在客户端对要写的文件进行重复数据删除,可以大大减少所需的传输带宽和云存储的存储空间。该重复数据删除先使用traits算法查找相似文件,再使用CDC(content-defined chunking)算法进行变长分块和相似文件删重,然后将所有数据和元数据都存储到云上。另外,为了实现持续数据保护,系统在重复数据删除的基础上提供了对多版本机制的支持。实验表明CDFS比现有的SDFS系统有更高的删重率和更好的重读、重写I/O性能。结合亚马逊S3收费模型对CDFS进行分析发现,CDFS中的重复数据删除可以大大减少云存储总费用。
其他文献
随着计算机软件的不断发展,尤其是数据库软件和Web用字符串在软件程序中扮演的角色日益重要。与此同时,针对字符串的程序分析-字符串分析,也取得了长足的发展,并在软件验证等
目前,无论是电信运营商、政府、教育行业还是企事业单位,由于缺乏有效的保护手段,会经常受到各种不良信息的侵害,承受了巨大的损失。针对以上问题,本文提出一种基于ATCA和多核处理
随着计算机硬件的快速更新换代,尤其是可编程图形处理单元GPU的诞生,软件产业发生着翻天覆地的变化。这种变化尤其体现在目前的计算机图形学领域。其巨大的影响力不但深入到
突发事件都具有随机性、突然性和危害性的特征。在互联网环境下,突发事件网络信息通过新闻、评论、发贴、回复等形式反映出来,具有传播快捷、信息多元、方式互动等显著特点,这使
本文为了提高在线事务处理系统对数据库高可用性和高可扩展性的迫切需求,在现有关系型数据库的基础上通过将数据库分片技术与数据库复制技术相结合的方式来提高整个系统的扩
随着互联网技术不断深入发展,用户越来越多地从被动接受网站发布的信息转变为主动获取、发布、共事和传播信息。因此,如今的互联网上存在着大量带有主观的观点和情感的文本,
如今,无处不在的反应式系统(Reactive System)已经广泛深入了人们的生活,典型的反应式系统有操作系统、网络协议、飞机航线控制系统甚至核反应堆控制系统等。为了精确地描述
人群监控是智能监控中近年来新兴的一个方向,主要研究在高密度人群场景中的各种监控问题。一方面,由于人群监控处理的对象是与个体目标差异较大的人群,因而对处理分析算法提出了
随着互联网特别是Web3.0技术的快速发展,人们已经从单纯的信息获取者变成了网络内容的主动制造者。人们产生的文本数据也在网路上不断增加,互联网成为人们发表看法、获取观点的
随着网络技术在嵌入式系统中的成功应用,越来越多的嵌入式设备连接到Internet。因为嵌入式系统资源受限的特点,当前广泛应用的轻量级TCP/IP协议栈并没有考虑到网络安全因素,