论文部分内容阅读
随着信息技术的发展,网络中传输和存储的数据越来越多,而这些数据中往往存在大量的冗余数据,给网络带宽和存储设备造成了极大的浪费。删除数据中的重复数据,可以大大地节省网络带宽和存储空间,节省用于数据存储的费用,这对改进网络存储性能具备重要的理论意义和实践价值。
本文对现有的各种重复数据删除技术进行了较深入研究,针对IP网络远程镜像系统和基于云存储的文件系统,设计并实现了基于iSCSI的重复数据删除方法和基于云存储的重复数据删除方法。
IP网络远程镜像系统中的重复数据删除,是基于iSCSI数据块进行的删重,通过在本地站点添加中间件进行重复数据删除,在远程站点进行数据重构,实现了重复数据删除的端到端透明性,使得用户不需要修改原有镜像系统就能实现带宽精简。该重复数据删除方法先使用bloom filter算法进行全盘的相似数据块检测,使重复数据删除更灵活有效;再使用改进的rsync算法进行相似数据块的删重,实现了基于iSCSI数据块的删重。
基于云存储的重复数据删除文件系统(CDFS,Cloud-baseddeduplication file system)采用一个通用的云存储服务作为后端存储,使得用户对云存储服务采购适应性更强。通过在客户端对要写的文件进行重复数据删除,可以大大减少所需的传输带宽和云存储的存储空间。该重复数据删除先使用traits算法查找相似文件,再使用CDC(content-defined chunking)算法进行变长分块和相似文件删重,然后将所有数据和元数据都存储到云上。另外,为了实现持续数据保护,系统在重复数据删除的基础上提供了对多版本机制的支持。实验表明CDFS比现有的SDFS系统有更高的删重率和更好的重读、重写I/O性能。结合亚马逊S3收费模型对CDFS进行分析发现,CDFS中的重复数据删除可以大大减少云存储总费用。