针对云存储网关的重复数据删除技术的研究与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:luoshuinan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云计算技术的不断发展,云存储以其低廉的价格和海量的存储空间得到越来越多中小企业的青睐。由于现有的云存储服务提供商提供的云存储接口与企业本地设备接口之间不统一,给企业应用云存储服务增加了使用成本。云存储网关的出现,弥补了这一差异。现有的云存储服务大多是按照容量和流量进行计费,而在企业的主存储、备份和归档系统中存在大量的重复数据,造成了云存储资源的浪费。  根据云存储网关中数据的存储特点,提出了在云存储网关中采用重复数据删除技术的设计和实现方案,将重复数据在云网关内部进行缩减。首先根据数据相似性算法查找相似数据集,缩小数据检索范围,再在相似数据集中进行相同数据匹配。去重后的数据被保存成固定大小的小文件,减少本地与云存储之间的传输延时。对于映射表的存储,设计了基于“内存—磁盘”的两级映射表管理方案,并提出了一种映射表及数据的缓存优化方法。通过采用缓存的主动写回和被动换出机制延缓数据写入磁盘的时间,尽可能地将目标文件相同的数据一次写回,同时根据映射表及数据的局部性特点将相关数据组织在一起。对于数据块的预取,采用了基于命中效果的缓存策略,提高缓存空间的利用率。为了减少内存开销,提出了改进的区间红黑树结构,并对基于区间的查找及切分方法进行了讨论。在系统中,还采用了一些工程优化的方法,进一步提高重复数据删除的性能。  最后对重复数据删除系统进行了相关测试。首先对所使用的哈希函数进行了测试,测试结果表明,一种公共域非加密哈希函数的计算性能远远优于其他哈希函数。然后对相似性数据划分的去重效果进行了测试,测试结果表明,采用相似性缩减数据匹配范围的方法能够有效地进行重复数据检测,并且与完全去重的去重率相比下降不大。最后对缓存的效果进行了测试,由于缓存的使用,大大减少了访问磁盘的次数,重复数据删除的性能有所提高,达到预期效果。
其他文献
专有名词的识别是中文信息处理领域的重要研究课题之一,目前尚未得到很好的解决。在大规模真实文本为基础的语料库研究的重要性日益突显的情况下,如何提高大规模语料库的质量
在现代开放网络环境下,大量分布在不同网络中的信息往往需要被一个多变的、动态的人群使用和管理。为了在应用中安全有效使用这些信息,要求访问信息的用户身份和访问特权必须
随着以互联网技术为核心的信息技术的发展,网络教育在我国得到了蓬勃发展。建构主义强调的教学环境是以学习者为中心,强调学习者对知识的主动探索、主动发现和对所学知识意义的
随着互联网的发展,对软件兼容性和可移植性需求剧增,虚拟机的发展进入了一个繁荣的时代。同时,随着x86服务器市场的快速增长,x86虚拟机更是为人们看好。根据VMM(Virtual Machine
本文首先主要介绍了下一代网络的发展状况及NGN的安全,然后分析了IPSec的安全能力,安全体系的构成、IPSec的工作方式以及IPSec在IP的实现方式。论述了IPSec的基本协议认证扩展
随着云计算的发展,虚拟集群技术应运而生,将分布式应用部署到虚拟集群已成为一种趋势。但是,虚拟化层的引入造成故障层次增多,系统整体故障率也随之增高,而且物理层故障造成的损失
SLA是用户和服务提供商所签署的正式合同,它明确规定了所期望的服务质量的级别,包括所期望的服务的行为和服务质量的参数。在验证SLA时需要测量各参数是否满足合同要求,通过S
随着汽车制造业的发展,国内外汽车市场竞争日益严峻,不仅仅是制造销售方面的竞争,更重要的是汽车服务业的竞争。汽车售后服务业中重要的配件管理越来越受到企业的重视。科学
随着计算机技术的提升,多核多处理器的计算机系统逐渐成为主流,同时运行的应用程序(或线程)数目的显著增加,这增加了系统的工作负载,需要提高系统主存储器的容量来满足大量程序运行
随着数据的飞速膨胀以及网络技术的迅猛发展,低成本、易管理、按需扩容等优势极有可能使云存储成为未来最主要的存储模式。但是目前云存储服务的应用范围还很有限,原因之一在于