重复数据删除索引服务器设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:vener123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
重复数据删除作为当前存储系统的关键技术,能够大幅节省存储空间,极大减少网络数据传输量,尤其是针对数据备份和归档。然而,当面对大量数据时,数据块指纹索引不能全部放入内存,磁盘访问不可避免。如何设计良好的架构,尽量减少磁盘访问,提高重删核心索引服务器的处理效率,提高系统吞吐率,平衡内存占用,成为当前备份存储应用研究的一个重要课题。高速重删索引服务器HDIS,综合使用了布隆过滤器和保持数据流局部性的双缓存机制来减少磁盘访问。为在缓存失效时快速定位磁盘,提出了一种二次散列和反向映射方案,建立从数据块指纹到磁盘位置的映射;同时结合采样算法,极大降低内存消耗;为消除不必要的磁盘访问和处理散列冲突,使用了局部排除策略,进一步减少磁盘访问,提高系统效率。实验结果表明,HDIS在大数据量环境下(TB级),可以获得很高的效率(平均指纹处理速率超过每秒500,000次),维持了较低的内存占用,保证了重删率,是一个高效稳定、具有良好扩展性的重删索引服务器。
其他文献
真实感是利用计算机虚拟现实技术进行模拟时所要追求的目标之一,通过物理模拟技术对场景中物体的运动进行模拟,使其符合真实世界的物理规律,可有效地提高虚拟场景的真实感。
随着科学技术的高度发展以及商业文化交流的高速膨胀,信息的传播越来越要求通过高科技手段来实现。数字多媒体终端是一种新兴的媒体概念,具有实时信息发布与联网广告发布的功能
增强现实技术作为虚拟现实的拓展技术,在最近十几年里已经得到了飞速发展,并在各个领域显现出强大的应用价值,广泛应用于工业、产品展示、医疗研究、军事、教育等领域,成为虚
Web服务作为一种自主而开放的应用实体,具有松散耦合、平台无关、互操作性强等特点,特别适合在Internet环境中发布和使用。随着互联网上Web服务数量的快速增长,如何从中快速
随着数据价值不断提升,分布式存储系统中的数据加密存储变得更为重要。为降低对存储系统的信任,以满足对用户隐私保护的需求,端对端的加密存储应运而生。对象存储设备因其智能管
信息化高速增长,带动磁盘理论技术的进步,磁盘记录密度保持着约30%平均年增长率。超顺磁影响的限制制约着磁盘记录密度的无限提高,出现在磁盘市场上磁盘中最高磁记录密度日益接
片式结构(Tile)多核处理器以其良好的可扩展性和低能耗性已经成为一种重要的多核架构。数据流编程(Data Flow Programming)作为一种开发并行性的有效方法已经被广泛应用于多核处
ZigBee无线传感器网络作为一种新型短距离通信技术,具有短距离、低速率、低时延、低功耗、低成本、安全可靠、大容量的特点,最有可能实现“无所不在的网络”理念。它不仅在工
随着虚拟化技术和云计算技术的发展,越来越多的科学计算应用运行在云计算资源之上。MPI编程模型是一种消息传递编程模型,大多数科学计算应用都是基于这种消息传递编程模型的高
服务器是信息服务业的基础设施,但当前利用率普遍偏低。虚拟化技术能够提升服务器效率,降低管理复杂程度,在数据中心得到广泛运用。块设备是存储I/O系统中的主要外部设备,其访问