论文部分内容阅读
重复数据删除作为当前存储系统的关键技术,能够大幅节省存储空间,极大减少网络数据传输量,尤其是针对数据备份和归档。然而,当面对大量数据时,数据块指纹索引不能全部放入内存,磁盘访问不可避免。如何设计良好的架构,尽量减少磁盘访问,提高重删核心索引服务器的处理效率,提高系统吞吐率,平衡内存占用,成为当前备份存储应用研究的一个重要课题。高速重删索引服务器HDIS,综合使用了布隆过滤器和保持数据流局部性的双缓存机制来减少磁盘访问。为在缓存失效时快速定位磁盘,提出了一种二次散列和反向映射方案,建立从数据块指纹到磁盘位置的映射;同时结合采样算法,极大降低内存消耗;为消除不必要的磁盘访问和处理散列冲突,使用了局部排除策略,进一步减少磁盘访问,提高系统效率。实验结果表明,HDIS在大数据量环境下(TB级),可以获得很高的效率(平均指纹处理速率超过每秒500,000次),维持了较低的内存占用,保证了重删率,是一个高效稳定、具有良好扩展性的重删索引服务器。