重复数据删除关键技术研究及展望

来源 :第18届全国信息存储技术学术会议 | 被引量 : 0次 | 上传用户:huanxia185
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  随着各种新技术的发展,企业的关键信息高速增长,更多的数据需要高效的存储,这就需要很多技术的保障,重复数据删除技术现在广泛的应用于存储行业。本文从重复数据删除技术的概念入手,针对其工作原理和应用范围展开论述,详细讨论了数据块切分的一些方法,数据块指纹的生成算法,数据块检索的主要技术等。本文在重复数据删除的主要原理上进行了详细的阐述,为用户更好的了解重复数据删除技术提供了一个参考依据,最后指出了重复数据删除的未来发展方向。
其他文献
未来互联网实验者通常需要在虚拟化试验床上验证创新网络架构或者新型网络协议,而当前对试验床虚拟网络的初始化配置必须通过手工方式进行,复杂度高、效率低并且容易出错,降低了未来互联网实验者的创新效率、网络虚拟化试验床的应用效果.本文提出一种面向未来互联网试验床的零配置开通技术,并在此基础上设计实现了虚拟网络零配置开通平台SMS4FIT.通过构建独立于任何配置信息的逻辑管理通道,SMS4FIT能够使实验者
In recent years,traffic classification algorithms have been greatly improved in its classification accuracy and classification speed.However,forthe lack of public available network traffic datasets as
在全球化的互联网环境带给人们海量数据的背景下,文件同步服务作为个人级别的云存储应用成为了广大用户管理数据的一种有效手段,也已成为学术界和工业界研究开发的热点。为了降低将海量数据同步至云存储服务中心带来的巨大网络负载开销和延迟,能够充分发掘数据内部冗余的差量算法和重复数据删除技术一起成为优化云存储服务网络的关键技术。本文在深入分析经典差量算法在文件同步服务中应用存在不足的基础上,提出了一种利用重复数
复杂系统仿真对复杂大规模动态系统的研究以及探索其长远的应用提供了便利,近年来日益成为研究的热点。然而时间同步管理是关注并确保并行分布仿真正确执行的一种机制,它不但要确保正确的执行因果逻辑关系,而且要保证仿真系统的可重复性。时间管理是影响复杂系统仿真系统高效运行的重要因素之一。本文本章首先介绍了虚拟时间系统及其相关研究,它是复杂系统仿真时间管理机制与同步算法建立的基础;然后分析了因果关系约束问题;随
为设计一个低开销低时延的众核系统,提出了半互连网络和拓扑,并把它嵌入到L2 cache中去,在此基础提出了一种使用3D叠片技术的双通道片上众核体系(Architecture Utilizing Three-dimension Stack Dual-channel Network-on-chips,AUTSDN),应用KILL( Kill If Less Linear)规则确定了片上众核中组内处理核
次协调数据库用于查找矛盾信息和未知信息。但传统的次协调数据模型不能对矛盾信息做出决策。为了解决该问题,本文引入模糊集的概念,并重新塑造新模型及其中的关系运算和集合运算,再根据新定义的关系代数给出此模型之上的一些相关性质,最后提出对矛盾信息做出决策的方法。
在数据规模急剧膨胀信息时代,数据安全保护技术尤为重要。数据连续保护技术作为一种有效的数据保护手段,能够有效应对软硬件失效、用户误操作等带来的数据失效问题。为了更好的指导实际应用中的数据连续保护机制设计,本文首先在综合研究现有技术的基础上,提出了基于集合论的统一数据连续性保护模型。然后针对模型的实际应用情形,从数据复制频率、版本恢复时间、存储开销等方面分析了模型特性的表示方法。最后采用联机事务处理系
大规模数值模拟数据对可视化分析提出了挑战,I/O是影响可视化交互性能的重要因素,基于索引的数据筛选可提高可视化交互性能。大规模并行数值模拟程序使用HDF5层次化表示和存储被区域剖分的物理量数据,HDF5的数据集对象被用于存储各区域上的物理量数据块。由于数据块粒度太小,不宜创建数据索引。通过在HDF5中增加新的数据块视图对象来支持数据索引在HDF5中的实现。测试表明,数据块视图可加速数据读取性能,而
针对基于虚拟机构建计算平台,提出高效的面向数据密集型应用的支撑技术,是一个非常重要且具有挑战性的研究课题。目前,该研究领域中缺乏成熟的技术方案,大多面向物理计算环境。本文首先对现有的技术和问题予以分类介绍,然后根据性能实验结果的分析,提出一种虚拟计算环境下的基于Ceph构建Hadoop分布式计算平台的设计方案,并依据实验中发现的问题,提出针对性的研究课题。
基于目录的Cache一致性协议在片上多处理器(Chip Multiprocessor,CMP)中被广泛采用,监听是该协议中频繁使用的一类事务。过多地监听某个处理器核的私有Cache会干扰该核的正常读写操作,降低其访存带宽,这种现象随着CMP处理器中核数目的增加更加严重,造成各处理器核之间的访存带宽不平衡,影响同步操作的性能,降低处理器的并行性。在设计片上多处理器Cache一致性协议时,通过目录项中