论文部分内容阅读
随着计算机技术的发展,数据在日常生活中扮演着越来越重要的角色,数据备份成为数据保护的一种有效手段。远程文件同步技术在数据备份、文件同步等方面有着广泛的应用。rsync(remotesync)是当前使用广泛的远程文件同步应用之一,其使用的rsync算法可以比较快速、高效地对文件进行同步。本文对rsync算法的缺点进行分析,提出了一种改进算法Amsync(Adaptive multi-roundfile synchronization),具体改进如下:(1)针对rsync算法所切数据块长度单一,导致切块参数对算法性能影响较大的问题,引入基于内容的可变长切块方式,减少算法对切块参数的敏感性;(2)针对rsync算法仅能检索同一文件间的重复数据,未能有效利用多个文件的数据,采用同步队列对不同文件进行匹配,减少同步过程中的数据传输量;(3)针对rsync算法计算量不均衡的问题,对算法的差异计算过程进行改进,使滑动窗口采取以块长为单位的距离滑动,均衡两端的计算量。同时,为进一步优化Amsync算法在切块阶段的切块效率及计算负载,在CDC(Content DefinedChunking)算法的基础上,提出了一种改进算法 WEV(WindowExtreme Value),对切块边界确定的方式进行改变,提高了切块吞吐量,有效地降低了计算量。通过对大量文件的切块实验,结果表明WEV算法在切块吞吐量、CPU负载等方面都显著优于CDC算法。提高了 rsync算法的同步性能,同步时间比rsync算法减少10%左右,并有效地降低了服务器端的计算负载。本文将Amsync算法应用于工程施工管理系统的资料共享模块,通过策略自动地将指定文件夹内的文件同步至其他主机,使得资料共享的方式更加便捷,满足了用户的需求。论文的研究成果对远程数据备份、多终端文件同步、重复数据删除等方面工作具有较好的借鉴作用。