云存储系统文件级数据去重方法研究

来源 :武汉纺织大学 | 被引量 : 0次 | 上传用户:known9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
据统计,全球云存储系统中有大约百分之三十到百分之六十的重复数据,对于普通用户个人的存储可以高达百分之七十。然而重复数据处理技术大多应用在备份领域,在文件上传之前进行重复数据处理研究相对较少。如果对在线数据去重进行详细设计无疑会对文件系统整体处理性能带来巨大的提升。针对云存储系统中文件系统层基础上的文件级数据去重技术,本文采用了一种客户端服务端任务划分的文件去重思路。其包含两个方面:首先是提出基于布隆过滤器的文件预筛选算法,其次提出了PIA算法用于文件递增分段摘要计算。最后基于上述方法,本文对整个去重系统进行了设计。首先,文件上传后需要经过预筛选环节,经过布隆过滤器和表分区中文件客观属性的对比,系统中不存在的文件将直接上传,不参与后续计算。其次,对于系统中可能存在的文件,在PIA算法中进行详细的比对,上传文件后客户端未完成的工作便由服务端继续完成。本方法在客户端逐层判断文件是否已经存在于系统中,将判断为不存在于系统中的文件上传到服务端,使之不参与客户端的后续计算,达到提升服务端资源利用率和降低客户端开销的目的。最后在FastDFS分布式文件系统中进行试验,并将本文提出的PIA算法与去其重组件FastDHT的全文件摘要算法对比。实验结果表明:在不降低重复文件删除率的情况下,本文提出的PIA算法相较于FastDHT的全文件摘要算法,具有时延小,CPU占用率低,内存占用低的特点,最优情况下去重时延降低至2ms,CPU利用率降低24.17%,内存占用率降低37.5%。
其他文献
货币种类的演变与社会经济的发展密不可分,特别是在封建社会,铜钱、纸币、金银贵金属都曾经是市场上流通的货币。明朝中叶,取消海禁、开海贸易为明朝引进了大量的海外白银,弥
随着我国高等教育人才培养目标向综合素质的提升和国际化程度的提高发展,专业课教学方式出现由双语教学向全英文教学过渡,这对高校学生和教师都是个新的机遇和挑战。尽管对全
<正>随着税务机关对企业所得税征管力度的加强,近年来委托税务师事务所进行企业所得税汇算清缴鉴证的企业迅速增加,已成为税务师事务所的主要业务之一。为了依法鉴证,提高鉴
个人税收递延型商业养老保险开始试点,随之新个人所得税法将家庭教育支出列为附加扣除项,两项税收政策产生的经济效应将直接影响税收优惠政策的进一步完善和个人决策的制定。
神经炎症和神经元损伤被认为是阿尔茨海默病的主要病理生理特征。小胶质细胞是中枢神经系统的主要免疫细胞,同时也是神经炎症因子产生的主要来源。因此,抑制小胶质细胞过度活
“金水区要成为‘中部首善之区’,没有不断提高的市民素质,没有不断发展的城市文明,就难以形成强大的对内凝聚力和长久的对外影响力。”这是金水区委、区政府领导班子多年来的共
报纸
笔者从事初中英语教学工作数年,通过平时听课,观察诸多新手教师和专家型教师的课例,发现他们在指令语的使用方面存在不同,导致课堂氛围也有所不同。恰当的使用指令语关系到学
偷渡犯罪作为一种跨国跨境的国际性犯罪形态,严重侵犯了国(边)境管理秩序,破坏了国家之间的正常交往,历来是各国刑事法律惩治与防范的重点。随着我国经济的快速发展和对外交流的日益频繁,不断涌现的新型偷渡方式越来越趋向集团化、职业化、智能化,导致传统法律的滞后性日益凸显。综观妨害国(边)境犯罪的立法演进过程,可看出我国对组织他人偷越国(边)境罪始终予以严厉打击。但随着时间的推移和社会情势的不断变化,《刑法
三峡水库区地质条件复杂,是我国地质灾害的多发区及重灾区.严家坡滑坡位于奉节县内,距三峡大坝158km,滑坡在整体上被3条冲沟分为东、西两个滑坡,地貌上两滑坡均呈缓倾斜坡,平
在新课程改革的大背景下,课改的成败与教师课堂教学行为休戚相关。同时,提高教师的课堂教学行为对推动基础教育的改革与发展也极为重要。为此,教育部出台了各种教师培训计划,