云存储中集群重复数据删除系统的研究与设计

来源 :东北大学 | 被引量 : 1次 | 上传用户：pengxianwei1986

【摘要】

：

随着大数据时代的到来,数据已呈爆炸式的增长,海量数据的存储已成为数据中心的首要问题,重复数据大量存在于信息处理与存储的各个环节中,如文件系统、邮件附件、web对象以及

【作者】

：

李志然

【机构】

：

东北大学

【出处】

：

东北大学

【发表日期】

：

2014年01期

【关键词】

：

云存储重复数据删除技术数据冗余集群存储分布式文件系统

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着大数据时代的到来,数据已呈爆炸式的增长,海量数据的存储已成为数据中心的首要问题,重复数据大量存在于信息处理与存储的各个环节中,如文件系统、邮件附件、web对象以及操作系统与应用软件中。传统的数据保护技术如周期备份、版本控制、快照等更是加速了重复数据的增长,导致网络带宽与存储资源的消耗以及存储成本的增加。为了提高存储资源利用率,降低数据管理成本,重复数据删除技术的提出与应用已经成为目前企业与数据中心的研究热点。云存储服务具有高可靠性、高通用性、高扩展性及大容量存储等特点,因此对云存储技术的研究不仅紧跟IT技术发展的趋势,而且具有较高的应用价值。在云存储环境中构建大规模、高性能、分布式重删系统,具有很大的优势与挑战。本文在云存储环境中设计了一套在线的集群重删系统架构,并在数据路由问题、索引查询优化问题等方面进行了相关研究,主要完成工作有：(1)基于开源的HDFS分布式文件系统,以集群重复数据删除技术为基础,设计并实现了具有重复数据删除功能的分布式文件系统H-Dedup。根据重复数据删除技术的特征,合理设计系统架构与软件功能模块,使得重复数据删除技术有效融入集群存储架构中。(2)设计面向重删的局部相似路由算法,基于数据相似理论,以超块粒度为路由单位,并对超块进行采样,选取少量特征指纹,以有状态路由方式进行路由匹配,减少网络带宽消耗,快速定位存储位置。使得分布式存储系统在保持较高的存储性能以及吞吐率的同时,快速定位存储节点并取得较高的数据去重率。(3)为了缓解索引查询过程中磁盘瓶颈问题,设计了基于内存的相似索引表,进行数据局部去重,以避免出现大量的磁盘随机读写现象。根据数据的局部性特点设计了全局LRU缓存,最大程度维护和利用数据的局部性,减少磁盘访问次数；为了弥补单节点内低去重率问题,设计了基于访问频率的容器热点指纹索引,提升单点内的数据去重率。

其他文献

基于Web Services的分布式工作流管理系统的应用研究

工作流管理技术是实现企业业务过程建模、业务过程仿真、业务过程优化、业务过程管理与集成,从而最终实现业务过程自动化的核心技术之一。传统的C/S模式下的集中式工作流管理

学位

WebServices工作流管理系统分布式工作流管理系统分布式工作流模型分布式工作流引擎

图像前景提取的算法研究与实现

图像能非常直观的表现生活。随着计算机技术的迅速发展,多媒体技术、模式识别和计算机视觉等技术都需要运用图像前景提取。运用计算机进行图像前景提取的研究也越来越重要。

学位

Poisson算法全局算法前景提取扩散搜索

航空发动机滑油系统故障识别研究——金属屑形状及纹理识别

安全是现代航空工业尤其是民航运输工业的首要要求，发动机的健康状况将直接影响飞行的安全性。机械故障往往会导致重大的飞行事故，而磨损类故障又占有相当的比例。滑油中的磨屑

学位

航空发动机滑油系统故障识别图像处理磨屑识别BP神经网络

数据挖掘及其在机车质量控制系统中的应用研究

随着市场竞争的日趋激烈，信息对于企业的生存和发展起着越来越重要的作用，同时也要求高层管理者做出迅速而明智的决策。90年代中期出现了三项支持决策新技术：数据仓库、联机分析

学位

数据挖掘数据仓库决策树SQL ServerOLAP机车质量控制系统

基于用户关系行为的垃圾邮件判别机制的研究与实现

作为互联网最基础的应用之一,电子邮件的广泛使用使其占据互联网数据总量的三分之一左右。随着应用的增多,垃圾邮件数量的增长也非常迅速,网民每周收到的垃圾邮件占总邮件量

学位

垃圾邮件用户关系行为社区划分基于节点联系算法分类回归树算法

核心通信软件维护过程研究及工具实现

随着通信软件的飞速发展，通信软件产品的日益增多，通信软件的维护越发重要，维护过程中存在的问题也越来越明显，对于核心通信软件——即在通信网上提供增值应用、增值业务及为运营

学位

核心通信软件软件维护软件维护过程

基于变化感染率的恶意软件时延传播模型的研究

随着互联网的迅速发展以及网络复杂性的不断增加,网络安全问题日益严重。由于恶意软件传播速度快、破坏力强、影响范围大等特点,因此如何有效地遏制恶意软件的传播已经成为非

学位

恶意软件传播模型变化的感染率隔离策略时延仿真实验

基于Agent的分布式图书馆管理系统

为了适应信息社会的发展及学校图书馆的实际需要,内蒙古扎兰屯市教师进修学校急需引入自已的图书馆管理系统。本文分析了目前我国图书馆管理系统的发展现状及存在的问题,结合

学位

图书馆管理系统Agent分布式系统智能性JADE

一种基于关系数据库的XML文档存储和查询的方法

XML已成为Web上数据表示、集成和交换的标准，它的格式简单、自我描述能力强，实现了内容、结构和表现三者的分离，更适合于数据表示和交换。近年来，XML在各个领域得到了广泛的使用，W

学位

XML关系数据库路径表达式SQL表连接

非特定人孤立词语音识别技术的研究

小词汇量非特定人孤立词语音识别是语音识别领域中的一个重要分支，在家电遥控、智能导航、人机交互等领域都有着广泛的应用价值。近年来，语音识别技术得到了飞跃性的进展，但

学位

语音识别孤立词隐马尔可夫模型自适应矢量量化小波分析ARMA

云存储中集群重复数据删除系统的研究与设计

其他学术论文