分布式文件系统中数据压缩策略研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:yangy1225
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网数据信息的爆炸式增长,以及现今云计算、云存储环境下大规模数据密集型应用的蓬勃发展,分布式文件系统以其高可靠性,高吞吐率以及海量的存储能力等优点,受到了学术界和工业界越来越多的重视,同时也面临着越来越多的挑战。数据压缩通过对数据进行重新编码和进一步组织,可起到缩减数据量的效果。将其运用到分布式文件系统中,可以通过增加部分计算量,显著减少存储空间、传输带宽消耗,提高数据传输、处理效率。  然而目前分布式文件系统中压缩策略的应用仍然存在许多问题,没有根据分布式文件系统的应用特性进行有效地优化定制。通过将各类数据压缩算法集成到分布式文件系统中,可以分析不同的非结构化大数据集的压缩率,以及各类压缩算法对分布式文件系统IO吞吐率的影响,并由此发现了以下四个问题:非结构化数据多样性需要系统进行压缩率预测;压缩和解压缩速率成为了整个文件读写流程的瓶颈;各压缩算法压缩与解压缩的不对称性会对整体吞吐率造成不同影响;全文件压缩极大地限制了压缩算法的应用场景和范围。  在对上述问题进行充分分析研究的基础上,根据分布式文件系统按块存储的应用特点,分块检测、分块压缩的方案被提出并实现。方案首先将待写入文件预先分块,分别对各分块进行压缩率预测及压缩,然后再写入到数据服务器上。通过分块检测,可以更好地应对各种待压缩数据,有效地发现不适合压缩的数据类型及数据块,避免不必要的压缩增加读写文件所花费时间,浪费 CPU以及内存资源。;通过分块压缩,可以消除传统压缩策略带来的全文件压缩弊端,并且将数据压缩过程与传输过程部分重叠,充分利用客户端的计算资源,在微量影响压缩率的情况下,减轻数据压缩带来的时间开销,从而减轻压缩策略对分布式文件系统吞吐率的影响。  测试结果表明,分块检测策略可以很好地预测待压缩数据的压缩率,误差范围在10%以内;分块压缩策略将文件读写速率相较于传统的边压缩边传输方案提升了两倍以上。
其他文献
在云计算环境中,数据中心资源由租户共享使用。当租户将其应用或任务部署在基础设施上时,云计算环境需要为租户提供有效的性能隔离。而在当前的数据中心中,网络带宽通过best-eff
工业制糖结晶过程需要操作人员不断地观察罐内晶粒状况,以便采取相应的操作。目前多数糖厂都是抽样探棒取出糖膏样品在灯下观察或手捻凭感觉来判断,不能直接观察到罐内晶粒变化
综合评价作为一种能为决策提供科学依据的方法,已广泛渗透到社会、科学、经济、管理等诸多领域。自20世纪50年代以来,国际上对科技项目评价方法的研究在理论和实际应用方面都
随着计算机网络和通信技术的迅猛发展,小型企业和家庭网络成了通信领域的新热点,这一类网络规模虽“小”却“大有可为”。多媒体通信现在成为通信领域中的重要工作,但是在防火墙
MMDB(内存数据库)的研究近年来一直是国内外数据库领域研究的热点。内存数据库在对实时性要求高的领域扮演了关键角色。但在MMDB研究方面还有许多的难点需要攻克。本文对事务
分布式拒绝服务(DDoS,Distributed Denial of Service)攻击是一种常见的恶意入侵攻击形式,由于其隐蔽性和分布性而难于检测和防御,近年来它给Internet业务带来了不可估量的损失
目前,远程教育的教学方式中应用最广泛影响最深远的是基于Web的远程教育,然而基于Web的多媒体计算机远程教学系统存在着系统智能性不高、系统的弹性与适应性不足等缺点。Agen
对集值属性数据库进行查询与检索有赖于高效的检索机制。因此,如何将基于集值属性的数据库数据进行合理的分类,从而建立相应的索引机制并进行子集查询就成为了一个亟待解决的问
本项研究工作的背景是:四川省网络通信技术重点实验室对下一代Internet体系结构的研究——“单物理层用户数据传输与交换平台”(SUPA-Single User-data transfer & switching
在角色动画中人物模型是由动作数据驱动的,而动作数据一般通过动作合成编辑以及动作捕捉技术得到。随着动作数据的急速膨胀,动作数据检索技术变得尤为重要。本文首先讨论了动