面向云存储的数据压缩算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:beibei114
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机与信息技术的高速发展,行业应用每天需要处理的数据总量大且增长速度快,为了高效地处理和存储大数据,人们提出了云计算技术和云存储技术。在数据存储方面,我们需要存储的数据量极大,导致耗费的存储资源多,而且数据在网络传输上占用带宽资源大。因此,对于解决存储、带宽等资源耗费问题的有效途径——数据的压缩处理成为人们当前研究的一个重点。对于面向云存储的压缩算法能够增强数据的处理能力以满足大规模数据处理的要求。针对面向云存储的数据压缩算法,本文的主要工作包含如下两个方面:第一部分研究提升压缩算法的数据处理效率和压缩率。首先对BWT变化后的数据进行处理得到其字符编码,并根据字符编码将数据写入小波树节点以位向量形式存储,在此基础上利用统计方法研究不同数据集所对应的位向量中Runs的分布情况,设计出了契合其数据分布特点混合编码压缩结构来压缩存储位向量。再次,根据小波树中位向量中Runs的统计数据设计了计算小整数编码长度的加速表、Runs获取加速表、gamma和delta解码加速表来提升压缩算法的执行速度。其次根据小波树的特点和BWT变换的可逆特性实现数据的恢复算法。最后,结合前面的实现了单处理机上的多线程数据压缩算法。第二部分研究第一部分设计的压缩算法面向云存储的实现,云存储中数据的压缩处理主要借助强大的集群分布式并行处理分块数据,实现对大规模数据的高效处理。本文通过Hadoop平台和MapReduce并行模型来实现基于集群的分布式数据压缩处理。首先,我们通过将单机的压缩算法设计并封装成MapReduce可以直接调用的接口来处理分块数据。然后,制定数据分块策略并使用MapReduce编程模型来实现对数据分块在集群上的并行压缩和解压处理。实验方面工作,一方面,对单机上基于外存的多线程压缩算法的参数信息进行实验调整,并与经典压缩算法在压缩率、压缩和解压时间上做了比较,结果表明本文的压缩算法在压缩时间和压缩率上具有优势,解压时间上略长但稍优于bzip2。另一方面,实现的分布式并行压缩算法在压缩率上略差于单机上的数据压缩算法且在网络IO方面比较耗时,同时与单处理机上压缩算法比较分布式压缩算法可处理数据集规模以及数据压缩处理上具有优势。
其他文献
糖尿病是由于各种原因造成机体胰岛功能减退和胰岛素抵抗所导致,胰岛素泵能模拟人体胰腺分泌胰岛素的特点来持续输注胰岛素,从而达到控制血糖的目的,是目前国内外治疗糖尿病
面对新一轮教育改革的挑战,现行的音乐教育状况及其观念、内容、方法、手段评价系统已不能适应素质教育发展的要求。查找并排除影响中小学音乐教育美育功能有效发挥及制约中
一种新型加载两个开口环形接地导带的双频共面波导(CPW)馈电缝隙天线,被提出来实现双旋向圆极化辐射。从天线信号带伸入槽隙的水平矩形调谐短截线用于改善频带内的阻抗和轴比
在高性能混凝土制备过程中,掺入硅灰、塑化剂分别可以达到改善水泥石水化产物成分和大幅降低水灰比的效果,确定硅灰和超塑化剂的最佳掺量是保证混土优良力学性能和工作性能的
窄带成像技术(narrow-band imaging,NBI)与普通内镜相比,可以更好的显示消化道黏膜表面的微细形态结构和黏膜下血管,进而发现普通内镜下无法显示的病变,更好的指导内镜下靶向
根据美国科学信息研究所(ISI)编制的期刊引文报告JCR2003社会科学版报道的定量数据,对ISI收录期刊及期刊的影响因子、被引频次、即时指数等期刊指标的分布情况进行了统计分析
在大量试验研究的基础上,将掺玄武岩纤维水泥稳定碎石试件的纤维体积掺量、水泥剂量两方面因素对试件失水率、干缩特性的影响进行了研究分析,得出了相应的影响规律及作用机理
明治初期,虽然女性可以发表言论,但却无法改变女性自身的社会地位。于是,她们就利用文学叙事的方式描写封建制度下女性所处的悲惨境地,主张女性应有的社会地位、应享有的各种
现行企业会计准则和税收制度对融资性售后回购业务财税处理的规定基本上遵循了"实质重于形式"的原则,但在流转税的计征、不同业务类型的判断等方面仍存在诸多不足。为了提高
中小企业在促进就业、科技和经济增长中发挥重要的作用。但是其发展遇到若干重要的瓶颈。特别是资金瓶颈,成为阻碍中小企业发展的主要问题。文章阐述了中小企业发展现状、原