通用分布式文件系统的研究与改进

被引量 : 0次 | 上传用户:z814521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息化飞速发展的今天,信息的不断膨胀导致分布式文件系的应用越来越宽泛,其中HDFS因其良好的扩展性,容错性和开源性得到业界的广泛关注。但其设计由于是仿照GFS,因此主要是为搜索引擎应用而优化的,要将其应用到其它领域需要进一步的研究和改进。尽管在搜索引擎中文件多是以大数据集的方式出现,但是在其它很多应用中,大量小文件的访问是很普遍的。而HDFS在大量小文件的访问上性能非常的低,尽管HDFS有很多优秀的特性,但小文件访问的低效性还是限制了其应用范围。目前解决HDFS小文件问题最有效最可行的方法就是将小文件集中转化为Sequencefile文件,然后对小文件的处理转化为对Sequencefile文件的处理。在以上前提下,本文设计并实现了seqtool转化工具。该工具可以高效地将大量小文件直接转化为Sequencefile文件;同时由于小文件通常是以归档文件的形式存在,因此该工具同样支持归档文件到Sequencefile文件的直接转化;为满足应用的追加写需求,该工具还支持对Sequencefile文件的追加写;最后该工具还支持对小文件在Sequencefile内进行不同层次的压缩以节省空间。同时本文还实现了Sequencefile的高效随机读取,通过为Sequencefile文件引入了一个附加的元数据文件,里面记录的是每个小文件所在的位置,这样通过读取该文件,并使用字典树加二级索引的算法构造查询数据结构,可以高效的实现在Sequencefile中对小文件的随机读取。除此之外本文还实现了HDFS的Web管理界面,实现了查看,删除,上传,下载等文件管理的基本功能。最后,本文对使用Sequencefile文件代替大量小文件的效果进行了性能测试与比较。对于批量直接读写小文件和使用Sequencefile来代替,性能差距是非常明显的,Sequencefile有着良好的性能优势,同时由于改善了Sequencefile的随机读取效率,因此Sequencefile在随机读取测试中的性能优势也十分明显。最后针对WordCount的MapReduce任务进行测试,Sequencefile的性能优势同样十分明显。
其他文献
30年前,前苏联解体,东欧等社会主义国家剧变,中国与蒙古两个国家也随之进行了经济体制的改革和对外经济的开放。在此期间,中蒙两国之间在市场经济条件下,贸易方式也由自由贸
磨课的过程就是一个学习、研究、实践的过程,是教师自我提升的过程,更是教师专业成长的必经之路。只有教师快速地成长起来,才能更好地服务学生。教师可以通过"磨课",举一反三
本文在回顾广东小城镇发展现状及特点的基础上 ,分析了存在的主要问题 ,提出了搞好小城镇建设是作为广东省率先实现现代化工作的重要组成部分的规划思路及到 2 0 0 5年 ,争取
图像质量评价模型的最终目的是在现实场景中准确度量给定图像的质量,然而目前大多数基于机器学习的图像质量评价模型都致力于在给定的图像数据库中取得较高准确率,却在一定程
政治文化对一个国家民主政治的维持和发展起着重要的作用,特别是参与型的政治文化,它是一个国家民主政治制度维持的重要外部环境,本文在论述国内外学者对政治文化的不同见解
民办本科学校不单要做好日常学校教育工作,更应该发挥出继续教育的积极作用,这就需要推进其信息化建设的水平,弥补当前继续教育的缺陷和漏洞,进而更有效地开展教育工作,完善
就影响体育社团发展的因素进行总结分析,希望在以后的体育社团建设中能起到借鉴作用。
自从加入WTO后,中国的外贸事业迅猛发展,对外经济的发展使得既懂英语又懂外贸的复合型人才的需求不断增加。另一方面,外贸英语属于专门用途英语范畴,对外贸英语的研究应该遵
本研究在实地调查的基础上结合问卷调查,对上海乡村旅游景区的植物材料和旅游者对乡村植物景观的喜好进行了较为全面的研究。本文首先对上海乡村旅游景区已经应用的植物材料
河北省是一个农业大省,拥有粮食播种面积632万公顷,总产量达到3365万吨,拥有3741多万农民,占到了全省总人数的50.67%。目前,河北省的农村人身保险市场正处于发展的初期,发展