Hadoop平台下基于HDFS的小文件存储问题的优化与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:yxl0173
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据技术随着互联网的发展及信息量爆炸增长的趋势应运而生。面对异常庞大的数据,多种分布式文件系统为大数据的存储提供了解决方案。其中Hadoop由于自身高扩展性、高可靠性等优点被业界广泛使用。HDFS作为Hadoop的核心组件,为处理大数据提供了文件存储服务。然而HDFS更擅长处理流式的大文件,面对海量小文件存储时的表现不佳。本文为了解决HDFS存储小文件效率低下的问题,对Hadoop架构和HDFS存储文件的流程进行详细分析,提出了引入多级处理模块MPM(Multilevel Processing Module for Small Files)的方案。该方案首先通过文件预处理模块,对系统中发出操作请求的文件进行过滤,筛选4.35MB以下的文件为小文件,并将其按文件扩展名进行初步分类。随后文件合并模块会将预处理后的小文件合并成尽可能少的大文件,以减少系统NameNode内存负载。为了提高小文件的查询速度,方案中除了利用小文件创建时间和小文件扩展名建立的二级索引模块,还引入了基于用户常用文件的预取和缓存模块。最后,针对系统长时间运行导致的碎片问题,当系统满足设定条件时,碎片整理模块会对合并文件的空白空间进行清理,以提高系统空间的利用率。本文将提出的MPM方案与三种HDFS现有存储方案:原生存储方案、HAR文件归档方案、Sequence File方案进行实验对比。当存取数量为100000的文件时,MPM方案可为系统节省95.56%的内存占用,空间利用率高达99.92%。同等条件下,与原生存储方案相比,MPM方案的写入速率是未优化前的两倍;由于合并机制步骤更多,写入耗时只降低了31%。读取速率提升了2.25倍左右,读取耗时是所有方案中最低的。实验结果表明,MPM方案对HDFS的存储性能改善明显。大幅减少了系统中的文件数量,有效降低NameNode内存负载,提高了系统内存利用率,实现了高速率的小文件读写性能。
其他文献
目的 观察超声波诱导家蝇抗菌物质的动态表达效果。方法 家蝇3龄幼虫经100W超声波处理5min后,分别于第0、24、48、72h观察、记录幼虫存活率;提取其血淋巴,以溶壁微球菌作指示菌,
目的了解连续8年以药物为主对中小学生肠道蠕虫病的综合防治效果,掌握流行情况,为制定或调整防制对策提供科学依据. 方法 1)采用Kato-katz法查肠道蠕虫卵;2)采用透明胶纸肛拭
家庭教育对孩子的教育起着很重要的作用,孩子年龄越小,可塑造性越大,越容易养成各种好习惯。应该抓住幼儿教育这个时期,除了教师之外,家庭教育更应该得到各位家长的重视。营
联合收割机是农业收割作业中较为重要的设备,但是其具有存放时间长、工作时间短、投资较大、结构复杂等问题。所以,加强联合收割机的日常维修保养,能够大幅度延长联合收割机
【正】 《水浒》这部书,好就好在投降。做反面教材,使人民都知道投降派。《水浒》作者呕心沥血精心刻划的主人公宋江,在梁山泊推行了一条适应封建王朝需要的、彻头彻尾的投降
【正】 一九五五年,伟大领袖和导师毛主席写的《“关于胡风反革命集团的材料”的序言和按语》,是一篇伟大的历史文献。毛主席在这一著名著作中深刻揭露了胡风反革命集团组成
为了适应高校工程训练中心教学管理活动日益强烈的信息化需求,以达到工程训练中心教学管理体系信息化升级目的,文中设计了一种针对高校工程训练中心的车间数据管理系统方案。
<正> 一、顺酐化油的配方及操作 (一)配方(见表1) (二)操作 1.按配方量将植物油及顺酐投入釜内,搅拌升温约1小时至200℃,保温1小时。
期刊
本文介绍了海工FPSO项目管系生产设计过程中的数据在AM系统和PDM系统中的应用情况.并结合我司管系加工、制作、安装的实际情况,阐述了海工产品管系生产设计流程、数据处理和
常见的数据库结构中字段的格式是固定的,不具有自适应性,不能对任意指定字段进行操作。本文所介绍的数组式字段名文件结构的各字段之间的联系是动态的,可在任意两个字段区间