基于Hadoop的海量小文件合并的研究与设计

来源 :广东技术师范学院 | 被引量 : 0次 | 上传用户:humeiyu2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
HDFS(Hadoop Distributed File System)是Hadoop的底层文件系统,负责海量数据的存储。一般而言,HDFS存储文件大小为PB甚至TB级别时,系统的存储性能高效;而当它存储海量小文件时,存储性能就显得不足,原因在于HDFS的主节点namenode内存存储大量的元数据,导致内存消耗过高,影响整个文件系统的读取性能。为了更好地提高HDFS存储海量小文件的性能,本文在原HDFS的基础上实现了一个新的海量小文件存储系统SHDFS(Small Hadoop Distributed File System)。SHDFS新设计了两大模块:合并与缓存模块。合并模块的工作是基于用户的最近邻推荐思想构建了关联文件挖掘模型,通过引入Pearson相关系数,挖掘文件之间的关联性,再对具有关联性的文件进行合并操作,减少了namenode内存存储的元数据量;缓存模块的工作是设计了基于对数线性算法的热点文件预测模型,为文件抽象出文件热度值,再根据文件的热度值挑选出热点文件,并将热点文件缓存至HBase数据库中。该模块旨在减少HDFS客户端与namenode交互的次数,进一步减缓namenode内存的压力,提高系统读取文件的效率。实验结果表明,系统存储等量的小文件,在namenode内存消耗方面,SHDFS的内存消耗比原HDFS平均减少了15%;对于文件读取的效率方面,在热点模式下,无论是随机读取单个文件还是顺序读取多个文件,SHDFS读取文件的效率都要比原HDFS高。实验证实了本文实现的海量小文件存储系统SHDFS,相对于原HDFS系统,有助于降低namenode节点的内存消耗,提高海量小文件的存储效率。
其他文献
设备维修管理研究对于HGPM厂建立现代设备维修管理体系具有重要意义。通过系统的研究该厂的设备运行指标,深入分析设备维修管理存在的问题,建立现代设备维修管理体系,能够使
随着社会经济持续快速增长和信息技术的突飞猛进,通信消费水平不断提升,为通信市场的发展提供了巨大的推动力量。面对当今的语音通讯市场,个人移动业务已经占据较大份额,而公
医学图像融合是对多幅不同模态的医学图像进行信息综合,合成一幅包含所有源图像重要信息的融合图像的过程,能够获得比单一模态医学图像更全面的诊断结论。为了能够对图像中每
随着计算机技术、人工智能技术的发展,计算机视觉成为一个越来越热门的研究领域。通过立体图像序列估计场景流是计算机视觉研究领域的重要研究内容。场景流估计是三维运动研
为促进经济发展,许多国家逐步加大轨道交通等基础设施建设,全球轨道交通装备行业整体趋于活跃,市场需求逐步释放,这为戚墅堰公司加快国际业务布局提供了难得的机遇。同时国家
近几年环境污染日益严重,CO、SO2等有害气体排放也日益增多,因此传感器对于气体检测的应用需求更加明显。声表面波气体传感器具有高灵敏度、高精度,低功耗便于集成等优点,并
设施大棚内连作障碍问题日益突显,已有众多研究表明,通过水旱轮作能有效缓解连作障碍,秸秆覆盖有利于培肥土壤。本试验通过水旱轮作结合小麦秸秆覆盖进行连续还田,夏秋茬淹水栽培蕹菜,冬春茬旱作小白菜,并在水作期间以2500 kg/亩和1500 kg/亩的覆盖还田方式,覆盖截段为10 cm的小麦秸秆开展试验,同时进一步扩展大田试验,利用小麦机械切段秸秆覆盖还田湿润栽培湖北绿梗芋,探究对蔬菜产量品质及对土壤性
非本征光纤珐珀传感器具有结构简单、高灵敏度、可避免电磁干扰等优点,在深井探测、电气局部放电及建筑结构健康状态监测等领域中得到广泛使用。论文首先介绍了光纤EFPI传感
在科技高速发展的今天,如何从纷杂的信息大世界中获取有用信息,解决信息超载问题,已成为一项具有挑战性的工作。推荐系统作为解决信息超载问题的有效途径,成为当前学术界的热
腐蚀对几乎所有的工程结构或系统,如各种工业设备、管道、桥梁、军事设施等,都会造成破坏性的影响,导致使用寿命缩短、性能及可靠性下降甚至严重的功能故障和事故的发生,为了