Hadoop小文件处理技术的研究和实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:jiemei2007126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网呈现爆发式增长趋势,数据越来越成为大家关注的问题,然而现有Hadoop框架在处理小文件问题时出现了很大的瓶颈,本文针对小文件的特点和Hadoop框架的特点给出两种解决方案。Hadoop分布式文件系统HDFS由名字节点和数据节点构成,当海量小文件存入HDFS后,由于名字节点中记录了文件的元信息,海量小文件会大量占用名字节点中的内存,因此降低名字节点的内存消耗成为一个重要的目标。在读取文件时,由于客户端需要先后与名字节点和数据节点发生数据交换,所以使用合理的方法加快文件访问速度是另一个重要目标。本文将小文件分为结构相关小文件和逻辑相关小文件,前者小文件间有明确的关联性,对其采用文件合并策略,建立本地索引策略,将小文件合并成一个大文件,并使用三级缓存和预取,减小名字节点的内存消耗及小文件的读取时间。后者小文件间没有明确的关联性,采用文件分组策略,建立全局索引策略,将小文件放到同一个逻辑单元中,并使用三级缓存和预取,减小名字节点的内存消耗及小文件的读取时间。
其他文献
现代列车不但要保证安全高速地运行,而且还要为旅客和列车工作人员创造良好的舒适卫生环境。列车在实际运行中,条件可能十分苛刻,为了验证列车的相关性能,装车后的部件及整车
网络是互联网存在的根基,互联网的迅速发展给网络的维护和管理带来的严峻的挑战,SDN可以降低维护和管理网络的成本,但是如何将SDN落地并应用到实际场景中来,对于企业、网络厂
西秦岭造山带是中央造山带的重要组成部分,是青海省重要的金及多金属成矿带之一,青海曲如沟岩体位于西秦岭造山带西段。本文通过对曲如沟岩体岩石学、锆石U-Pb同位素年代学和
改革开放以来,我国农村地区人均可支配收入大幅增加,从1978年的134元上涨到2019年的16020.67元。但可支配收入的上涨并没有显著改善农村地区居民金融资产配置,农村家庭拥有的财富大多仍以存款形式存放于银行类金融机构。虽部分农村家庭欲通过投资风险金融产品以期获得财富增值,但受限于金融机构网点覆盖不均衡、智能终端投资理财知识不足以及投资者理财能力匮乏等问题,在风险金融资产选择上仍存在较大困难。
报纸
本论文运用沉积学、岩石学、构造学、储层地球化学与地球物理学等方法,对准噶尔盆地东道海子凹陷走滑断裂的断裂特征、构造特征、构造形成与演化和构造控藏作用进行了研究,并
小麦赤霉病(Fusarium head blight,FHB)是温暖湿润和半湿润地区广泛发生的一种全球性、毁灭性病害,其致病菌以禾谷镰刀菌为主。赤霉病不仅造成小麦产量的巨大损失,还使籽粒品
黄绿青霉素(Citreoviridin,CIT)是一种主要由黄绿青霉菌(Penicllium citreonigrum)分泌产生的具有毒性的次级代谢产物,广泛的存在于谷类农作物及其相关的农副产品中。它具有
由于人们对能源与环境及可持续发展的认识日益提高,二氧化碳(CO2)的固定及利用已经成为世界各国科学家研究的焦点课题。在催化剂的存在下,通过CO2和环醚类化合物的有序共聚反应
学位
服务业作为国家经济发展组成的主要成分,是衡量国家经济现代化水平的显著指标之一,且在促进经济增长与提高就业水平等方面扮演重要角色。随着市场化改革发展和城市化进入加速