基于Hadoop的海量小文件处理技术研究

来源 :电子科技大学 | 被引量 : 4次 | 上传用户:dl_zsf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,由Apache基金会所研发的Hadoop云计算平台,已经迅速成为了大数据处理领域的热门首选。与此同时,个性化互联网及移动互联网技术的发展,迅速催生出大量具有重要价值的小文件。由于在现实的应用中,存在较多利用Hadoop对海量小文件进行存取的需求;同时海量的小文件经过合并处理可以方便地得到适合Hadoop平台处理的大文件。因此,利用Hadoop平台在处理大数据处理方面的优势来对海量的小文件进行处理,具有十分重要的研究价值和实用意义。然而,Hadoop云平台本身是为大数据的处理而生,如果直接对海量小文件进行处理,存在耗费节点内存等问题。现有基于小文件合并思想的解决方案,很好地解决了海量小文件耗费节点内存的问题。但是由于其索引结构设计的缺陷,又带来小文件检索效率低、名字节点负担重、实用性差等问题。本文深入研究Hadoop处理海量小文件时存在的问题,提出海量小文件处理的优化方案。论文在第三章和第四章分别提出基于多层索引的小文件读写策略(简称多层索引技术)以及基于缓存技术的小文件读取策略(简称缓存预取技术)两种方案,并在Hadoop平台上对两种方案分别进行了测试验证和结果分析。其中缓存预取技术是对多层索引技术的补充与完善,它对利用多层索引技术所检索出的热点小文件进行缓存处理,以进一步提高检索效率。本文的主要工作包括两个方面:1)基于多层索引的小文件读写策略的研究与实现。本文根据Hadoop平台现有小文件处理的思想,对海量小文件进行合并然后建立索引。其中索引结构的设计是本文的创新点及研究重点,包括索引预处理、索引分层、索引分片等。通过对小文件按类型进行合并,建立多层索引,并对Hadoop平台源代码进行相应改进,海量小文件在Hadoop平台上耗费节点内存的问题得到解决,检索效率得到一定程度提升、名字节点负担得到减轻、实用性也得到提高。2)基于缓存技术的小文件读取策略的研究与实现。本文实现了基于Java语言的Adaptive Repalcement Cache缓存管理算法(ARC算法),并提出改进的ARC算法,以适应海量小文件中存在大量热点数据的情况。改进的ARC算法可以预测将会被频繁访问的小文件并将其进行缓存,并动态置换缓存中的数据,以此提高热点小文件的检索效率。
其他文献
无损检测就是利用声、光、磁和电等特性,在不损害或不影响被检测对象使用性能的前提下,检测被检测对象中是否存在缺陷或不均匀性,并给出缺陷的大小、位置、性质和数量等信息,进而
石英挠性加速度计因其具有较高的测量精度以及良好的稳定性,在现代惯性导航系统中得到了广泛的应用。就现有发展情况而言,石英挠性加速度计的制造技术已经达到了一定的技术高度
无源毫米波成像系统根据目标场景与物体辐射毫米波亮温能量的差异实现成像,因其具备无辐射,可穿透衣物、云雾硝烟等遮挡,且系统隐蔽性强、难以被侦察等特点,在安全检查、军事
脑机接口(Brain-Computer Interface,简称BCI)是指让人不依靠人自身的输出通路,比如人神经系统和肌肉组织等,只通过脑波就能够与外界进行通信或控制的设备。由于临床医学、心理
声反馈是出现在剧院、多媒体教室、会议室等公共扩声系统中的常见问题,它经常使音频扩声系统的性能发生显著衰退,极端情况下会使得系统变得不稳定,发生啸叫。抑制声反馈是扩
随着科技的不断进步,计算机已经非常普及,多媒体技术已被广泛应用。安全防护问题越来越受到人们的重视。作为安全监控系统最有效的手段,视频监控在道路、银行和其它公共场所
云计算具有虚拟化、层次化、动态化和大规模性等特点,因而使其平台监控问题面临着巨大的挑战。其中,针对虚拟化节点的资源监控问题更是重中之重。在实际应用中,对虚拟资源的
相比于单通道合成孔径雷达(SAR)系统,多通道系统因增加了接收通道而使回波数据有了冗余,系统自由度增加,能够获取目标丰富的细节信息,更精准地从背景杂波和噪声中区分出目标,
合成孔径雷达(Synthetic Aperture Radar,SAR)通过飞行载体的运动来形成雷达的巨大虚拟天线,是一种新型的微波成像雷达。它具有高分辨率和全天候、全天时、大测绘带的数据获取
高帧高清晰视频图像的发展对视频图像采集的质量和速率都有了很大的需求。而传统的视频图像的采集技术在数据的传输速率、可靠性以及传输距离等方面已经不能满足现今的需求。