基于HDFS的小文件存储方法的研究与优化

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:billyte
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,数字信息正在呈现爆炸式的增长,人类已步入大数据时代,传统的存储方式在处理海量数据方面显得越来越乏力。如何高效地处理和存储海量数据已成为一个亟待解决的问题。伴随着数据处理以及存储技术的快速发展,云计算的概念应运而生。云存储是云计算的延伸和发展,它具有结构灵活、响应效率高、管理方便等优点,已经成为世界各国解决数据爆炸性增长方案的首选。Hadoop分布式文件系统(HDFS)作为目前应用非常广泛的云存储平台具有开源、廉价、高容错以及高可扩展性的特点。但是由于自身的主从式结构和元数据的存储方式导致其在处理海量小文件时NameNode内存占用率高、存储访问效率低、并发用户的访问时延长,这些问题已经成为制约HDFS整体性能的瓶颈。因此,基于HDFS的海量小文件存储方法的研究与优化是云计算技术领域的一个重要研究课题。为了解决HDFS处理海量小文件时耗费内存资源和检索效率低的问题,本文首先研究了HDFS下处理小文件的现有方法,分析了各自的优缺点,并在此基础上提出了一种具有独立小文件处理模块的分布式文件系统。该架构是在分布式文件系统的基础之上加入一个完全独立于HDFS的小文件处理模块,负责小文件的合并、映射、预取,在传统HDFS处理之前将小文件整合为大文件。该架构使得HDFS系统在处理小文件的同时不影响对大文件或者对已合并小文件的写入或读取,从而提高系统的存储访问效率。并且,本文所提架构更加符合传统HDFS高效处理大文件的设计理念,在解决多用户高并发访问问题上也有一定优势。最后通过系统仿真,说明在元数据耗费内存资源、存储访问效率、用户并发访问方面所提架构比原HDFS系统及HAR方法具有较大提升。
其他文献
配电网交流故障定位方法的思路是:线路出现单相接地故障以后,在停电离线状态下向故障相注入交流信号,然后携带手持交流信号探测器用二分法沿线路检测,直到找到故障为止。交流注入信号频率本文选择60Hz,相对与S信号注入法,称为低频交流注入法。通过本文的研究工作,取得了如下主要研究成果与结论:(1)首次将交流定位方法从经验提高到理论。(2)给出了交流信号源和交流信号探测器的设计方法。(3)探测器采用单片机C
直接数字频率合成(DDS)技术是一种全新的数字化频率合成技术,它是应用奈奎斯特采样定理把一系列数字量形式的信号通过DAC转换形成模拟量信号的频率合成技术,现已广泛应用在雷
随着电子计算机技术的迅速发展,计算机软件在人们工作、生活中扮演越来越重要的角色,因此保证软件产品有效工作即保证软件产品的可靠性,变得日益重要。在软件产品的开发过程
期刊
随着计算机与通信技术的飞速发展,信息网络几乎遍布了当今整个世界。信息的传递与共享与办公自动化紧密的结合在一起,自动化软件得到了广泛的应用。然而,人们在享受办公自动
利用视频影像测量技术获取海洋信息,有着重大的应用价值和广泛的需求,探索和发展海洋环境要素的视频监测技术,急需深入研究和突破信息获取的关键技术。本文以波浪和近岸信息
随着国家对煤矿资源的大力开发,意外事故时有发生,煤矿安全生产也变得尤为重要。要减少煤矿事故的发生,除了要加强管理和安全技术培训外,最重要的是准确有效的对矿井环境进行
目前常规的X射线检测系统中,射线机与控制端均采用电缆进行连接,大大降低了设备的灵活性,而射线机管电压管电流采取人工调节的方法也降低了设备的检测效率。通过对视频编码技
音频信号含有丰富的信息,并具有非接触性、自然性和采集设备成本低的优势,使得音频信号识别技术在实现人机交互和各种电子产品智能方面具有很好的应用前景。实际应用中,说话