基于HDFS的海量小文件处理性能的研究与优化

来源 :电子科技大学 | 被引量 : 8次 | 上传用户:zhaoxin1987212
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,随着计算机和信息处理技术的迅猛发展,应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长。传统的存储技术在面对海量数据的挑战时显得愈加的乏力。由Apache基金会研发的分布式计算平台Hadoop,迅速成为了大部分科研机构和企业进行大数据研究的首选。与此同时,随着互联网行业的强势崛起和快速发展,催生出了海量的不同类型的小文件,而Hadoop最初的设计主要是针对大文件的存储,而对海量小文件的存储并未多加考虑。如果将海量的小文件不经任何预处理直接上传至HDFS,将会造成NameNode内存中元数据臃肿和文件访问效率低下的问题。利用Hadoop在大文件处理方面的优势,基于合并的思想对小文件进行优化处理,可以使得Hadoop同样适用于海量小文件的存储。在海量小文件优化方案实施之前,本文首先对NameNode的内存消耗和访问效率进行了量化分析,得出了可以从减少NameNode所管理的文件数量,减少DataNode从磁盘上获取数据块的时间消耗等方面着手的结论。本文的合并方案是基于MapFile实现,在进行小文件合并操作的同时为其创建索引,并将索引信息存放至HBase中,同时为了加快文件的检索效率,引入了缓存功能模块,针对小文件的特性采用了改进的缓存置换策略。鉴于HDFS提供的Hadoop Shell和Http访问方式并不能为用户带来直观清晰的体验,对文件的操作也不是很方便,本文中设计实现了一个基于CBFS的虚拟文件系统。通过该文件系统将远端的HDFS虚拟化为本地Windows文件系统中的一个磁盘,给用户带来直观体验的同时,大大方便了用户的操作。最后通过将本文提出的优化方案,与原始HDFS和Sequence file进行测试对比,发现不论是NameNode的内存高消耗还是文件访问的高延迟问题都有所改善,证明了本文提出的小文件优化方案的可行性和有效性。
其他文献
近年来Web Services作为一种新技术广受关注。Web Services中的接口定义语言WSDL和内容传输格式SOAP已经成为W3C的草案和建议标准。然而,在实际应用中,单个Web服务通常无法满
随着网络和计算机上各种结构化数据的迅速发展,需要访问关系数据库查询信息的用户数量急剧上涨。然而传统的查询方法需要用户知道SQL查询语句和数据库模式;人们希望能够在关系
数据挖掘是计算机科学的一个领域,目的是通过分析快速增长的商业、科学和工程数据来获取知识和其他利益,这个领域正在迅猛增长和发展。关联规则的挖掘是数据挖掘课题中的一个
目前,大多数搜索引擎系统都是基于用户关键词查询的信息检索系统。在使用这类搜索引擎查询信息时,主要通过匹配用户输入的查询关键词进行检索。由于用户输入查询词的数目有限
随着计算机技术与通信技术的迅速发展,信息化社会进程的加快,计算机已经成为人们工作与生活中的重要工具。考试是教学过程中一个极其重要的环节,而试卷是考试的重点,试卷如果
近年来,随着Web 2.0和移动互联网的飞速发展,互联网上涌现了大量的社交网络平台。微博作为其中一种社交网络平台,以其高便捷性、高原创性、强交互性和强草根性的特点吸引了大
伴随着互联网的不断发展,越来越多的用户每天在网络上进行着社交、网上购物、浏览新闻等不同类型的网络活动,同时网站后台记录了这些用户大量的交互信息、购买、点击、浏览等
在未来国际上和我国的对地观测计划中,先进的多光谱、高光谱、多角度和微波遥感器层出不穷,它们将在人类认识地球甚至宇宙空间中扮演十分重要的角色。但是航天技术和遥感器技术的发展最终还是要落实在遥感应用上,因此以应用为导向的遥感器设计和应用模型的发展是真正体现航天遥感价值的关键。而对这些遥感器进行前期技术论证以及遥感应用模型开发的一个关键环节就是遥感图像的前期模拟,而在遥感图像模拟过程中,速度慢是制约其应
近年来XML已越来越被广泛的用于互联网上各种数据交换与数据表示,越来越多的公司与组织都通过XML来进行数据的交换与存储。但是XML有个致命的缺点:结构数据冗余。XML表示有效
实施远程教育的关键是创设能够促进学习者主动学习的网络环境,而学习者在网络学习环境中的学习活动离不开以实验为代表的实践学习,虚拟实验室的建立对于提高远程教学的学习效