基于Hadoop的文件存取优化的方法研究

来源 :沈阳工业大学 | 被引量 : 1次 | 上传用户:cx77287728cx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据技术的兴起,用户访问互联网所产生的数据正在呈指数级增长,这些数据大部分以小文件最多。传统的存储技术对于处理海量小文件的性能已经大幅度下降,而Hadoop分布式架构为处理海量数据提供了很好的解决方案。Hadoop本身在处理大型文件方面表现出高性能,但是随着小文件数量的增加,Hadoop内存中的NameNode元数据块存储空间消耗过大,在访问文件性能上有所降低。因此本文设计了一种高效的解决Hadoop在小文件存储优化方面的方案,这也是本文所要研究的重要方向。针对Hadoop中小文件存储效率低下的问题,本文设计了一种关联文件合并算法以及文件缓存算法。在关联文件合并算法中,在小文件预处理模块上设计一种文本挖掘模型算法,即基于TF-IDF特征提取和加权余弦相似度的K-最近邻算法,该算法首先通过对英文文本集进行单词的词干提取、分词等操作,找到待分类的训练文件与K个邻居的测试文件所属的类别;然后通过实验测试在众多训练文件集中找到与待分类文件最相似的K个邻居,并对其进行聚类实现;最终得到分类后的测试文件集,对分类后的文件集进行合并。合并算法中将小文件以<key,value>键值对的形式进行存储,通过读取文件路径名及文件内容,对其合并上传到HDFS内存空间中。文件缓存算法是通过改进LRU和LFU算法的不足,提出一种LRU-K文件缓存淘汰算法,该算法关键点在于通过设置用户访问小文件的时间戳以及文件访问频率,将不常用的文件进行淘汰,提高常用文件的缓存性能,进一步增加用户读取文件的访问命中率。为验证算法可行性,本文在搭建好的Hadoop集群上进行多次实验,与原始的HDFS文件存储方案和HAR归档方案进行比较,测试在NameNode内存占用率以及写文件耗时方面的性能。实验结果证明,本文设计的小文件优化存取方案能够有效地降低HDFS中NameNode的内存占用消耗,并有效地缩短了用户读写小文件的时间耗时,也进一步验证了本文提出的方案可行性。
其他文献
本学位论文主要研究了几类分数阶微分方程的初值问题与边值问题,通过运用不动点定理建立了解的存在性和唯一性的若干定理,丰富了分数阶微分程解的基本理论.本文主要工作分为
随着人工授精技术的推广,种公牛对种群改良的作用越来越大,购买或培育种公牛的成本也越来越高。营养因素不仅决定种公牛是否健康,而且对种公牛的采精量和精液品质影响很大,本文总
在职业教育中,职业指导工作的优劣直接关系到学生的成长成才,直接体现职业技术学校的办学质量和效益,已成为职业教育的一项重要内容.……
期刊
禽流感、口蹄疫、猪瘟和高致病性猪蓝耳病均属重大动物疫病,其免疫均为国家强制免疫项目。
目的对宫腔内夫精人工授精夫妇的丈夫精子资料进行回顾性分析,观察不同精子情况与临床妊娠率的关系。方法选择2004年~2012年因不孕症在中山市博爱医院生殖医学中心进行宫腔内人
2010年以来,辽宁省认真贯彻落实国家各项畜牧饲料业扶持政策措施,不断加大投资力度,大力推进畜牧饲料业生产方式和增长方式转变,畜牧饲料业生产保持平稳发展,各项指标持续增
近几年来我国A股市场定向增发的融资规模和公司数目都在迅速增长,尤其在2016年我国上市公司定向增发融资额达到了新的高度,融资额突破了18000亿元。鉴于发行成本较低、定价机制较为灵活等特点,资本市场中定向增发的热度持续上升。而我国证监会发现定向增发市场快速发展的背后可能存在一定的市场缺陷和监管漏洞,于2017年出台了定向增发最新修订的实施办法,对我国定向增发市场加以约束和引导。定向增发是否能够有效
近日,全国生猪收购均价由每千克19.5元下降至2012年6月初的每千克13.5元,累计每千克下降6元,下降超过30%。虽然生猪价格持续下降,但中大规模养殖场和大型企业都看好生猪产业,不断扩大
近日,江苏亨通光电有限公司成功中标缅甸1000公里气吹微缆产品订单,5月29日,缅甸项目公司验收小组一行来亨通光电,对公司中标后首批订单产品进行厂验。
文中论述的是使用金属型生产球墨铸铁时,铸件表层形成的片状石墨和激冷条件下形成的组织的特征和原因。