基于HDFS的分布式存储研究与优化

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:baiwgeg751125
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分布式文件系统HDFS可扩展性高、容错能力强,能够部署在廉价设备上,具有较强的数据处理能力。但HDFS仍有许多不够完善的地方。本文深入分析HDFS运行机制,主要针对HDFS海量小文件存储机制、副本放置机制,提出存在的缺陷并给出优化方案。HDFS最初的研发是为了存储大文件,当往HDFS集群中上传海量小文件时,则NameNode需要保存大量元数据,容易引起NameNode内存瓶颈。当用户频繁访问小文件时,需不断访问NameNode,并进行DataNode节点切换,导致数据访问效率低下。针对海量小文件存储问题,本文提出了基于特征值分类算法的小文件合并策略。该策略对所有待上传到集群的小文件用VSM向量空间模型进行分类关联,合并成大文件后上传到HDFS集群。分类过程中对文件进行分词、提取特征词,然后进一步合并成大文件,这样则避免了小文件存储所带来的麻烦。合并文件中加入索引和缓存机制,改善了 NameNode内存消耗问题,同时提高了小文件读取速度。HDFS默认的副本存储机制没有考虑到DataNode具有异构性。若不同性能的节点存储同样多的数据副本,势必导致负载不均衡的现象。针对这一问题,本文充分考虑每个节点的异构性后,提出基于DataNode节点评价值的副本存储策略。该策略提供一个API接口,允许集群中的用户通过该接口来自定义所关心的节点状态。并对TOPSIS算法进行优化处理,用优化后的算法对节点进行评价。此策略同样将网络距离因素考虑进来,进而选择最优的节点来存放副本。从而提高负载均衡,提升系统性能。通过实验,将本文改进的两种策略和已有的方案进行对比。结果表明本文提出的优化方案提高了文件的读写效率,对HDFS整体性能具有一定提升作用。
其他文献
通过对不同采样点位的监测数据统计分析,以求找到最优采样点位。
<正> 东北鼢鼠又叫华北鼢鼠,俗名地羊、盲鼠、瞎老.啃食牧草和粮食作物的地下根茎,在地下串洞拱包,一只鼢鼠可拱起几十个高1尺、宽2~4尺的土包.东北鼢鼠喜欢栖居在土质较疏松
[目的]探讨体验式教学法在《老年护理学》实验教学中的应用效果。[方法]将210名护理本科生分为对照班和试验班,对照班采用传统实验教学方法;试验班采用体验式教学模式进行实
<正>大豆磨浆机是制取豆浆的机械,与家电市场销售的家用磨浆机有本质的区别,因其加工豆浆的效率高、浆渣分离效果好普遍应用于饭店、豆制品加工厂、单位食堂以及广大农村的豆
护理是医疗卫生事业的重要组成部分,关注整个生命发展的历程,并促进人民群众身心健康。《护士法》与护士队伍建设、护士整体素质、护理教育、护理管理、护理科研、护士处方权
利用社会科学软件SPSS对三个汉语等级的维吾尔族大学生的国语情态动词应用情况进行了实验研究,以问卷形式调查了维吾尔族大学生和以汉语为母语的汉(回)族大学生对国语情态动
[目的]探讨护士处方权申请者的资格,为相关决策提供理论参考。[方法]运用Delphi法对49名医护专家进行两轮问卷咨询,对咨询结果进行统计、分析。[结果]两轮专家咨询问卷的有效
以价廉易得的氟苯和戊二酸为原料,经傅-克反应、酰胺化、酮的还原、偶联和环合等数步反应合成依折麦布,总收率为7.5%.其中,用KRED238全细胞酮还原酶直接还原化合物5的羰基获