HDFS中文件存储优化的相关技术研究

被引量 : 0次 | 上传用户:zldingkai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对不断增长的海量数据,目前计算机领域提出了一种新的计算模式--云计算,Hadoop是一个可实现大规模分布式计算的开源框架,具有高吞吐量、高可靠性、高可伸缩性等优点,因此被广泛应用在云计算领域。Hadoop中的分布式文件系统HDFS是被设计成适合运行在通用硬件上的分布式文件系统,它是一个高度容错的系统,可以部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用,并能够以流的方式读取文件系统中的数据。但是作为一个正在不断发展中的分布式文件系统,HDFS也不可避免的存在一些文件数据存储方面的缺陷。例如HDFS在数据副本存储时,是在机架上随机选择Datanode进行存储,可能导致Datanode负载不均衡,从而影响整个系统的性能:并且HDFS最初是被设计用来流式的存储大文件,未对小文件的存储进行优化,因此在处理小文件时性能十分低下。本文首先对分布式文件系统的发展做一些简要的介绍,然后深入分析了HDFS分布式文件系统,包括其架构、元数据管理、以及文件读写流程等,并且分析了现有的解决HDFS数据存储及小文件存储的一些方案的性能以及不足。本文的主要创新点如下:1、针对在机架上随机选择Datanode进行数据副本存储时,可能导致Datanode负载不均衡等问题,提出了采用多目标优化技术,基于Datanode的当前运行状态,寻找综合条件最优的Datanode进行数据存储的方法。该方法使得数据副本均衡的存储在Datanode中,也可以提高数据读写的性能。2、实际的应用中会产生大量的小文件,针对HDFS存储小文件的不足,提出了小文件合并和Client端缓存小文件等策略。在Client端将小文件合并成若干大文件后,将大文件及相关元数据一同存储到HDFS中;在读取某个小文件时,Client端缓存从Datanode返回的包含该小文件的整个大文件,再次读取该小文件,或者大文件中的其它小文件时,可以直接从Client端读取。减少了Client端向Namenode频繁请求元数据的次数,也减少了Client端向Datanode频繁请求数据块的次数,大大降低小文件的存取时间。
其他文献
<正>目的:高糖血症/糖尿病(DM)是心血管疾病的的独立危险因子。但是,高糖血症/糖尿病的时程与心肌缺血/再灌注(MI/R)损伤的严重程度之间的关系,目前仍不得而知。血糖控制对MI
会议
土地资源的粗放利用、空间布局的不合理造成土地资源集约利用程度低,制约我国经济平稳较快发展的步伐。为提高资源利用效率、调整产业布局、完善土地利用政策,我国于“十一五
随着金融业的快速发展,证券市场已经成为国际范围内的重要投融资渠道。它不仅为企业融通资金提供了广阔的平台,同时也吸引了越来越多的个人投资者参与到市场中,使得他们的生
保护私人财产权利是现代社会宪法立法的基石,也是社会主义改革的题中应有之意。传统的社会主义国家仅仅只是在刑法和民法层面保护私人财产权利。社会主义改革的深入亟待从宪
将转正、反义无机焦磷酸酶(PPase)基因马铃薯‘甘农薯2号’块茎分别贮藏于4℃和25℃下90 d,测定其PPase活性和无机Pi含量等生理生化指标。结果表明,在25℃贮藏温度下,与未转基因对
二十世纪八十年代末九十年代初,受西方结构主义以及继之而来的新历史主义等理论方法的影响,文坛兴起一股新历史小说的创作热潮。新历史小说的作家们利用独特的历史叙事技巧,
目的:探讨下生殖道感染与胎膜早破及母儿结局的关系,为临床工作中预防、治疗胎膜早破提供经验,进一步做好围产期保健,提高妊娠质量,促进母儿健康。方法:收集2011年3月~2013年3月在我
20世纪80年代以来,全球变暖问题逐渐受到人们的普遍关注,实施碳减排、发展低碳经济以应对气候变化成为各国共识。近年来,陆地生态系统碳循环在国内外学术界进行了广泛和深入
上世纪90年代开始,我国关于行业间收入差距问题的研究逐渐丰富,已有研究虽然关注到了行业垄断对行业间收入差距的影响,但却很少在分析时充分考虑不同行业间个体人力资本差异
为便于读者收集、检索独联体跨国标准,本刊在2004年第9、10、11期连载独联体跨国标准(ΓOCT)题录,题录刊载了截止2004年3月中国标准化研究院标准馆收藏的全部现行标准。本刊