基于Hadoop的分布式副本管理策略研究

来源 :河北工程大学 | 被引量 : 0次 | 上传用户:qiuxi1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,网络中产生的数据量呈指数级增长趋势,如何对海量数据进行高效的存取已经成了计算机领域的一个研究热点。HDFS(HadoopDistributed File System)是Hadoop的一个分布式文件系统,它可以部署运行在普通的硬件服务器上。HDFS具有高可靠性,支持海量数据的高效存取。HDFS放开了部分POSIX约束,支持以流的形式读写数据。  HDFS仍是一个处在发展和完善阶段的云存储系统,现有的数据管理策略依然存在许多不足之处。HDFS现有的副本管理策略在创建副本时,创建的副本个数是固定的;创建的副本在选取存储节点Datanode时,采用的是随机选取的算法。现有的副本管理策略存在系统存储空间的浪费,集群负载不均衡,性能不高等问题。  本文通过对HDFS分布式文件系统的存储原理进行分析,结合云存储领域的相关知识、理论,对HDFS现有的副本管理策略进行了改进。主要包括以下方面的内容:  (1)对HDFS默认的副本放置策略进行了改进。HDFS默认的数据放置策略是随机选取Datanode节点进行副本存放。然而集群中每个Datanode节点的性能和负载是不一致的,集群中有些节点处于高负荷状态,有些节点处于低负荷状态,有一些节点是新加入的;随机的选取Datanode节点进行副本存放,集群容易产生负载不均衡。改进后的副本放置策略通过对Datanode节点的性能和负载进行分析,根据得到的权值选择最优的节点进行副本的放置。  (2)对HDFS默认的副本创建策略进行了改进。改进后的策略通过对文件最近一段时间的访问热度和访问趋势进行统计分析,根据文件的访问热度值和访问趋势动态的调整副本的个数;根据系统的可靠性要求和副本的可用性计算副本的默认创建个数。改进后的策略使得集群的整体性能和数据处理效率得到了进一步的提升。  (3)搭建HDFS分布式存储环境,分别对改进的副本放置策略和副本创建策略进行实验验证。实验结果表明改进后的副本管理策略充分利用了集群中各个Datanode节点的性能,提高了集群的可靠性和处理速度,更好的实现了集群的负载均衡。
其他文献
由于Web上海量的信息处于不断的变化中,通用搜索引擎己经很难再为用户提供一个全面并且更新及时的信息搜索服务,其局限性在于它试图索引全部Web并且试图服务于所有主题的查询
网格和P2P计算是当前分布式计算领域的两个研究热点。网格是即因特网和万维网之后的新一代的网络应用,试图实现互联网上所有资源的全面连通,将互联网上的资源整合成一台超级
解决图中受顶点数限制的最短路径问题在交通工程、通信网络等方面有重要的实际意义。本文主要是针对K顶点数限制最短路径问题提出求解算法。在实际应用中,除希望得到最短路径
微粒群算法最早是在1995年由James Kennedy和Russell Eberhart共同提出的,其基本思想是受对鸟群行为进行建模和仿真的研究结果启发。微粒群优化算法是一种基于种群搜索策略的
下一代搜索引擎的一个突出特点是个性化,个性化信息检索是以用户为中心的信息检索技术,它获取以多种形式表达的用户需求(包括显式的、隐式的以及相关用户的需求),并综合利用
近年来,随着音视频数字产品的不断呈现,使得视频信息使用量将大于静态图像使用量,从而视频数字产品的安全问题如数字版权问题日益突出。通过数字水印技术可以有效起到版权保
随着网格技术的深入研究与发展,地理上分布的异构资源可以通过网格工具整合成一个完整的计算平台,而高效的网格任务调度则成为研究的热点和亟待解决的问题,其难点在于综合考
近年来,随着社会经济和工业技术的高速发展,各行业对电力系统提出更高的要求,所以,电力系统高效稳定运行,已经成为各行业发展的基础。配电系统作为电力系统中与用户联系最直接的环节,其智能化的发展更为迫切,与此同时电力系统中装置的发展也要趋于网络化、智能化。而其中微机保护装置更是保证整个智能化配电系统供电稳定、可靠运行的重要组成部分。本文通过分析国内外智能化配电系统及其微机保护装置的现状,根据微机保护装置
随着信息技术的发展,人们可用的数据资源呈爆炸式增长。在面对这些海量数据时,用户需要有强大的检索工具来帮助自己找到所需的信息。开放域问答(Question Answering,QA)研究
本文通过研究目前试题库软件的应用技术和发展现状,并根据机械制造工艺学课程的特点,进行了机械制造工艺学课程试题库软件的需求分析,建立了软件模型,提出了软件的解决方案。