基于HDFS的分级存储功能设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:txhalyy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化的普及,当前的存储数据量日趋庞大。对于这庞大的信息数据,从传统的单机存储逐渐发展到现在集群存储,数据存储规模也越来越大。但是数据也具有自己存储周期,数据的访问频率会随着时间的流逝逐渐降低。一般超过三个月的数据,基本不会再被访问,而这些极少被访问的数据却占用了我们的存储空间的80%以上。若是将所有的数据都存储在磁盘等性能较高的存储设备上,会带来高昂的存储成本。HDFS是目前应用比较广泛的一款开源集群文件系统。主要在HDFS的NameNode端实现对于存储数据的自动分级存储功能。该功能的实现主要体现在三个部分:数据淘汰算法的实现,数据迁移功能的实现,冷数据存储的管理。使用了老化算法作为文件的分级淘汰算法,对老化算法进行了改进,改进后的老化算法能够体现记录周期内文件的访问频率以及文件大小等因素,使得老化算法能够较好的应用在HDFS。通过利用Hadoop的原有心跳通讯机制中的数据拷贝操作和数据删除操作,建立数据迁移任务,实现数据的迁移。修改了DataNode的分配策略,将部分DataNode的存储介质选作光盘库,用来存储冷数据,并对这些冷数据DataNode进行管理。通过将老化算法应用到HDFS中,实现了数据的分级存储功能。通过相关测试,验证了HDFS中的数据能够按照相关策略,自动化的将访问频率较低的数据,迁移到光盘库的DataNode中。
其他文献
校园网是学校重要的现代化基础设施,为学校的教学、科研、管理、服务等提供先进、可靠、安全、快捷的计算机网络环境。因此校园网的网络安全至关重要。随着网络互联领域的广
随着内容拥有者维护版权的决心以及普通用户保护个人隐私意识日益增强,一些面向多用户的应用,如数字内容分发、付费观看电视等亟需一种密码体制来防止未授权用户的非法访问并
随着社会的发展和计算机技术的提高,软件系统的规模在不断扩大,软件需求也日益复杂,对软件质量的要求也越来越高。软件测试技术就是保证软件质量最主要的手段,它可以有效地提高软
微博作为时下最热门的社交媒体和网络交流平台,越来越多的用户选择在微博平台中构建个人社交圈的同时,用户自身的博文发布以及用户间的关注互动行为,也让微博网络中蕴含着纷
维数约减和半监督学习一直都是机器学习中两个热门的课题。其中维数约减希望通过寻找一个有效的投影矩阵将高维空间中的数据投影到低维空间中,同时低维数据还能保持原数据的有
经济和科技的高速发展引起了生产规模的不断扩大,导致了项目调度在整个项目管理过程中的作用也越来越大。一个好的调度方案可以使整个项目管理变得更加高效。一般情况下,影响
会议初始化协议SIP(Session Initiation Protocol)被广泛的应用于网络电话VoIP (Voice on IP)系统中。但传统SIP网络过度依赖于SIP中央控制服务器,导致系统的可靠性差,维护成
在当今的社会中,互联网通过将信息共享给我们的生产和生活带来了极大的便利,但随着它的普及和开放其自身的安全问题也日益严重。使用有效的入侵检测就成了保证信息系统安全的
在过去的近三十年当中,单个磁盘的存储容量一直在快速增长,但是已经逐渐接近了由超顺磁效应所限定的理论上限。目前提出的多项新技术中,瓦记录技术在对当前的磁盘结构改变较
学位