论文部分内容阅读
随着互联网的高速发展,网络上产生的数据量呈爆炸式的增长,对这些数据的存储成为了计算机领域研究的热点。传统的存储方式,比如存储区域网络和网络附加存储因为其存储容量和性能存在瓶颈,价格昂贵,不易扩展等原因,应用范围受到限制。云存储采用分布式文件系统为核心,硬件设备价格低廉,可扩展性好。副本技术提高了系统的可靠性、可用性和性能的同时,也带来了负载均衡,网络带宽开销,一致性等问题。本文分析了当前典型的分布式文件系统,结合云存储环境下的业务特征,研究了相应的副本策略,重点考虑系统访问的效率和性能,负载均衡,数据的一致性等问题,并根据这些需求设计和实现了分布式文件系统中的副本管理模块。本文的主要工作包括以下内容:(1)提出了基于一致性哈希的副本放置策略。传统的分布式文件系统副本放置位置主要通过元数据中心服务器存储,当系统并发访问量很大时,元数据服务器将成为系统的瓶颈。基于一致性哈希的副本放置策略很好的解决了文件检索,存储设备扩展和失效的问题。引入虚拟节点映射,极大地减少了系统设备的改变带来的数据迁移。同时对设备按照存储能力增加权重属性,更好的提高了系统的负载均衡。(2)提出了基于文件热度的副本调整策略。该策略以文件的请求次数为基础,结合服务器的负载,动态地调整副本数量,提升了系统的性能和效率。同时,辅以副本压缩策略,对长时间没有访问的文件副本压缩,在保证数据可靠性和可用性的同时,节省了系统的存储空间。(3)提出了基于用户请求的副本一致性策略。该策略在对副本一致性维护的同时,充分考虑到了避免增加系统开销。同时,为了防止长期没有用户访问的文件不一致而使得数据的可靠性降低,副本失去冗余备份的作用,采用定时更新的机制,在系统空闲的时候将系统中副本各版本更新到一致状态。