论文部分内容阅读
集群文件系统作为网络存储系统的核心技术,很好地解决了传统文件系统中存在的性能、容量、共享、可扩展性等问题。然而随着需求增加,集群文件系统的规模可能扩展到包含大量节点和磁盘,这时要保证系统成员能一直正确工作是很困难的,节点、通信和磁盘失效都将会对集群文件系统的一致性造成巨大的损害,如何在集群文件系统中维护一致性成为研究热点之一。
本文结合蓝鲸集群文件系统的需求,对集群文件系统恢复技术进行了深入的研究,设计并实现了一个基于蓝鲸集群文件系统的修复系统,它可以作为蓝鲸集群文件系统的附属工具为其提供异常恢复,解决了系统中曾出现过的资源丢失并定位出资源重用问题。
本文主要取得了如下成果:
1)设计了分布式的BWFSCK结构。利用蓝鲸集群文件系统管理服务器的核心控制能力,存储服务器的扩展性和带宽聚合能力,设计了分布式的BWFSCK结构,降低了系统的不可用时间。
2)设计并实现了位图重构算法。蓝鲸集群文件系统的存储服务器采用位图方式管理存储空间,在系统发生异常时存储服务器上的位图可能发生错误,无法正确描述文件系统使用的存储资源。基于此,我们设计并实现了位图重构算法,重构出一份反映文件系统真实使用存储空间情况的位图,用于恢复文件系统由于系统异常丢失的存储资源并定位出资源重用。
3)扩展了ENBD协议。结合蓝鲸集群文件系统实现特性,通过扩展已有的ENBD协议,使元数据服务器运用位图重构算法获得正确的资源位图后,能够分发给各存储服务器进行分布式的位图修复操作。
理论分析表明BWFSCK在处理大文件时很有优势,它的理想性能是在处理小文件时的85倍,实测值也在30倍,该特性符合蓝鲸集群文件系统在大规模高性能计算领域的应用模式。在测试中,定位了BWFSCK的性能瓶颈点,并在文章末尾给出了相应的优化方向,为下一步的优化工作提供指导。