论文部分内容阅读
分布式文件系统能够有效地解决分布式系统中海量数据存储和I/O瓶颈问题,而成为了目前存储工业界和学术界的研究热点。分布式文件系统是任何大规模分布式计算环境的重要组成部分,它的性能直接影响着整个分布式计算环境的执行效率。因此,分布式文件系统性能的研究是分布式文件系统研究的重点和难点。然而,分布式文件系统在性能评估、性能建模、预测和性能优化等方面存在着很多问题。针对这些问题,本文系统地研究了分布式文件系统性能建模中的若干关键技术,包括分布式文件系统的性能因素及分布、性能评估架构、性能预测模型和性能优化等问题。论文的主要工作包括如下内容:(1)系统地研究了大量分布式文件系统架构及性能因素,提出了典型的分布式文件系统性能因素分布框架。将分布式文件系统性能因素划分为元数据服务器相关的性能因素,数据存储服务器相关的性能因素,客户端/应用相关的性能因素和网络相关的性能因素四部分。并对关键性的性能因素进行了定量和定性的分析,为分布式文件系统性能研究打下基础。在此基础上,提出了分布式文件系统性能评估框架,系统地研究了分布文件系统中可行的性能评估方案。并以Lustre文件系统为研究对象,评估并且分析了一些关键性能因素潜在的性能特征,为分布式文件系统性能研究提供参考。(2)提出了基于机器学习的性能预测模型的性能预测方法。在研究文件系统的架构和性能因子后,设计了一个基于机器学习的分布式文件系统预测模型(MLPPModel)。运用特征选择算法对性能因子数量进行约简,挖掘出系统性能和性能因子之间的特定关系来进行性能预测。通过设计大量实验用例,对特定的Lustre文件系统进行性能评估和预测。评估和实验结果表明threads/OST,对象存储器(OSS)的数量,磁盘数目和RAID的组织方式是四个调整系统性能的最重要因子,预测结果的平均相对误差能控制在23.3%-25.6%之间,具有较好的预测准确度。(3)提出了相对性能预测模型的性能预测方法。通过对性能因子研究,进行了一系列性能评估实验并提出性能相关性模型(PRModel)。在实验评估和PRModel分析中,发现不同的性能因子间存在着紧密的性能相关性。为了挖掘并利用这种相关性信息,提出了一个新颖的相对性能预测模型(RPPModel),可以基于已有的部分性能因子的特性来预测与其有密切相关性的其他性能因子下的性能。为了验证RPPModel的有效性,设计了大量的实验用例。实验结果表明预测结果的平均相对误差能控制在17.1%-27.9%的范围内,易于使用且具有较好的预测准确度。(4)提出基于并行策略的HDFS写操作优化方案,并应用基于机器学习的性能预测模型和相对性能预测模型对改进的HDFS文件系统进行预测和分析。首先,以基于HDFS的Hadoop平台和基于Lustre的Hadoop平台为实验平台,系统地评估HDFS和Lustre在搜索引擎应用场景下的性能,实验评估发现HDFS在写性能方面的不足。然后,提出基于并行策略的HDFS写操作优化方案,优化HDFS的写性能。实验结果表明改进的HDFS文件系统能有效的提高写性能。同时,应用性能预测模型MLPPModel和相对性能预测模型RPPModel对改进的HDFS文件系统进行预测和分析。预测结果表明:在预测改进的HDFS文件系统性能时,性能预测模型MLPPModel预测的平均相对误差在1.45%-18.17%之间,相对性能预测模型RPPModel预测的平均相对误差在1.28%-19.05%之间,具有较好的预测准确度。对指导分布式文件系统性能的改进具有一定的指导意义。