论文部分内容阅读
随着互联网的发展、存储规模的骤增,大型数据中心硬盘频繁损坏导致的数据丢失给企业带来的损失已成为不可忽视的重大问题。硬盘厂商生产的各种型号硬盘通常都会支持SMART(全称为“Self-Monitoring,Analysis and ReportingTechnology”),它会对硬盘内部一些与健康状况相关的属性进行监控,若某个属性值超过了阈值,它就会自动向用户报出故障预警信息。然而,这种SMART属性阈值方法的预测效果却不是很乐观。因为对于硬盘故障预测来讲,保持较低水平的误报率十分重要。为了降低误报率,阈值法不得已牺牲准确率,在0.1%的误报率的情况下仅能预测出3-10%的硬盘故障。为此,很多研究者就基于SMART属性对硬盘故障进行预测的方向投入了研究,并提出了很多有效的方法,主要包括统计学和机器学习两类方法来建立硬盘故障预测模型。其中有一些成果,能够做到在保持较低误报率的情况下,获得较高准确率。然而,在多数研究中,没有考虑硬盘SMART属性时序性这一特点,更没有得出时序相关的结论,而是给出硬盘好坏的两类分类结果,在实际场景下应用并不是十分可行。 本文一方面尝试了基于属性的时序特征建立硬盘故障预测模型,还尝试采用能利用时序特征的方法建立预测模型。对于时序特征,本文抽取特定大小窗口中属性最大值、最小值、峰值个数、时间、持续时间、斜率等特征,并采用梯度提升回归树进行验证。对于时序模型,本文主要研究LSTM(Long Short Term网络),CW_RNN(Clockwork Recurrent Neural Network)两种模型。实验数据采集自某真实的大型互联网企业数据中心,该数据中心持续提供近10万块硬盘的SMART数据。本文首先考虑真实的大型数据中心场景,对数据进行收集、清洗、划分。然后对时间窗口内每一维度的SMART数据属性进行时序性分析,并将其应用于硬盘故障预测模型。或将其应用于具有时序特征的硬盘故障预测模型,对其预测结果进行评估。此外本文也尝试了建立能输出健康度指标的预测模型,来对硬盘运行状态进行更细致的评估。分析实验结果可见,本文建立的时序性硬盘故障预测模型具有较好的故障预测能力及较好的硬盘健康度的评估效果。