论文部分内容阅读
随着互联网时代的到来,数据规模的快速增长给存储带来了巨大挑战。磁盘凭借其容量大、价格低等优势,被广泛用于数据中心存储。然而,磁盘属于复杂的机械电子设备,维持其高可靠性很具挑战。磁盘故障预测技术对即将发生的磁盘故障进行预测,在磁盘故障发生之前,主动地对这些磁盘中的数据进行迁移,达到提高可靠性并降低维护开销的目的。但仍存在如下问题亟待解决:(1)由于缺乏故障磁盘样本,导致基于有监督分类模型的磁盘故障预测方法存在适用性受限的问题;(2)仅使用预测准确率衡量预测方法的好坏,缺少对预测错误代价的评估;(3)基于扇区故障预测对存在潜在扇区故障的磁盘进行提升频率的扫描检测,导致维护开销增加。
针对以上三个问题,主要工作包括如下三个方面:
首先,针对基于有监督分类模型的磁盘故障预测方法存在适用性受限的问题,提出了基于异常检测模型的磁盘故障预测方法SPA。SPA将故障磁盘样本当作异常,仅利用健康磁盘样本进行模型训练,解决了模型冷启动问题。另外,通过构建二维SMART数据类图(image-like)表示,结合深度神经网络,能够自动挖掘SMART数据特征。同时,利用深度神经网络的微调特性实现模型更新,解决了模型老化问题。基于Backblaze真实数据集合的实验结果显示,SPA能够在磁盘使用的整个生命周期达到1%的误报率和99%的故障检测率。实验结果证明基于异常检测的SPA能够克服已有故障预测方法适用性受限的问题。
其次,针对缺少预测错误代价评估指标的问题,提出了磁盘故障预测错误代价优化方法VCM。从降低可靠性维护开销的角度出发,VCM将错误预测代价引入到磁盘故障预测中,并通过代价敏感学习来降低错误预测代价。具体地,VCM为误报和漏报分配不同的错误预测代价权重,构建代价敏感学习的损失函数。然后利用阈值滑动策略,选择取得最小代价的预测阈值。基于Backblaze和百度真实数据集合的实验结果显示,相较于对代价不感知的方法,VCM能够减少最高22%的预测错误代价。实验结果证明了代价敏感学习对缩减预测错误代价的有效性。
最后,针对基于扇区故障预测的扫描检测方法导致扫描检测开销增加的问题,提出了自适应扫描检测方法FAS。基于扇区故障预测结果,FAS对存在扇区故障的磁盘提高扫描检测频率,对健康磁盘降低扫描检测频率。此外,针对周期性的扫描检测行为,提出了一种基于投票的映射方法来提升预测准确率。基于Backblaze真实数据集合的实验结果显示,相较于当前最优的扫描检测方法,FAS在达到与前者相同可靠性的同时,能够减少最高32%的扫描检测开销。实验结果证明了扇区故障预测对降低扫描检测开销和提高数据可靠性的有效性。
针对以上三个问题,主要工作包括如下三个方面:
首先,针对基于有监督分类模型的磁盘故障预测方法存在适用性受限的问题,提出了基于异常检测模型的磁盘故障预测方法SPA。SPA将故障磁盘样本当作异常,仅利用健康磁盘样本进行模型训练,解决了模型冷启动问题。另外,通过构建二维SMART数据类图(image-like)表示,结合深度神经网络,能够自动挖掘SMART数据特征。同时,利用深度神经网络的微调特性实现模型更新,解决了模型老化问题。基于Backblaze真实数据集合的实验结果显示,SPA能够在磁盘使用的整个生命周期达到1%的误报率和99%的故障检测率。实验结果证明基于异常检测的SPA能够克服已有故障预测方法适用性受限的问题。
其次,针对缺少预测错误代价评估指标的问题,提出了磁盘故障预测错误代价优化方法VCM。从降低可靠性维护开销的角度出发,VCM将错误预测代价引入到磁盘故障预测中,并通过代价敏感学习来降低错误预测代价。具体地,VCM为误报和漏报分配不同的错误预测代价权重,构建代价敏感学习的损失函数。然后利用阈值滑动策略,选择取得最小代价的预测阈值。基于Backblaze和百度真实数据集合的实验结果显示,相较于对代价不感知的方法,VCM能够减少最高22%的预测错误代价。实验结果证明了代价敏感学习对缩减预测错误代价的有效性。
最后,针对基于扇区故障预测的扫描检测方法导致扫描检测开销增加的问题,提出了自适应扫描检测方法FAS。基于扇区故障预测结果,FAS对存在扇区故障的磁盘提高扫描检测频率,对健康磁盘降低扫描检测频率。此外,针对周期性的扫描检测行为,提出了一种基于投票的映射方法来提升预测准确率。基于Backblaze真实数据集合的实验结果显示,相较于当前最优的扫描检测方法,FAS在达到与前者相同可靠性的同时,能够减少最高32%的扫描检测开销。实验结果证明了扇区故障预测对降低扫描检测开销和提高数据可靠性的有效性。