基于时序特征的硬盘故障预测模型方法研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:dmj_66666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展、存储规模的骤增,大型数据中心硬盘频繁损坏导致的数据丢失给企业带来的损失已成为不可忽视的重大问题。硬盘厂商生产的各种型号硬盘通常都会支持SMART(全称为“Self-Monitoring,Analysis and ReportingTechnology”),它会对硬盘内部一些与健康状况相关的属性进行监控,若某个属性值超过了阈值,它就会自动向用户报出故障预警信息。然而,这种SMART属性阈值方法的预测效果却不是很乐观。因为对于硬盘故障预测来讲,保持较低水平的误报率十分重要。为了降低误报率,阈值法不得已牺牲准确率,在0.1%的误报率的情况下仅能预测出3-10%的硬盘故障。为此,很多研究者就基于SMART属性对硬盘故障进行预测的方向投入了研究,并提出了很多有效的方法,主要包括统计学和机器学习两类方法来建立硬盘故障预测模型。其中有一些成果,能够做到在保持较低误报率的情况下,获得较高准确率。然而,在多数研究中,没有考虑硬盘SMART属性时序性这一特点,更没有得出时序相关的结论,而是给出硬盘好坏的两类分类结果,在实际场景下应用并不是十分可行。  本文一方面尝试了基于属性的时序特征建立硬盘故障预测模型,还尝试采用能利用时序特征的方法建立预测模型。对于时序特征,本文抽取特定大小窗口中属性最大值、最小值、峰值个数、时间、持续时间、斜率等特征,并采用梯度提升回归树进行验证。对于时序模型,本文主要研究LSTM(Long Short Term网络),CW_RNN(Clockwork Recurrent Neural Network)两种模型。实验数据采集自某真实的大型互联网企业数据中心,该数据中心持续提供近10万块硬盘的SMART数据。本文首先考虑真实的大型数据中心场景,对数据进行收集、清洗、划分。然后对时间窗口内每一维度的SMART数据属性进行时序性分析,并将其应用于硬盘故障预测模型。或将其应用于具有时序特征的硬盘故障预测模型,对其预测结果进行评估。此外本文也尝试了建立能输出健康度指标的预测模型,来对硬盘运行状态进行更细致的评估。分析实验结果可见,本文建立的时序性硬盘故障预测模型具有较好的故障预测能力及较好的硬盘健康度的评估效果。
其他文献
研究人员使用C++语言设计的通用程序可应用于酶系统,联合药敏试验,各种复杂生物系统.应用该程序可对大量数据迅速处理,直观画图,对实验数据进行预测,极大地方便了体外联合药
∑△ADC(Sigma-Delta Analog-to-Digital Converter)作为一种高精度模数转换器被广泛应用在现代通信、医疗、便携式电子系统中。随着集成电路制造工艺向着深亚微米方向不断演
啤酒生产过程中,糖化过程有醪液的升温和保温过程,整个糖化工艺流程中有供水、糊化、糖化、过滤、暂存、煮沸、沉淀、冷却等环节;这样一个系统实现工艺流程自动控制是一个较
随着智能手机在人们日常生活中的逐渐普及,其在给人们带来便捷的同时,也出现了非常多的安全问题。并且由于智能手机涉及到许多个人隐私信息,因此一旦其出现安全问题,将直接威胁到
该文以6502电气集中联锁系统为依据,结合研究人员目前研制的微机联锁仿真与培训系统,设计和实现了它上面的五套可视化图形辅助工具和微机联锁程序.论文第一、二章主要介绍微
随着国家对建筑信息化模型的战略引导和推广,针对结构工程信息化、数字化的研究和应用已成为当前的热点,迫切需要理论上的提升和方法上的创新。本文综合运用现代土木工程学科与
物联网被誉为是继计算机、互联网之后的第三次信息技术革命,已经引起各国政府、工业界和学术界的高度关注。随着以RFID、无线传感网络为代表的感知技术和通信技术的飞速发展,有
近年来,随着企业信息化系统建设的不断推进,工作流系统已经得到了越来越广泛的应用。企业针对不同领域开发出各式各样的工作流程应用于日常的生产实践中,极大地提高了企业办
伴随着新纪元的到来,人类已经全面进入互联网的新世界,人们生活的方方面面都在被互联网的思维改变着。随着国家“宽带网络校校通、优质资源班班通、网络学习空间人人通”的“三
MCAI技术从90年代初期发展至今,已日渐成熟.它主要涉及到多媒体、数据库、人工智能、数据通信以及教育心理等多学科.目前主要研究方向有系统模型、标准化、多媒体的数据压缩