基于改进随机森林的硬盘故障预测方法研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:paullove0906
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着工业物联网、云存储、云计算、大数据等新兴信息技术的出现和迅猛发展,全球数据总量呈现指数级的增长,全球接近90%的数据存储在数据中心的硬盘中。由于硬盘自身结构和数据存储机制,硬盘一旦出现故障,硬盘中存储的数据可能永久丢失,给企业和个人带来严重的损失。虽然数据的冗余备份机制可以预防硬盘故障时数据的丢失,但是增加了数据存储的成本,对硬盘进行故障预测成为目前最主流的方法。硬盘的S.M.A.R.T.(Self-Monitoring,Analysis and Reporting Technology)技术和数据中心运维技术的发展,为硬盘的故障预测奠定了基础。目前,几乎所有的硬盘都支持S.M.A.R.T.技术,这为硬盘的故障预测提供了数据基础,同时数据中心的运维方式正由自动化运维向基于机器学习方法的智能化运维方向转变,使用机器学习方法进行硬盘故障预测,可以提高硬盘故障预测的准确率,保障数据存储的安全可靠。本文分析了真实数据中心场景下硬盘S.M.A.R.T.数据的特点,同时选择使用改进随机森林算法建立故障预测模型,对硬盘故障进行预测。本文的主要研究工作包括:(1)针对真实数据中心场景下,硬盘S.M.A.R.T.数据多维的特点,提出了基于相关系数的数据降维方法。通过计算不同S.M.A.R.T.属性间的相关系数,选择一个属性来代替其它与其强相关的属性,对硬盘S.M.A.R.T.数据进行降维。(2)针对真实数据中心场景下,硬盘S.M.A.R.T.数据中正常和故障样本数量不均衡的问题,以及传统随机森林算法在处理不均衡数据的缺点,使用改进的SMOTE算法对数据进行平衡化处理。(3)对传统随机森林模型进行优化,包括增加决策树的剪枝操作,决策树的选择和分配决策树的权重,进一步提高模型预测的准确率和效率。(4)针对真实数据中心场景下,硬盘S.M.A.R.T.数据具有的时序性,提出增量学习的策略。通过增量学习策略,利用新增数据更新模型,保障硬盘故障预测模型具有持久的学习能力。
其他文献
本文建立了硅氧烷中微量氯离子的离子色谱分析方法.硅氧烷样品使用纯水磁力搅拌萃取,萃取液经高速离心分离和纯化后进行离子色谱分析.样品中氯离子的定量限为0.012μg·g
2012年是中日邦交正常化40周年,中日大学生交流作为公共外交的—部分,得到了中日双方的大力支持。当代中国大学生理性的爱国态度能促进中日交往,有利于中日友好发展。然而,20
目的探究院前急救中应用喉罩的价值及护理情况。方法选取2014年5月15日~2017年5月15日院前急救患者100例为研究对象,根据就诊时间分为对照组和实验组,各50例。对照组实施气管
霍去病墓石刻被认为是中国现存时代最早、保存最完整的一批大型石刻艺术珍品。这些石刻作品多取材于花岗岩石,形体较为庞大。采用圆雕、浮雕、线刻等多种表现手法,呈现出因势象
白花泡桐是泡桐属分布区域最广的树种,,生长迅速,材质优良,经济价值巨大。本文通过对来自南方9省的37个不同种源白花泡桐幼林期树高和胸径的调查、叶片光合特性观测、叶片中
标点符号是书写语言中不可缺少的部分。有了它,文章读起来更流畅,理解更容易。如果文章中没有或错用标点符号,读者在阅读过程中不仅会比较吃力,而且容易误解作者想表达的原意。笔
身体功能训练(Physical Functional Training)是一种当今世界比较流行的训练方法,已被很多世界高水平运动员采用。运动损伤是现代高水平运动队日常训练、比赛,需要时刻警惕面临的
[目的]观察穿龙薯蓣皂苷治疗再生障碍性贫血(简称再障)小鼠的疗效及骨髓CD3+、CD4+、CD8+的表达。[方法]建立再障小鼠模型,各组分别喂饲生理盐水、穿龙薯蓣皂苷、环孢菌素A、
啦啦操发展到现在,已经是一项可以充分展现人们奋发向上、朝气蓬勃和强烈集体荣誉感的专业运动项目,它十分强调团队成员之间的默契与合作,注重的是各队伍表现的整体效果,能培养学
自西方现代艺术产生起,我国的水彩教育仍然是以西方古典水彩画的再现性为主导思想,这种传统的表现形式开始与西方现代艺术和后现代艺术的前卫思想相背离,也势必会脱离主流艺术,写