数据中心磁盘故障预测方法及应用研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:kxy66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网时代的到来,数据规模的快速增长给存储带来了巨大挑战。磁盘凭借其容量大、价格低等优势,被广泛用于数据中心存储。然而,磁盘属于复杂的机械电子设备,维持其高可靠性很具挑战。磁盘故障预测技术对即将发生的磁盘故障进行预测,在磁盘故障发生之前,主动地对这些磁盘中的数据进行迁移,达到提高可靠性并降低维护开销的目的。但仍存在如下问题亟待解决:(1)由于缺乏故障磁盘样本,导致基于有监督分类模型的磁盘故障预测方法存在适用性受限的问题;(2)仅使用预测准确率衡量预测方法的好坏,缺少对预测错误代价的评估;(3)基于扇区故障预测对存在潜在扇区故障的磁盘进行提升频率的扫描检测,导致维护开销增加。
  针对以上三个问题,主要工作包括如下三个方面:
  首先,针对基于有监督分类模型的磁盘故障预测方法存在适用性受限的问题,提出了基于异常检测模型的磁盘故障预测方法SPA。SPA将故障磁盘样本当作异常,仅利用健康磁盘样本进行模型训练,解决了模型冷启动问题。另外,通过构建二维SMART数据类图(image-like)表示,结合深度神经网络,能够自动挖掘SMART数据特征。同时,利用深度神经网络的微调特性实现模型更新,解决了模型老化问题。基于Backblaze真实数据集合的实验结果显示,SPA能够在磁盘使用的整个生命周期达到1%的误报率和99%的故障检测率。实验结果证明基于异常检测的SPA能够克服已有故障预测方法适用性受限的问题。
  其次,针对缺少预测错误代价评估指标的问题,提出了磁盘故障预测错误代价优化方法VCM。从降低可靠性维护开销的角度出发,VCM将错误预测代价引入到磁盘故障预测中,并通过代价敏感学习来降低错误预测代价。具体地,VCM为误报和漏报分配不同的错误预测代价权重,构建代价敏感学习的损失函数。然后利用阈值滑动策略,选择取得最小代价的预测阈值。基于Backblaze和百度真实数据集合的实验结果显示,相较于对代价不感知的方法,VCM能够减少最高22%的预测错误代价。实验结果证明了代价敏感学习对缩减预测错误代价的有效性。
  最后,针对基于扇区故障预测的扫描检测方法导致扫描检测开销增加的问题,提出了自适应扫描检测方法FAS。基于扇区故障预测结果,FAS对存在扇区故障的磁盘提高扫描检测频率,对健康磁盘降低扫描检测频率。此外,针对周期性的扫描检测行为,提出了一种基于投票的映射方法来提升预测准确率。基于Backblaze真实数据集合的实验结果显示,相较于当前最优的扫描检测方法,FAS在达到与前者相同可靠性的同时,能够减少最高32%的扫描检测开销。实验结果证明了扇区故障预测对降低扫描检测开销和提高数据可靠性的有效性。
其他文献
【中图分类号】G633.3 【文献标识码】A 【文章编号】2095-3089(2014)09-0108-01  阅读能力是当今社会人们获得成功的基本条件,也是一个人未来成功从事各项工作的必备能力。因此,如何培养孩子的阅读兴趣、提高孩子的阅读能力成了一个教育的关注点。  语文“新课标”的“阅读教学建议”第四条中扼要阐述了如何“逐步培养学生探究性和创造性阅读能力”的新课题,其目标主要是想通过多角度、有
期刊
【摘要】提高英语学科教学质量,除了平时要扎扎实实开展好各项教学工作之外,还要切实抓好各阶段的复习备考工作。我和本组教师采用“重基础、巧练习、育能力”的日常教学复习策略;“攻击式” 期中快速复习策略;“扫荡式”、“攻击式”、“演练式” 并用的期末复习策略;依纲务本夯基础、精讲多练求实效、实战模拟促提高的中考复习策略,使我校的英语成绩在全县中考中名列前茅,使我所执教班级的英语成绩在全县英语教师中名列前
期刊
【摘要】初中生怕写作文,厌写作文,认为作文无材料可写成了初中语文教学一大症结,笔者以为以日记教学为突破口,重视学生日记写作的指导、批改、讲评,激发学生写日记兴趣,通过多写日记,可以达到积累素材、练习写作技巧、提高思想认识,从而爱好写作与提高写作水平的目的。  【关键词】日记 指导 作文教学  【中图分类号】G633.3 【文献标识码】A 【文章编号】2095-3089(2014)09-0091-0
期刊
【摘要】由2014年高考山东省英语试题改革不难看出考试更加注重基础。根据完形填空题型的命题依据:格式塔心理学以及对完形填空题型的认识与理解,对学生处理完形填空题型时所出现的症状做了了解、分析,寻找到适用于学生的方法,指明方向,与学生共同成长,共同进步。  【关键词】高考改革 完形填空 格式塔心理学 五不要 五有心人  【中图分类号】G633.41 【文献标识码】A 【文章编号】2095-3089(
期刊
随着互联网进一步蓬勃发展,社交网络、电子商务、网上银行等网站上每天都流通着亿级的企业和用户信息,网站本身存在的漏洞会导致敏感信息的泄露,因此网络漏洞扫描至关重要。
  通过对漏洞扫描技术进行调查分析,针对其中的爬取网页部分的URL去重和漏洞扫描部分展开优化,一方面本文通过采用FarmHash算法压缩结合布隆过滤器的方式进行URL去重,减小了时间和空间复杂度,提高了爬虫爬取的速度和漏洞扫描器的扫描速度。另一方面本文使用动态链接库和插件技术设计实现了漏洞扫描库,内置八十多个漏洞扫描插件,并支持用户自定义
点击率预估是推荐系统、搜索等应用场景中的核心问题,也是互联网广告投放效果的重要指标。现代互联网广告主要分为搜索广告和展示广告,其中搜索广告是规模最大的广告形式。以搜索场景为例,用户搜索关键词寻找目标,广告平台通过获取具有商业价值的关键词,结合点击率预估结果展现用户最可能点击的广告。因此良好点击率预估模型既可以带来好的用户体验,也能让广告平台达到收益最大化。
  通过研究近年来基于深度学习的点击率预估模型,发现现今存在的很多点击率预估模型在挖掘特征之间的交叉关系上存在不足,对特征重用度不高。基于此,结
随着互联网的快速发展,数据分析系统需要处理的图规模呈爆炸式增长,使得系统的计算能力和存储能力面临严峻挑战。高效低误差的抽样技术能有效缩减待处理数据集的规模,同时保留原有数据集的主要特征,可用于可视化、查询、分析和社交网络影响力估测等,因而成为解决该挑战的重要途径。面向图的抽样技术分为两类:一类是通过产生边集样本来估测图特征的抽样技术,称为面向图边集的抽样技术;另一类是通过产生顶点集样本估测图特征的抽样技术,称为面向图顶点集的抽样技术。然而,现有的图抽样技术估测目标单一,且存在估测误差和开销大的问题,不能满
随着大数据技术的发展,存储系统对大容量、低功耗、快速内存的需求更加迫切。新型非易失存储器(Non-Volatile Memory,NVM)具有大容量、低静态功耗和读速度快的优势,未来有望取代传统的DRAM技术,用作计算机系统的内存。以相变存储器(Phase Change Memory,PCM)为代表的NVM每个单元的位翻转次数有限,并且每次位翻转能耗高,导致NVM面临寿命有限、写能耗高的缺陷。如何减少NVM的位翻转次数,提升NVM的寿命、降低写能耗是NVM内存技术研究中的重点。本文通过高效的数据编码方法来
【中图分类号】G71 【文献标识码】A 【文章编号】2095-3089(2014)09-0140-02  2014年3月6日下午,“未来课堂与创新人才培养模式实践研究项目“启动大会在清华附中召开,会上指出:传统课堂对于解决每个学生的兴趣爱好和特长及学习上的差异。课堂是教学的主阵地,未来课堂的设计事关未来的教学模式和教学环境。“未来课堂”通过中学与大学企业合作的方式,采取“模型建构——试点应用——应
期刊
数据中心为大量的应用提供基础设施服务,如网页搜索和在线推荐系统等,数据中心内部网络作为所有应用数据传输的共同载体,需要提供高带宽、低延迟等服务质量(Quality of Service,QoS)保障。由于应用对云服务性能要求的日趋严格,数据中心网络的服务质量保障面临巨大挑战。此外,数据中心服务器计算能力、存储设备数据存取能力的快速增长,也促使数据中心网络成为数据处理的性能瓶颈。因此,面对日益增长的应用需求和不断更新的软硬件设施,研究高效的数据中心网络流量管理技术,来有效保障数据中心应用的服务质量具有重要意