并行文件系统性能异常的问题诊断方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:longfire6082
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在并行文件系统中,可能会出现各种各样的性能异常的问题。而其中最受关注和难以诊断的问题是集群中的节点没有宕机,仍能够对外提供服务,但是性能表现却极差,进而对整个系统的性能产生了影响。针对高性能集群计算环境中,并行文件系统的I/O节点没有宕机而性能下降此类难以诊断的问题,提出了一种黑盒诊断的方法。通过观察基于条带的并行文件系统的I/O服务器行为特征,发现在节点硬件配置基本一致的情况下,无异常的节点的行为具有一致性,而异常节点在某些度量信息上会表现出明显的差异。通过该行为特征,提出了对等比较I/O服务器行为的诊断方法,使用相对熵对等比较各个节点的度量信息来定位异常节点。通过对异常节点上受到影响的性能度量信息进行进一步的分析,能够找出导致该性能异常问题的根本原因。该方法通过收集和分析并行文件系统I/O服务器集群中每个节点系统级的、黑盒性能度量信息,使用对等比较的方法,比较不同服务器上对应度量信息的统计属性,找出发生异常的服务器。避免了代码级的修改,对应用透明,能用于大部分的基于条带的并行文件系统,且性能开销较小。在并行文件系统Cappella和Lustre中,通过在系统运行时,使用文件测试基准工具注入各类异常,使用该方案进行诊断,证明了该方案的有效性。
其他文献
随着硬件技术的发展,普通的智能手机已经能够进行复杂的图像处理任务,由此推动了移动可视定位技术的产生和发展。当前移动可视定位研究主要采用客户端-服务器模式,利用视觉特征
随着互联网的普及和电子商务的蓬勃发展,网上交易系统得到了越来越广泛的应用,在给企业带来了经济效益的同时,也给信息系统带来了大量的用户评论。这些海量评论不仅对于顾客
学位
随着云计算的兴起和大数据时代的来临,大规模集群存储系统在IT基础设施中的重要性日益突出,所面临挑战亦愈加严峻。其中,系统资源及能源使用效率低下问题亟待解决,它严重阻碍了I/
在国际社会中,对交通数据的短期预测研究一直很活跃。交通工程学者在这一领域过去的几十年的研究中,做出了大量的研究工作,并取得了一些显着的成果。在前人的基础上,本文主要
可达性测试是并发程序测试的一种重要方法,具有在给定输入下生成并执行所有可行同步序列且无需记录任何历史信息等诸多优势。并发程序在开发过程中会经历多次修改,产生多个程序
作为数字图像处理领域目前研究的热门问题之一,图像复原技术日益受到关注。从国内外的研究现状出发,分析和比较了目前常见的图像复原技术的优势与不足。针对这些优势和不足,对基
Java智能卡已经逐渐被广泛应用于银行、通信等安全性要求很高的领域中。但是受限于当前智能卡的硬件资源,特别是多应用智能卡的流行,卡片的存储资源越来越受到重视,Java卡虚拟机
我国是世界上自然灾害种类最多、灾害发生频率最高且灾害破坏最严重的少数国家之一。最近几年来,无论是自然灾害、各种事故灾害还是公共安全灾害,爆发的频率、规模都明显增加
多射频无线Mesh网络(MR-WMN)是一种新型宽带无线接入网络,它承载着宽带业务、实时业务、可靠业务等多种业务类型。组播是MR-WMN为这些业务提供的一种高效的点到多点通信服务,能