论文部分内容阅读
在并行文件系统中,可能会出现各种各样的性能异常的问题。而其中最受关注和难以诊断的问题是集群中的节点没有宕机,仍能够对外提供服务,但是性能表现却极差,进而对整个系统的性能产生了影响。针对高性能集群计算环境中,并行文件系统的I/O节点没有宕机而性能下降此类难以诊断的问题,提出了一种黑盒诊断的方法。通过观察基于条带的并行文件系统的I/O服务器行为特征,发现在节点硬件配置基本一致的情况下,无异常的节点的行为具有一致性,而异常节点在某些度量信息上会表现出明显的差异。通过该行为特征,提出了对等比较I/O服务器行为的诊断方法,使用相对熵对等比较各个节点的度量信息来定位异常节点。通过对异常节点上受到影响的性能度量信息进行进一步的分析,能够找出导致该性能异常问题的根本原因。该方法通过收集和分析并行文件系统I/O服务器集群中每个节点系统级的、黑盒性能度量信息,使用对等比较的方法,比较不同服务器上对应度量信息的统计属性,找出发生异常的服务器。避免了代码级的修改,对应用透明,能用于大部分的基于条带的并行文件系统,且性能开销较小。在并行文件系统Cappella和Lustre中,通过在系统运行时,使用文件测试基准工具注入各类异常,使用该方案进行诊断,证明了该方案的有效性。