论文部分内容阅读
接收机工作特性(Receiver Operating Characteristic,ROC)曲线以及曲线下面积(Area Under the ROC Curve,AUC)是评估二元决策模型必不可少的参考指标之一。它能反映命中率与虚警率之间的折中关系。类似地,对于三分类任务,学者提出三分类ROC分析,用接收机工作特性曲面以及曲面下体积(Volume Under the Surface,VUS)描述一个三元决策模型的性能。由于ROC分析具有对样本分布和分类错误成本不敏感的特性,现已被广泛用于医学决策,生物信号,信号处理,机器学习等领域。尽管ROC分析应用十分广泛,且具有一系列的优点,但在现实应用中却存在一系列的限制。首先,对于直接输出决策结果的离散型分类器,在进行ROC分析时只能得到ROC空间中的一个点,而不是一条曲线。这样实际上使得离散型分类器的ROC分析毫无意义。针对这一问题,本文介绍了对离散型分类器进行ROC分析的基本思路与方法。文章以K近邻分类器为例子,介绍离散型分类器的ROC分析方法。其次,ROC分析在实际的应用中更多的是以AUC及其方差作为评估分类器性能的指标。相对地,三分类任务则是计算VUS及其方差。传统的计算AUC和VUS的算法具有指数量级的算法复杂度。这样使得ROC分析在大数据任务中难以有效开展。本文针对这一问题,利用K近邻分类器的离散特性,提出使用Bootstrap方法从几何学的角度计算AUC、VUS以及它们的方差值。在保证算法精度的前提下,该算法的算法复杂度为常数量级。仿真结果表明,该算法执行效率明显优于传统无偏算法。ROC的应用大部分集中在评估分类器性能上。为了探索更多的ROC分析应用场景,文章以K近邻分类器参数选择以及故障诊断中的变点检测为例,尝试将ROC分析应用到这两个领域中。实验结果表明,ROC分析在以上两个应用场景中均有十分出色的表现。