论文部分内容阅读
现今,分类技术作为数据挖掘领域中一项重要技术,不仅应用在机器学习、模式识别等科学研究中,也广泛应用在实际生活中的各个方面。一个分类器可以被付诸应用的前提是此分类器性能的良好程度是可以被接受的,因此如何更好地评价和选择分类器成为模式识别领域一个至关重要的问题。
首先,本文介绍了分类器的概念,并分析了分类器评价方法的研究现状。虽然目前已经提出很多分类器评价指标,这些指标可以从不同方面对分类器性能进行评价,但没有一种评价指标可以从各方面综合评价一个分类器的性能。另一方面,大部分评价指标是直接定义在二类的问题上的,然而多类问题上的分类器性能评价要复杂于二类问题,这尤其体现在评价一个分类器将各类样本区分开的能力时。本文致力于面向多类问题的分类器评价指标的研究,综合分析现有的分类器评价指标的优缺点,提出更加综合和精确的分类器评价指标。
其次,本文介绍了概率混淆熵评价指标提出的理论基础,提出了概率混淆矩阵的概念以及三种概率混淆熵评价方法的定义,即相对概率混淆熵(rpCEN),概率混淆熵(pCEN)和基于排序的概率混淆熵(spCEN)。三种概率混淆熵评价方法的计算分别基于不同的概率混淆矩阵。一个基本的概率混淆矩阵可以表示为[Pi,j],其中元素Pi,j表示真实类别为i类的样本被分到j类的平均概率。概率混淆熵评价方法是直接定义在多类问题上的评价指标,相比于定义在二类问题上的评价指标,概率混淆熵评价指标更多地利用了分类中的错误分类信息,不仅利用了真实类别为i的样本是如何被错误地分到其他各个类别中的信息,而且利用了其它各个类别中的样本是如何被错误地分到第i类的信息。另一方面,三种概率混淆熵评价方法将样本分为不同类的概率信息加入到分类器性能评价中,使其可以更精确更全面地评价分类器性能。
最后,本文设计了两个实验,实验一用于验证概率混淆熵评价方法的可行性,实验二将本文所提出的三种新指标分别与基于差错的评价指标,基于概率的评价指标及AUC变体指标进行性能比较,并对三种新指标进行性能比较。实验结果显示三种新指标在分类器性能评价时具有其优越性,并且在一般情况下,三种新指标中pCEN性能为最佳,rpCEN性能为次佳,spCEN最差。