论文部分内容阅读
分类是机器学习和数据挖掘领域的重要方法之一。现有的分类性能评估方法如误分率、召回率等通常将实例整体作为统计量,以评价分类器的整体性能。但在最终的评估结果中,忽视了每个实例本身的特性。本文中的“实例”指的是数据集中的一个样本数据。实际上,有些应用场景更看重分类器对一个待分类事件的分类能力,而不是针对大量已发生事件的统计度量。因此,有必要从单个事件(实例)的角度出发来评估分类器的性能。本文从实例分类难度的角度出发构建面向实例的分类器评价方法和理论,旨在形成“好”分类器(可信任分类器)的评价标准,并以新的模型评估思想为导向研究可信任分类器的构建理论与方法。具体内容如下:1.面向实例的分类性能度量方法性能评估在分类领域中具有重要意义。现有评估方法都是从分类器角度出发的具有某种统计意义的度量,忽略了每个实例本身的特性。本文从“用实例数据来评价分类器”的角度提出一个“好”分类器的标准。首先,从统计学角度提出一个实例本身的固有属性,即实例分类难度。然后,基于实例分类难度提出了一种面向实例的分类性能评价指标,称为可信度(Degree of Credibility,Cr)。它是各个实例对分类器信任程度在平均意义上的度量。Cr符合自然认知规律,即简单实例的误分概率越低,分类器的可信度就越高。此外,基于Cr提出了可接受分类器的概念,用于判断所训练模型及其参数集在当前分类技术条件下是否处于领先水平。实验表明,Cr能有效度量分类器的可信程度,是传统分类器评价体系的良好补充,而可接受分类器也有利于模型选择和训练。2.基于实例分类难度的渐进式学习模型在分类领域中,大多数分类器更加关注于正确分类相对较“难”的实例以获得更高的准确率。然而,这些“难”实例很可能是难以学习的异常值或噪声。过分关注这类实例会使分类器感到“困惑”,从而出现过拟合问题。由此可见,实例的难度信息对提高分类器泛化性能和可信度至关重要。然而,现有分类器几乎忽略了这一重要信息。为此,在集成学习框架下研究了实例分类难度对基分类器的影响,形成了一个由易而难的学习过程,从而得到一种新的基于实例分类难度的渐进式学习算法(Boosting with Instance Difficulty Invariance,BIDI)。该算法符合自然认知规律,即在分类难度较小的实例上的误分率应低于在分类难度较大的实例上的误分率。实验表明,BIDI算法在疾病诊断和信用卡欺诈检测等分类任务中具有出色的泛化性能和可信度。3.基于实例分类难度的可信任分类模型通常,传统的分类算法都平等地对待不同实例。例如,大多数决策树算法都假设数据集中所有实例具有相同的置信度,因此对所有训练实例采用相同的生成和剪枝策略。然而,同一数据集中置信度较高的实例通常比置信度较低的实例更有用。而支持向量机(Support Vector Machine,SVM)算法也包含隐含假设,即不同类型的错误所产生的代价相同。但是,一些实际应用如癌症诊断等通常具有“实例误分代价不相同”的特性。因此,在训练决策树和SVM分类模型时应根据实例本身的特性区别对待不同实例。本文基于实例分类难度的特性,分别研究实例置信度对分类回归树(Classification and Regression Tree,CART)以及实例误分代价对SVM算法分类性能的影响和意义,并分别提出了CCART算法和OCS-SVM(Objective-Cost-Sensitive SVM)算法。实验表明,CCART和OCS-SVM算法均有效避免了过拟合,并显著提高了泛化精度和可信度。4.实例分类难度的近似计算规则实例分类难度与现阶段的分类技术发展水平相关。由于实例的难度值不是显式的,而是蕴藏于数据分布之中,所以实例分类难度的计算代价较大。为增强实用性,有必要降低实例分类难度的计算开销。而计算实例近似难度的方法不唯一,需要根据具体的数据分布来确定相应的解决方案。由此引出一个新的研究方向——计算实例分类的近似难度。本文提出了两种低成本的实例近似难度计算规则,以代替实例分类难度。实验表明,这两种近似难度计算方法能够在一定程度上表达实例分类难度的信息,同时大大提高难度值的计算效率。