论文部分内容阅读
分类学习是模式识别、机器学习与数据挖掘的基础问题。随着分类学习理论及应用在深度及广度上的不断探索,新的问题与挑战亦层出不穷,其中有一个问题比较突出:对于实际的任务,在分类学习各环节中有如此多的方法和算法可供选择,应该如何衡量问题的难度和数据特性,然后依据这些信息在分类学习的各环节中选择适合的方法或方案,从而可以避免不必要的过多试探。在此背景下,数据复杂度概念应运而生。但在实际应用中,新的数据往往会不断产生,而现有的数据复杂度算法都是基于批量学习思想的,面对数据规模的动态增加,它又该如何衡量数据的特性信息成为数据挖掘领域亟待解决的问题。本文围绕此问题,在深入讨论TK Ho等人提出的数据复杂度的基础上,进一步研究其增量学习功能。从增量学习的角度出发,这12个衡量指标可划分为三类进行研究,即:基于充分统计量的、基于经典分类器算法的以及二者都不属于的第三类复杂度指标。本文的研究重点就是从这三类复杂度指标出发,讨论并改进相关算法使其具有增量学习的功能。主要研究内容及研究成果如下:首先,分析和总结了国内外现阶段对数据分类、数据复杂度、增量学习方法等问题的研究现状。讨论了分类学习领域算法较多,但是选择算法的指导思想较少的尴尬局面(详见第一章)。然后,深入讨论数据几何复杂度指标和增量学习方法。将数据复杂度从增量学习角度划分归类,再结合增量学习的研究思想讨论这些指标是否都有增量学习的能力。如果有,是否可以实现,怎样实现;如果没有,又是为什么(详见第二章)。其次,为了检验新学习算法或者评估新指标的有效性,需要在人工数据和真实数据上分别进行实验验证。人工数据在生成前其分布、边界、可分性都是事先设计好的,以使实验具有很好的可控性,而在真实数据上得到的结果更具有可信度。所以本文采用两种数据相结合的方式进行实验,可以更合理地去评估我们的新算法(详见第三章)。再次,通过对数据复杂度12个指标的研究,可以发现Fl、F2、T2以及N2是基于充分统计量的学习算法。它们是关于数据集的求和、求均值和方差等运算,关于这些运算的增量学习方法实际已经存在。但是他们是否可以应用在数据复杂度方面,就需要对其进行归纳总结,本文在人工数据上检验了其可行性(见第四章)。最后,根据对数据复杂度指标的进一步研究分析,N3、N4和L2、L3分别是基于KNN分类器(K=1)和线性分类器算法的复杂度指标。那么本文在1-NN分类器的基础上提出了其增量学习算法I1NN,同时在人工数据集和UCI公共数据集上验证了其可行性和有效性(见5.2节)。针对线性分类器研究分析了一种快速SVM增量学习算法(见5.3节)。在UCI公共数据集上进行了实验,对比实验结果,验证了该算法增量学习功能的有效性,从而实现了复杂度指标L2、L3的增量学习功能(详见第五章)。