数据复杂度的增量学习方法研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:solonxpl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类学习是模式识别、机器学习与数据挖掘的基础问题。随着分类学习理论及应用在深度及广度上的不断探索,新的问题与挑战亦层出不穷,其中有一个问题比较突出:对于实际的任务,在分类学习各环节中有如此多的方法和算法可供选择,应该如何衡量问题的难度和数据特性,然后依据这些信息在分类学习的各环节中选择适合的方法或方案,从而可以避免不必要的过多试探。在此背景下,数据复杂度概念应运而生。但在实际应用中,新的数据往往会不断产生,而现有的数据复杂度算法都是基于批量学习思想的,面对数据规模的动态增加,它又该如何衡量数据的特性信息成为数据挖掘领域亟待解决的问题。本文围绕此问题,在深入讨论TK Ho等人提出的数据复杂度的基础上,进一步研究其增量学习功能。从增量学习的角度出发,这12个衡量指标可划分为三类进行研究,即:基于充分统计量的、基于经典分类器算法的以及二者都不属于的第三类复杂度指标。本文的研究重点就是从这三类复杂度指标出发,讨论并改进相关算法使其具有增量学习的功能。主要研究内容及研究成果如下:首先,分析和总结了国内外现阶段对数据分类、数据复杂度、增量学习方法等问题的研究现状。讨论了分类学习领域算法较多,但是选择算法的指导思想较少的尴尬局面(详见第一章)。然后,深入讨论数据几何复杂度指标和增量学习方法。将数据复杂度从增量学习角度划分归类,再结合增量学习的研究思想讨论这些指标是否都有增量学习的能力。如果有,是否可以实现,怎样实现;如果没有,又是为什么(详见第二章)。其次,为了检验新学习算法或者评估新指标的有效性,需要在人工数据和真实数据上分别进行实验验证。人工数据在生成前其分布、边界、可分性都是事先设计好的,以使实验具有很好的可控性,而在真实数据上得到的结果更具有可信度。所以本文采用两种数据相结合的方式进行实验,可以更合理地去评估我们的新算法(详见第三章)。再次,通过对数据复杂度12个指标的研究,可以发现Fl、F2、T2以及N2是基于充分统计量的学习算法。它们是关于数据集的求和、求均值和方差等运算,关于这些运算的增量学习方法实际已经存在。但是他们是否可以应用在数据复杂度方面,就需要对其进行归纳总结,本文在人工数据上检验了其可行性(见第四章)。最后,根据对数据复杂度指标的进一步研究分析,N3、N4和L2、L3分别是基于KNN分类器(K=1)和线性分类器算法的复杂度指标。那么本文在1-NN分类器的基础上提出了其增量学习算法I1NN,同时在人工数据集和UCI公共数据集上验证了其可行性和有效性(见5.2节)。针对线性分类器研究分析了一种快速SVM增量学习算法(见5.3节)。在UCI公共数据集上进行了实验,对比实验结果,验证了该算法增量学习功能的有效性,从而实现了复杂度指标L2、L3的增量学习功能(详见第五章)。
其他文献
本文是作者于攻读硕士学位期间在图像分割方面所做研究工作的总结。 图像分割是指把图像分成各具特性的区域并进一步从中提取出感兴趣目标的技术和过程。它是进行图像语义
随着生产和科学技术的快速发展,生产过程自动控制的要求不断提高,机械设备的更新与生产工艺的技术革新显得越来越重要。在现场获取的数据很难发现设备当前可能存在的不足,因此,需
星敏感器是一种高精度的姿态测量仪器,CCD(Charge Coupled Device)星敏感器利用CCD像机实拍到的星图,经过恒星检测、星图识别和姿态确定,计算出星敏感器瞄准线在惯性空间的瞬
地震剖面图像具有明显的纹理特征,不同的纹理区域代表着不同的地质体。在纹理方向或结构发生突变的地方意味着地质结构的突变。这些信息对于寻找石油或天然气是很重要的。因此
在许多物理系统中,时滞现象广泛存在,而时滞通常是系统不稳定、振荡和性能恶化的主要根源之一。另外,对于实际的控制系统,由于种种因素,普遍存在不确定性,很难对系统建立精确的模型
脉冲电源的应用领域很广,其主要的应用领域有:脉冲电镀、金属材料凝固过程、工业废气处理、污水处理、高频脉冲感应加热等。本论文研究的三电平脉冲电源主要是应用在电镀生产过程。脉冲电镀在国外已得到成功应用,在国内推广较慢,究其原因是因为难以买到高品质的脉冲电镀电源。因此,研究高品质的脉冲电镀电源具有重大现实意义。目前,国内外的许多电镀行业中所用的电源为普通脉冲电镀电源,这种电源在应用中存在如下问题:(1)
石油钻井是一种连续的作业过程,一旦发生故障将会带来严重的经济损失。钻井设备属于大型设备,有许多传动机构,易发生故障的部件主要是传动滚动轴承。本文针对油田钻井设备滚动轴
机器人足球比赛是近年来蓬勃发展的一项高科技竞赛,它融合交叉了多种高新技术,如机器人技术、传感器技术、智能控制、通讯与计算机技术、多智能体协作等。足球机器人小车系统
随着计算机技术、无线通信技术和移动计算技术的迅猛发展和广泛应用,计算机的形态、结构、及使用环境也随之发生了根本变化。但是,传统的人机交互方式已经越来越不能适应这些