非均衡数据几何复杂度及其应用研究

来源 :广东工业大学 | 被引量 : 2次 | 上传用户:tao1624
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类学习是模式识别、机器学习与数据挖掘的核心问题,它广泛存在于诸多应用领域。近几十年来一直受到研究者及工程应用人员的普遍关注,各类基础算法及改进算法层出不穷(包括数据预处理算法、分类学习算法等),尤其是上世纪九十年代统计学习理论的问世标志着人们在算法领域的研究已经比较充分。于是一个重要而亟待解决的问题逐渐浮出水面,即在实际应用中,面对如此众多的算法应如何依据手头的数据进行选择,从而避免盲目地多次试错。对于非均衡数据的分类,算法的选择尤其困难。本文围绕分类问题中分类复杂度、数据特性衡量等问题展开研究。在深入讨论TKHo等人提出的数据几何复杂度理论的基础上,对基于试错方法的分类学习框架进行改进,提出基于数据几何复杂度的启发式分类学习框架,并将其推广至非均衡数据。主要研究内容及研究成果如下:首先,分析和总结了国内外近年来对分类复杂度、数据特性衡量、非均衡分类数据平衡方法等问题的研究现状。讨论了分类学习领域算法繁多,但选择算法的指导原则匮乏的尴尬局面(详见第一章)。然后,提出一种基于数据复杂度的启发式分类学习框架。该学习框架的基本思想为:将对分类学习各环节(尤其是数据预处理、分类器选择等问题)富有指导作用意义的数据几何复杂度引入到传统分类学习框架中。从而从根本上摆脱了传统学习框架缺乏指导原则而利用代价繁重的试错方法的困境(详见第二章)。其次,为将新学习框架推广至非均衡数据,通过严格的统计实验,探索数据几何复杂度在非均衡数据集上的适应性。实验表明数据几何复杂度受IR(Imbalance Ratio)影响严重,不宜在非均衡数据上直接使用(详见第三章)。再次,分析研究造成数据几何复杂度受IR影响的原因(见4.2节),然后对数据几何复杂度中部分指标的缺陷进行了弥补,提出了非均衡数据几何复杂度,使其能适应非均衡数据(见4.3节)。并分别在人工数据、真实数据上进行了检验,实验表明改进后的指标对非均衡数据具有良好的适应性(详见第四章)。最后,将上述非均衡数据几何复杂度(其中的L2)应用于非均衡分类中的数据平衡问题,即上、下采样问题。以实验方式得出一些对选择采样方案及采样比例富有指导性意义的规律(详见第五章)。
其他文献
天然气的管道输送作为最普遍的天然气运输方式在我国国民经济的发展中起到了越来越重要的作用。天然气输送管道发生泄漏会造成极大的危害,经济损失十分严重。目前已应用的管
泡沫浮选广泛应用于矿物分离。精矿品位是泡沫浮选过程的重要质量指标,然而目前多数浮选工厂都是通过离线化验得到精矿品位,离线化验需要较长时间,导致调节滞后。为此,本文研
由于计算机技术水平的提高,构建的测控系统规模逐渐庞大,需要采用通用化方法对系统进行设计,并采用恰当的方法对系统中各模块进行管理,使得系统性能一直保持较高水平。现有的测控
磁悬浮小球控制系统是一个复杂的非线性、开环不稳定的系统,它是学习和研究控制理论的重要平台之一。对磁悬浮小球控制系统的研究涉及到控制理论、电磁学、计算机科学等众多
闭环辨识中,获得系统有效特征信息要比没有反馈机制的系统少,而且系统输入与输出的噪声总是相关的,这使得传统的辨识方法很难解决反馈回路中的对象辨识问题。本文提出了一种适应
个性化推荐技术的广泛利用大大提高了用户与网站的交互能力,不但使得网站能够精准的推荐给用户有效的信息,还能够使用户在更短的时间内发现对自己有价值的信息,引起了商业界
随着网络技术的快速发展,人们对网络技术的研究和探索也逐渐深入,发展出各种新型网络技术,以满足不断增长的需求。向量网(VectorNetwork,VN)就是在这种背景下出现的新型网络
风能是一种可再生、无污染的新型清洁能源,其储量丰富,且分布广泛。风力发电能够在短时间内实现规模化和商业化,具有巨大的发展潜力。但是由于风电的随机性、间歇性和波动性增加了电网调度的难度,对输出功率及时有效地预测能够减少电力系统的运行成本和旋转备用,从而减轻对电网的影响,提高风电利用率。尤其兆瓦级风力发电系统的输出功率预测研究具有更为重要的现实意义。本文以1.5MW兆瓦级风力发电系统为研究对象,在对国
船舶电站的控制是船舶电力系统控制的基础,在船舶电力系统控制方面,由于船舶柴油发电机组的控制特性决定了船舶电力系统的静态与动态特性,因此船舶柴油发电机组的控制就成为
随着城市化进程加快,各大城市纷纷兴起城市轨道交通建设热潮,目前我国北京、上海、广州以及深圳等超大城市已经形成了轨道交通网络。作为城市交通系统的重要组成部分,城市轨