面向不平衡数据的结构化支持向量机集成方法研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:badboyker
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据在实际应用中广泛存在,如何从不平衡数据中学习并获得分类器成为了当前机器学习研究领域的一个热点。该方面的研究已经取得了一定的成果,并在入侵检测、信用卡交易和基因编码信息发现等应用领域得到了广泛的应用。已有的针对均衡数据或代价不敏感的分类器评价准则对不平衡数据不再适合,因为不平衡数据的分类器更关注少数的分类精度。针对不平衡数据的分类问题,研究者侧重从数据层面、算法层面和评价准则等三个方面展开研究,取得了一定的进展。在已有的针对不平衡数据的分类学习方法中,支持向量机(SVM)的变种成了主流的方法之一,如:结构化不平衡支持向量机(StASVM),该模型是在不平衡支持向量机(ASVM)的基础上,引入数据类内结构先验信息,有效地提高了分类器的性能。本文以StASVM模型为基础,结合集成学习方法,提出了基于结构化支持向量机的集成学习,主要工作如下:1.提出了基于StASVM的集成算法(EStASVM)。对大类样本进行聚类并进行基于聚类的欠采样,进而构建多个子分类器,从而设计出子分类器的集成算法,其中欠采样可有效地降低类别的不平衡性。实验表明,集成方法能够有效地提高算法的稳定性和分类性能。2.提出了基于随机子空间、特征选择和StASVM的集成算法(RsStASVM)。该算法为从数据集的特征空间随机采样出发,生成多个新的样本特征空间,进而诱导出多个子分类器,从而设计出子分类器的集成算法。实验表明,该方法对不平衡数据的分类,尤其能有效改进高维数据的分类性能。3.设计了一种基于代价敏感及AdaBoost的集成算法(AdaStASVM)。为进一步改进EStASVM和RsStASVM未能充分利用样本固有隐含信息的不足,AdaStASVM算法先对大类样本进行聚类,依据聚类结果对样本进行初始加权,并采用Adaboost算法思想对样本的权进行动态调整,侧重增大小类的错分样本的权值。实验表明,该算法可进一步改进EStASVM和RsStASVM的分类性能。
其他文献
随着计算机和网络的快速发展,软件系统规模日益增大、使用环境日益复杂,使得软件系统表现出越来越复杂的特性。将软件系统建模为一种复杂网络,从数据挖掘的角度出发,发现软件
失衡样本,即不平衡的数据集,是指在一个数据集中不同类样本的数量相差悬殊。研究表明不平衡数据集严重影响了很多传统机器学习算法的分类性能,特别是少数类的分类性能可能很
随着计算机和网络技术的发展,E-learning学习环境得到普及,同时各种网络教学平台,如LMS也应运而生。资源搜索是LMS的功能之一,可以方便教学者和学习者从网络平台上寻找所需要
工作流就是一系列相互衔接、自动进行的业务活动或任务,是经营过程的一种计算机实现。它已经成为现代企业实现业务流程自动化管理,集成各种内部管理系统,优化企业经营管理过
目前,宽带无线接入(Broadband Wireless Access, BWA)网络已被证明在给个人和商业客户,尤其需要高速接入互联网的用户是一个可行的解决方案。全球微波互联接入简称(WiMAX)系统是
随着科学与技术的不断发展,数据的规模急剧增长,如何有效的利用这些数据来服务于日常生活与科研是各个领域专家一直努力研究的方向。1982年,波兰数学家Z.Pawlak于提出了粗糙
人脸识别技术是生物特征识别技术中应用最广的一项技术,也是计算机视觉和模式识别领域研究得最多的一个课题。由于其在不同领域的需求有所不同,产生了许多不同的人脸识别技术
随着计算机网络技术的发展,互联网逐渐呈现出一种高带宽、高延迟的特性。传统的TCP拥塞控制算法已经不能适应现有的网络,带宽利用率低下。因此,设计出一个适应高带宽延迟网络
在非结构化P2P网络中,节点由于受到内部能力差异、搭便车行为和高扰动(High Churn)特性的影响,负载度呈现出严重的失衡,对网络的健壮性和可用性形成了严重的影响,同时也造成
无论在虚拟的大型3D游戏、影视作品中,还是在海洋勘探等领域,大规模海洋仿真有着非常重要的应用。目前的海洋仿真研究中大多聚焦在海面建模层面,或者只实现某一个海洋光学表