基于支持向量机的不平衡数据分类研究及应用

来源 :重庆理工大学 | 被引量 : 12次 | 上传用户:element_li
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息时代人们需要对大量的数据进行处理,去寻找其规律并对其进行运用。分类是数据处理时经常要做的工作,因此分类问题成为机器学习域的一个重要研究内容。支持向量机方法通过核函数将训练集映射到一个高维空间,它可以实现有限样本在线性和非线性情况下分类。研究表明,支持向量机对平衡数据有较好的分类效果,但对不平衡数据分类效果较差,这是因为支持向量机的分类超平面由支持向量决定,多数类样本的支持向量个数也比少数类样本多,这种情况会造成分类超平面偏移,降低少数类样本的识别率,当样本严重失衡时甚至找不到少数类样本对应的分类规则。本文的主要研究目标是如何使用支持向量机方法对不平衡数据进行分类,主要工作与创新点包括以下几个方面:一、对支持向量机理论进行研究。分析经验风险最小化的局限性,介绍结构风险最小化原则及其优越性,详细总结支持向量机理论和研究现状。二、对不平衡数据分类方法进行研究。分析不平衡数据分类面临的问题,重点对各种不平衡数据分类方法进行归类和总结,且对各种方法的优缺点进行分析。三、给出一种基于聚类的数据集划分支持向量机方法DISVM。其主要思想是将多数类样本划分为一系列子集,将每个划分子集和少数类样本进行组合并用SVM方法分别进行训练,最后对各子分类器集成。该方法主要针对以往算法在进行数据集划分时没有考虑子集的划分规则的缺点进行改进,并通过实验证明了本方法对不平衡数据分类问题的有效性。四、给出了一种基于压缩凸包的不平衡数据支持向量机分类方法GSVM。分析了支持向量机的几何特性,先将两类样本向其重心方向压缩,再求两类样本压缩凸包的最近点对,并通过支持向量机方法生成分类超平面。实验证明,该方法有很好的分类性能。五、特征不平衡也是不平衡数据分类的一个重要方面,本文主要结合Golub等公布的急性白血病基因表达谱数据解决其特征不平衡问题。以往的方法仅考虑单个基因对疾病类别判断的影响,本文则主要考虑两个基因的相关性,并以此为度量来筛选候选基因,且通过实验验证了方法的有效性。
其他文献
The countries of the world also develop the documents using many kinds of scripts in differentlanguages. Most countries use standard fonts for recognizing the t
随着社会的发展,计算机技术越来越深入人们生活,使得人们对计算机应用软件的需要在提高,对于软件的质量的要求也逐渐增长。但是应用软件的开发效率却没有跟上这一步伐。这一方面
随着商业竞争的加剧,商业智能系统开始在各种商业领域中扮演越来越重要的角色。商业智能是基于数据仓库、ETL、OLAP、数据挖掘和前端数据展现等技术发展起来的技术,其实质是从
随着互联网的不断普及,人们的通信方式也发生了巨大的改变。即时通信,作为一种现代化的通信方式迅速得到了普及,成为了人们在工作和生活中进行交流的一种主要方式。然而,它给人们
近年来,随着进入信息时代,各种数据海量积累起来,远远超出了人力的处理范围,数据迅速膨胀,导致经常出现“数据富有但是知识贫乏”的现象。在这种情况下,数据挖掘技术诞生了,
由于无线传感器网络中节点能力的有限性和网络环境的开放性,实际应用中存在着许多安全问题。数字水印技术作为信息隐藏技术的一个重要分支,可以有效的保证信息的完整性与真实
随着科技与社会的进步,工作流技术在现代企业的管理中发挥了越来越大的作用,企业之间的合作日趋频繁,规模越来越大,这些企业在地理上广域分布且拥有各自独立业务系统,相互之间缺乏
现如今互联网快速的发展,数据与信息迅速的增加,各领域的资源可能无法满足自身需求。为了达到资源的共享,不同安全域之间会采用互操作的方法,从而获取对方领域的权限与资源。虽然
近年来,无线网络通信技术得到了快速的发展,便携式、微型化计算设备迅速普及,基于无线网络的应用和服务在互联网服务中所占的比例逐年增大。越来越多的移动通信用户开始使用具有
随着互联网技术的迅速发展,网格技术也逐渐发展壮大,它是一种针对复杂科学计算领域的分布式计算方法,它仍处在不断发展和变化之中。网格能够集成或共享地理上分布的各种资源,使之