论文部分内容阅读
在信息时代人们需要对大量的数据进行处理,去寻找其规律并对其进行运用。分类是数据处理时经常要做的工作,因此分类问题成为机器学习域的一个重要研究内容。支持向量机方法通过核函数将训练集映射到一个高维空间,它可以实现有限样本在线性和非线性情况下分类。研究表明,支持向量机对平衡数据有较好的分类效果,但对不平衡数据分类效果较差,这是因为支持向量机的分类超平面由支持向量决定,多数类样本的支持向量个数也比少数类样本多,这种情况会造成分类超平面偏移,降低少数类样本的识别率,当样本严重失衡时甚至找不到少数类样本对应的分类规则。本文的主要研究目标是如何使用支持向量机方法对不平衡数据进行分类,主要工作与创新点包括以下几个方面:一、对支持向量机理论进行研究。分析经验风险最小化的局限性,介绍结构风险最小化原则及其优越性,详细总结支持向量机理论和研究现状。二、对不平衡数据分类方法进行研究。分析不平衡数据分类面临的问题,重点对各种不平衡数据分类方法进行归类和总结,且对各种方法的优缺点进行分析。三、给出一种基于聚类的数据集划分支持向量机方法DISVM。其主要思想是将多数类样本划分为一系列子集,将每个划分子集和少数类样本进行组合并用SVM方法分别进行训练,最后对各子分类器集成。该方法主要针对以往算法在进行数据集划分时没有考虑子集的划分规则的缺点进行改进,并通过实验证明了本方法对不平衡数据分类问题的有效性。四、给出了一种基于压缩凸包的不平衡数据支持向量机分类方法GSVM。分析了支持向量机的几何特性,先将两类样本向其重心方向压缩,再求两类样本压缩凸包的最近点对,并通过支持向量机方法生成分类超平面。实验证明,该方法有很好的分类性能。五、特征不平衡也是不平衡数据分类的一个重要方面,本文主要结合Golub等公布的急性白血病基因表达谱数据解决其特征不平衡问题。以往的方法仅考虑单个基因对疾病类别判断的影响,本文则主要考虑两个基因的相关性,并以此为度量来筛选候选基因,且通过实验验证了方法的有效性。