论文部分内容阅读
近年来,生物信息学、模式识别等不少领域中,出现了同时存在高维问题和不平衡问题的高维不平衡数据。高维问题是指由于数据集特征空间维数过高而存在着一些对分类效果产生负面影响的特征组合,导致分类效果不佳;不平衡问题是指在数据集里不同类别的样本在数量上分布不均匀,导致分类器对少数类关注不够,容易忽略它们蕴含的珍贵信息,从而影响分类效果。在高维不平衡数据中,高维问题和不平衡问题同时存在,互相影响,形成了新的问题。到目前为止,不少研究者单独针对高维问题和不平衡问题进行了研究,并提出了一系列成熟的算法。但是对同时展现出高维特性和不平衡特性的数据,绝大部分现有的方法都是先解决高维问题或不平衡问题,再解决另一个问题,并没有考虑到高维特性和不平衡特性相互影响而形成的新问题。本文首先对高维问题和不平衡问题分别进行了介绍,并分析了高维问题和不平衡问题相互影响形成的新问题,通过阐述这些问题逐步展开分析研究。然后介绍了支持向量机SVM,分析它在解决高维问题和不平衡问题中的优势,并对现有的一些解决高维问题和不平衡问题的算法进行总结,分析其优缺点。接着,改进SVM-RFE算法以便在考虑不平衡特性的情况下对高维数据进行特征选择,并基于SVM自动划分边界样本的特点改进SMOTE过采样算法以便在希尔伯特空间下进行边界过采样,同时对边界少数类样本的过采样倍率进行调节,提出了一种针对高维不平衡数据二分类的BRFE-PBKS-SVM算法。随后进行了一系列的实验,并且采用可以有效考察算法效果的多种指标来评价实验结果,证明了该算法的有效性。