论文部分内容阅读
基因芯片技术诞生以来,催生出了大量的基因表达微阵列数据,其中隐藏着非常有价值的生物学信息。分析这些数据,挖掘其中潜藏的生物学信息,为复杂疾病的诊断和治疗带来了新的可能性。样本个数少、维度高和类别不平衡是基因表达微阵列数据的主要特点,也是对现有数据挖掘技术构成的最大挑战。基于现有方法,本文致力于更高效的特征选择算法研究,同时尝试解决类别不平衡问题以及寻找更适合基因表达微阵列数据的分类算法。使用6个本领域最频繁被使用的数据集作为实验数据,使用分类准确率、马修相关系数和ROC曲线底部面积作为评价标准,结合分层的5折交叉验证策略对本文提出的方法进行实验验证。主要工作和结论如下:(1)提出了一种称为RVOS的数据采样方法来尝试解决基因表达微阵列数据的类别不平衡问题。实验结果表明,经过平衡后的数据集获得了相当或者更好的分类结果。由于平衡后的数据集各类样本分布更加均衡,因此分类结果更加可信。(2)改进递归特征消除方法,提出了一种称为VSSRFE的步长可变的递归特征消除策略。本文用SVM-VSSRFE和SVM-RFE分别作为特征选择器做特征选择。实验结果显示,SVM-VSSRFE的时间消耗获得了数百倍的减少;在3个数据上获得了更好的分类效果,同时在另外3个数据集上分类效果有一定程度的下降。(3)引入一种被称为LLSVM的大尺度线性支持向量机,更高效地实现特征选择。这是经典支持向量机的一种更高效的实现,专门用来处理类似于基因表达微阵列数据的高维线性分类问题。实验结果表明,在保证特征选择质量的前提下,LLSVM在5个数据集上所耗费的时间都远远少于经典的支持向量机,在部分数据集上甚至有超过10倍的缩减。(4)深入研究了不同分类方法对分类结果的影响。在6个数据集上的实验结果证明,支持向量机并不总是最好的选择,L2正则化的逻辑回归可以获得相当或更好的结果。