论文部分内容阅读
癌症是影响人类健康的主要疾病之一。DNA基因芯片的出现为人类疾病的诊断和防治开辟了全新的途径,基于DNA基因芯片技术的癌症研究己成为生物信息学研究的热点之一。目前基因芯片数据的特征选择主要有filter和wrapper两大类方法,filter方法完全独立于分类器,不能改善所提取基因的分类性能,而且过滤原则未必与类别信息相关,wrapper方法结果依赖于分类器,能获得较高的分类精度,但高分类精度并不能保证结果与疾病有较强的相关性,而基因芯片数据的高维、高噪声的特点更加增加了过拟合的风险。针对这些问题,文中采取将过滤法和缠绕法相结合的策略,首先采用奇异值分解从高维特征中按照与肿瘤类别信息的相关性而非分类精度粗选出部分备选基因,再用基于相对重要性的类随机森林缠绕法精选出目标特征子集,以克服了单一使用缠绕法选择特征时对分类算法的依赖性,避免了过拟合现象的产生,一方面保持了较高分类率,另一方面又保证了选择的基因标志物和肿瘤类别具有较高的相关性。方法上,1)本文引入样本散点图和科尔莫诺夫-斯米尔诺夫检验构成有监督奇异值分解方法,以辨识出含有样本类别信息的特征向量,克服了传统方法按照方差“贡献率”来提取特征向量,从而避免包含重要生物信息的特征向量可能因贡献率低而被“丢弃”。2)本文提出了基于相对重要性的类随机森林决策方法,按照相对重要性来选择关键基因,相对重要性不仅考虑了特征基因的分类精度,还考虑特征基因在整个树中的重要性。为了验证方法,本文对三个公共基因数据集进行分析,与其他经典方法,从分类性能、基因稳定度以及生物学意义等方面对本方法进行了考察和比较。实验结果表明,1)与经典方法相比,本文方法在不同的数据集上所选取的特征基因子集不仅具有较强的分类性能,而且对不同的分类算法有较好的适应性;2)总体上本文方法辨识的基因具有较高的稳定度,说明本文方法挑选的基因对数据扰动相对不敏感,更稳定;3)基因数据库查找和文献检索显示,本文所选取的大部分都具有重要的生物学意义,很多都和相关的癌症疾病有关,因此,本文方法能较好的选取出与疾病关联的关键基因。