论文部分内容阅读
目的:本研究是基于随机森林和支持向量机算法处理乳腺癌的基因表达数据,筛选出三阴性乳腺癌和非三阴性乳腺癌的差异表达基因,为临床诊断和新药的研发提供更多的参考靶点。方法:1.数据来源于TCGA乳腺癌的基因表达数据,共989人,每个乳腺癌患者测得60483个基因。2.采用t检验和随机森林两种方法对数据先进行降维处理,然后采用支持向量机、支持向量机递归特征消除法、随机森林三种基因重要性排序方法对两种降维处理后的基因重要性进行排序,排序后的基因分别采用随机森林和支持向量机两种分类器进行变量选择,采用向前变量选择法按变量重要性逐步纳入变量,采用交叉验证,选择对三阴性乳腺癌预测最准确的特征集作为最终筛选出变量的特征子集。3.本研究采用R3.5.1软件进行的数据处理和分析,采用的软件包有randomForest、e1071及sigFeature的主要程序包和caret等基础软件包。结果:1.经过t检验的FDR降维处理后剩余18702个基因。经随机森林,ntree取值为100000,降维处理后剩余6326个基因。2.使用随机森林排序,并继续使用随机森林建模,入选变量个数为8个时,模型各评价指标均达到最优。3.使用随机森林排序,然后使用支持向量机建模,当入选1个变量时,约登指数和召回率达到了最大值,说明ESR1这个基因对三阴性乳腺癌影响很大。经t检验的FDR降维后的模型入选变量为8个时模型整体评价效果最优;经随机森林降维后的模型入选变量为5个时模型整体评价效果最优。4.分别经t检验的FDR和随机森林降维后采用随机森林进行重要性排序的两个模型中前8个基因有6个是相同的,剩余两个不同基因都位于两个模型前列。5.基于支持向量机递归特征消除法进行的基因重要性排序模型,评价指标约登指数最高为0.8271;基于支持向量机w~2进行的基因重要性排序模型,评价指标约登指数最高为0.8392,效果均不及基于随机森林基尼指数下降的基因排序结果。6.经随机森林降维结果各评价指标不及经t检验的FDR降维结果;而预测模型支持向量机的召回率要远远强于随机森林,而随机森林的精确率要强于支持向量机,但整体上用支持向量机分类要强于随机森林。结论:1.基于本研究t检验的FDR降维模型各评价指标优于随机森林降维。2.基于随机森林重要性评分进行的基因重要性排序结果较支持向量机、支持向量机特征递归消除法基因重要性排序结果稳定且预测准确率高。3.用于基因表达数据二分类预测模型时,支持向量机各评价指标优于随机森林。4.针对高维基因表达数据进行变量选择时,我们的研究结果建议使用t检验的FDR降维,用随机森林对变量的重要性进行排序,最后使用支持向量机建立预测模型。本研究按此方法分析,所选基因的文献检索结果显示:大多数与癌症的诊断、转移或者预后不良相关。