论文部分内容阅读
目的:随机生存森林(Random Survival Forest,RSF)是在随机森林的基础上加入生存分析的一种机器学习方法,本研究应用随机生存森林方法分析乳腺癌病人淋巴结转移的基因表达高维数据,评价随机生存森林方法对癌症高维生存数据的分析效果。方法:1.数据来源于荷兰癌症研究所Van’t Veer等人[1]对乳腺癌病人进行DNA微阵列分析的公开数据库。选取其中78例入选时未发生淋巴结转移的乳腺癌患者的4751个基因位点的高维生存数据。2.本研究所用RSF、Cox回归以及ROC分析,均采用R 3.4.3软件进行,分别由randomForestSRC、survival、survivalROC程序包实现。3.将数据随机分割成训练集(2/3)和验证集(1/3)两部分。模拟迭代不同ntree取值的RSF模型,选取最优参数。按最优参数构建RSF模型,评价每个变量的重要性。根据变量重要性评分从大到小排序,进行向前变量选择法,再次运用RSF算法,筛选出4751个位点中最具有影响作用的位点变量。对筛选后的变量集采用传统Cox回归模型进行分析。最后采用交叉验证的方法,绘制ROC曲线并计算曲线下平均面积AUC,评价Cox回归模型的效果。结果:1.随机生存森林模型ntree的最优参数为10000。2.随机生存森林筛选出了25个对乳腺癌转移最具影响力的基因位点。3.对25个位点进行Cox回归分析,最终筛选出9个位点具有统计学意义。保护性位点有:NM015955、NM003748、Contig43983RC、AB020713;危险性位点为:NM000436、NM001204、Contig55574RC、NM018964、Contig37562RC。4.随着观察时间的推移,AUC有所降低,但经交叉验证,AUC均在0.85以上,模型较为可靠。结论:1.随着随机生存森林生存树棵数的增多,错误率降低并趋于稳定,构建随机生存森林模型应该多次调整ntree,找到最优参数。2.随机生存森林对乳腺癌病人淋巴结转移的基因表达高维数据筛选的变量的预测准确度较高,验证集错误率低于训练集,表现出良好的泛化能力。3.随机生存森林模型结合Cox回归的分析方法能够有效的处理高维生存数据,随机生存森林模型筛选出适用于传统Cox回归分析的重要变量集,将重要变量结合Cox回归模型进一步分析,可以识别有意义的变量,并明确变量对终点事件有利或有害的具体关系。