论文部分内容阅读
生存分析作为一种以缺失数据为研究对象的统计方法,近年来其应用范围由最开始的生物医学领域,扩展到了工业、商业、社会科学等很多领域,在这些领域中都存在对某给定事件发生的时间进行估计和预测的问题。本文在对现有生存分析模型研究的基础上,提出了高维删失数据环境下生存分析模型的研究方法,主要工作及创新点如下:1、拓展了传统Cox比例风险模型的应用范围。传统的Cox比例风险模型应用范围通常被局限在一定的低维数据空间,当其应用于高维数据空间时会影响其适用性和准确性。针对这一问题,本文利用最小绝对值压缩与选择方法(The Least Absolute Shrinkage and Select Operator, LASSO)的变量选择能力和坐标下降算法(Coordinate Descent, CD)的非线性运算能力提出了一种高维删失数据环境下的Cox比例风险模型变量选择方法;2、对LASSO方法、CD算法和Cox比例风险模型均进行了较为深入的研究。在此基础上,对传统的Cox比例风险模型进行优化处理使之适用于LASSO方法。对优化后的模型采用CD算法进行变量选择,最后通过使用AIC和BIC截断准则选择出了最优的模型变量子集;3、采用Matlab实验平台结合蒙特卡洛模拟方法产生适用于生存分析的逐阶Ⅱ类随机高维删失数据,研究了不同样本数目、不同删失比例情况下Cox比例风险模型变量选择方法运行情况,证明了本文理论研究的有效性。之后使用该方法对实际的PBC数据集进行处理,表明了其具有比较好的应用前景。