论文部分内容阅读
本文主要研究了纵向数据分析中模型选择相关问题,涉及参数的稳健估计、协变量选择和工作相关矩阵选取。首先,横截面数据是纵向数据中工作相关矩阵为独立结构的特殊情形。针对横截面数据,为了同时实现稳健参数估计和提高协变量选择的表现效果,本文基于HBR权重提出一种新的加权LAD-LASSO变量选择方法(HWLAD-LASSO)。理论上证明了新方法的oracle性质,通过模拟研究和实例分析,同经典WLAD-LASSO方法对比发现HWLAD-LASSO方法具有更加显著的优越性。其次,基于经验似然的AIC和BIC准则(EAIC和EBIC),以及基于高斯伪似然的AIC和BIC准则(GAIC和GBIC)均仅在纵向数据相关结构选择研究中被相继提出。本文基于纵向数据广义估计方程框架,拓展EAIC,EBIC,GAIC和GBIC准则的协变量选择研究。通过大量的模拟研究得到如下发现:(i)GAIC和GBIC协变量选择表现均优越于现有的其他方法;(ii)EAIC和EBIC仅仅是在工作相关矩阵被正确识别时,其协变量选择才是有效的;(iii)GAIC和GBIC均表现出较好的稳健性,无论工作相关矩阵是否被正确识别,其协变量选择效果总是十分好。此外,抗癫痫病药物研究数据的实例分析进一步验证了模拟研究结论。最后,本文通过结合有效且稳健的广义估计方程和Adaptive LASSO惩罚函数(AL-ERGEE),基于纵向数据广义线性模型提出了一种新的稳健模型选择方法。为了实现协变量选择中控制参数选取以及同步选择工作相关矩阵,一个有效的加权高斯伪似然BIC准则(WGBIC)被引入到模型选择中。结合迭代加权最小二乘法和MM算法实现了AL-ERGEE的数值求解。此外,本文证明了模型选择中协变量选择的oracle性质,并通过模拟研究和实例分析得到如下结论:(i)所提的稳健模型选择方法的协变量选择效果是十分有效的,特别是当控制参数由WGBIC选取而不是GCV选取的时候,同时表现出几乎能完全正确选择工作相关矩阵的优异效果;(ii)所提方法具有很强的稳健性,能很好地控制协变量和工作相关矩阵同步选择中异常值对选择效果的影响程度。