论文部分内容阅读
近几十年来,随着科学技术的迅速发展,生物、医学、信息技术、金融和营销等领域的数据层出不穷、多种多样.要在如此庞杂的数据中,准确地分析出重要信息就显得尤为重要.那么,首先要做的就是对数据进行聚类.并对聚类后的每个分组数据进行建模和估计.其次,高维数据在各个领域的频繁出现,使得许多传统的统计方法失效.针对这样的聚类和高维问题,本文主要研究异质数据的聚类和估计问题,并对生物统计中的高维数据进行变量选择.对于异质数据的聚类分析,我们考虑了部分异质单指标模型和异质截距单指标模型的估计和聚类问题;对于高维数据的变量选择,考虑了生物统计中的纵向生存数据联合模型,并对该联合模型进行了估计和变量选择.基于上述要研究的内容,本文主要分为四个章节:第一章简要介绍本文涉及到的一些相关模型、聚类方法、经典的变量选择方法和算法等的概念及定义.第二章和第三章都是对异质模型进行聚类和估计.其中,第二章提出了对部分异质单指标模型的聚类和估计方法,第三章提出了对异质截距单指标模型的聚类和估计方法.第四章对纵向生存数据联合模型中的各项参数进行了变量选择,尤其是对纵向变量的选择.接下来分别对第二、三、四章进行简要介绍.第二章:针对部分异质单指标模型,我们提出了新的估计和聚类方法.Ma and Huang(2017)和Ma et al.(2020)都考虑了异质模型的估计和聚类问题,其中Ma and Huang(2017)考虑了异质截距线性模型;Ma et al.(2020)考虑了部分异质线性模型.这两个模型的异质性都体现在了参数部分,对于异质性在半参部分的模型还没有学者进行研究.本章就针对半参部分的异质性,即部分异质单指标模型,进行研究.直接写出部分异质单指标模型的目标函数对其求解是十分困难的.受Wang et al.(2015)的启发,利用单指标模型中指标参数的特点,我们将目标函数转化为一个最小二乘的优化问题.基于这个优化问题,可以同时估计同质参数和异质指标方向的分组平均值.然后将所估计的同质参数代入优化问题,并利用凹成对融合惩罚方法建立新的优化问题.通过交替方向乘子法(Alternating Direction Method of Multipliers,ADMM,Boyd et al.,2011)对这个新的优化问题进行计算,从而识别异质指标方向的分组结构.我们证明了新方法所估计的同质参数和异质指标方向在一定条件下具有渐近正态性,所识别的异质指标方向具有聚类一致性.并且在新方法下估计的同质参数摆脱了异质参数分组稀疏性假设的限制.此外,新方法还把Wang et al.(2015)的方法推广和应用到了异质模型.新方法的优良性和出色表现都在数值模拟中得到了体现.第三章:本章针对异质截距单指标模型提出了新的估计和聚类方法.这个异质模型与第二章提出的部分异质单指标模型是相似的,都是半参模型,区别在于该模型的异质性体现在了截距上,而第二章的异质性体现在了半参部分.此外,第二章要求同质参数和异质指标方向都是低维的.并且所提出的方法没有对单指标部分的连接函数进行估计.本章提出的新方法不仅对异质截距单指标模型的异质截距进行了估计和聚类.还对单指标部分的连接函数和指标方向进行了估计,并且新方法对单指标部分的指标参数维数不作限制.我们首先采用B样条方法对异质截距单指标模型中的单指标部分进行近似.通过B样条方法的近似,利用凹成对融合惩罚方法建立的目标函数就转化为了一个参数优化问题.然后用ADMM算法对该优化问题进行计算,从而实现对模型的估计和聚类.其中,在ADMM算法的迭代中,采用了 Nadaraya(1964)和Watson(1964)提出的Nadaraya-Watson(N-W)方法对连接函数进行估计.另外,合理的初始值对于ADMM算法的计算至关重要,我们借鉴了 Lv et al.(2015)中的估计方法对初始值进行了迭代估计.模拟研究表明新方法对异质截距的聚类和估计以及同质指标方向和连接函数的估计具有优异的表现.第四章:在生物统计中.大多数纵向数据和生存时间数据的联合模型分别是混合效应模型和 Cox 比例风险模型(Wulfsohn and Tsiatis,1997;Ibrahim et al,2004).这样的联合模型已经被广泛研究.然而,对于这种联合模型的高维变量选择问题还没有很多学者进行研究.尽管He et al(2015)和Chen and Wang(2017)都提出了用于联合模型的变量选择方法,但是He et al(2015)的方法仅涉及一个重复测量的生物标志物和生存时间;Chen and Wang(2017)仅对随机效应和协方差矩阵使用Lasso惩罚进行了变量选择.本章针对多元纵向生存数据联合模型提出了新的估计和变量选择方法.新方法不仅对联合模型中的随机效应和协方差矩阵进行了变量选择,还对模型中的固定效应进行了变量选择.并且新方法对随机效应使用了与Chen and Wang(2017)不同的惩罚函数,即Group lasso惩罚.该惩罚在某些领域是非常有意义的,比如一种疾病与一个人的体重无关,那么控制体重的几个基因就对疾病没有影响,利用Group lasso惩罚就可以将这几个基因全部剔除.本章首先利用惩罚似然方法建立了目标函数,其中由于惩罚似然涉及没有闭合形式的复杂积分,所以使用了基于拉普拉斯近似的数值估计方法(Chen and Wang,2017).然后通过快速迭代收缩阈值算法(fast iterative shrinkage-thresholding algorithm,FISTA,Beck and Teboulle,2009)对目标函数进行了计算,其中算法中的步长采用了回溯线搜索方法.这种计算方法具有良好的收敛速度.模拟研究表明新方法对于模型的估计和选择具有出色的表现.为了进一步说明新方法的优良表现,我们对来自梅奥诊所试验的肝脏患者的原发性胆汁性肝硬化(PBC)观察性研究进行了详细分析,结果表明新方法对于该研究的估计和变量选择同样具有很好的表现.