异质模型和纵向生存数据模型中的估计、聚类和变量选择方法

来源 :山东大学 | 被引量 : 0次 | 上传用户:caiwenta
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几十年来,随着科学技术的迅速发展,生物、医学、信息技术、金融和营销等领域的数据层出不穷、多种多样.要在如此庞杂的数据中,准确地分析出重要信息就显得尤为重要.那么,首先要做的就是对数据进行聚类.并对聚类后的每个分组数据进行建模和估计.其次,高维数据在各个领域的频繁出现,使得许多传统的统计方法失效.针对这样的聚类和高维问题,本文主要研究异质数据的聚类和估计问题,并对生物统计中的高维数据进行变量选择.对于异质数据的聚类分析,我们考虑了部分异质单指标模型和异质截距单指标模型的估计和聚类问题;对于高维数据的变量选择,考虑了生物统计中的纵向生存数据联合模型,并对该联合模型进行了估计和变量选择.基于上述要研究的内容,本文主要分为四个章节:第一章简要介绍本文涉及到的一些相关模型、聚类方法、经典的变量选择方法和算法等的概念及定义.第二章和第三章都是对异质模型进行聚类和估计.其中,第二章提出了对部分异质单指标模型的聚类和估计方法,第三章提出了对异质截距单指标模型的聚类和估计方法.第四章对纵向生存数据联合模型中的各项参数进行了变量选择,尤其是对纵向变量的选择.接下来分别对第二、三、四章进行简要介绍.第二章:针对部分异质单指标模型,我们提出了新的估计和聚类方法.Ma and Huang(2017)和Ma et al.(2020)都考虑了异质模型的估计和聚类问题,其中Ma and Huang(2017)考虑了异质截距线性模型;Ma et al.(2020)考虑了部分异质线性模型.这两个模型的异质性都体现在了参数部分,对于异质性在半参部分的模型还没有学者进行研究.本章就针对半参部分的异质性,即部分异质单指标模型,进行研究.直接写出部分异质单指标模型的目标函数对其求解是十分困难的.受Wang et al.(2015)的启发,利用单指标模型中指标参数的特点,我们将目标函数转化为一个最小二乘的优化问题.基于这个优化问题,可以同时估计同质参数和异质指标方向的分组平均值.然后将所估计的同质参数代入优化问题,并利用凹成对融合惩罚方法建立新的优化问题.通过交替方向乘子法(Alternating Direction Method of Multipliers,ADMM,Boyd et al.,2011)对这个新的优化问题进行计算,从而识别异质指标方向的分组结构.我们证明了新方法所估计的同质参数和异质指标方向在一定条件下具有渐近正态性,所识别的异质指标方向具有聚类一致性.并且在新方法下估计的同质参数摆脱了异质参数分组稀疏性假设的限制.此外,新方法还把Wang et al.(2015)的方法推广和应用到了异质模型.新方法的优良性和出色表现都在数值模拟中得到了体现.第三章:本章针对异质截距单指标模型提出了新的估计和聚类方法.这个异质模型与第二章提出的部分异质单指标模型是相似的,都是半参模型,区别在于该模型的异质性体现在了截距上,而第二章的异质性体现在了半参部分.此外,第二章要求同质参数和异质指标方向都是低维的.并且所提出的方法没有对单指标部分的连接函数进行估计.本章提出的新方法不仅对异质截距单指标模型的异质截距进行了估计和聚类.还对单指标部分的连接函数和指标方向进行了估计,并且新方法对单指标部分的指标参数维数不作限制.我们首先采用B样条方法对异质截距单指标模型中的单指标部分进行近似.通过B样条方法的近似,利用凹成对融合惩罚方法建立的目标函数就转化为了一个参数优化问题.然后用ADMM算法对该优化问题进行计算,从而实现对模型的估计和聚类.其中,在ADMM算法的迭代中,采用了 Nadaraya(1964)和Watson(1964)提出的Nadaraya-Watson(N-W)方法对连接函数进行估计.另外,合理的初始值对于ADMM算法的计算至关重要,我们借鉴了 Lv et al.(2015)中的估计方法对初始值进行了迭代估计.模拟研究表明新方法对异质截距的聚类和估计以及同质指标方向和连接函数的估计具有优异的表现.第四章:在生物统计中.大多数纵向数据和生存时间数据的联合模型分别是混合效应模型和 Cox 比例风险模型(Wulfsohn and Tsiatis,1997;Ibrahim et al,2004).这样的联合模型已经被广泛研究.然而,对于这种联合模型的高维变量选择问题还没有很多学者进行研究.尽管He et al(2015)和Chen and Wang(2017)都提出了用于联合模型的变量选择方法,但是He et al(2015)的方法仅涉及一个重复测量的生物标志物和生存时间;Chen and Wang(2017)仅对随机效应和协方差矩阵使用Lasso惩罚进行了变量选择.本章针对多元纵向生存数据联合模型提出了新的估计和变量选择方法.新方法不仅对联合模型中的随机效应和协方差矩阵进行了变量选择,还对模型中的固定效应进行了变量选择.并且新方法对随机效应使用了与Chen and Wang(2017)不同的惩罚函数,即Group lasso惩罚.该惩罚在某些领域是非常有意义的,比如一种疾病与一个人的体重无关,那么控制体重的几个基因就对疾病没有影响,利用Group lasso惩罚就可以将这几个基因全部剔除.本章首先利用惩罚似然方法建立了目标函数,其中由于惩罚似然涉及没有闭合形式的复杂积分,所以使用了基于拉普拉斯近似的数值估计方法(Chen and Wang,2017).然后通过快速迭代收缩阈值算法(fast iterative shrinkage-thresholding algorithm,FISTA,Beck and Teboulle,2009)对目标函数进行了计算,其中算法中的步长采用了回溯线搜索方法.这种计算方法具有良好的收敛速度.模拟研究表明新方法对于模型的估计和选择具有出色的表现.为了进一步说明新方法的优良表现,我们对来自梅奥诊所试验的肝脏患者的原发性胆汁性肝硬化(PBC)观察性研究进行了详细分析,结果表明新方法对于该研究的估计和变量选择同样具有很好的表现.
其他文献
智慧服务区解决方案围绕《数字交通发展规划纲要》《交通强国建设纲要》《国家综合立体交通网规划纲要》的发展战略需求,基于全息感知、数据挖掘、云平台分析、移动互联等先进技术,针对服务区管理从“重管理”到“重服务”转变的业务需求,通过全要素感知、全业务管理、全方位服务等手段,构建基于“信息采集数字化、信息传输网络化、对外服务智能化、对内管理信息化、交通旅行融合化”为理念的软硬件一体化解决方案,实现服务区智
期刊
随着我国城市化建设进程不断加快,随之出现的工业固废污染问题愈加严重,对周边环境和人体健康造成较大威胁,如何正确处理工业固废是国家建设中不可忽视的问题。因此,需要采用科学的方法提高工业固废综合利用率,减少工业固废造成的负面影响。文章针对目前我国工业固废处理现状进行了分析,发现在处理中存在的不足之处,并提出了相应的解决方案,以期为工业固废处理提供参考。
期刊
新型交通基础设施是交通强国建设的有力支撑,与传统基建相比,新基建在服务对象、投资的经济性、投资主体、投资的经济社会效益、发挥作用、模式等方面有很大不同,传统基建和新基建在融合发展过程中面临诸多问题和挑战。本文结合对传统基建和新基建融合发展机制的分析,探讨了青海省高速公路传统基建与新基建融合发展方向,初步提出青海省高速公路与新基建深度融合的落地思路,以及交通新基建与旅游、物流、新能源等行业融合发展的
期刊
通过脱钩理论和LMDE模型,该文研究了2013-2017年四川省大中型城市工业固废与经济发展之间的关系以及影响工业固废产生的因素。研究表明,四川省大部分城市的工业固废产生量与经济发展之间呈现出强脱钩状态,但德阳、南充、乐山的工业固废产生量与经济发展之间分别呈现出扩张负脱钩状态、弱脱钩状态。其中经LMDE模型分析,排放强度效应是抑制大部分城市工业固废产生量的主要推动力;产业结构效应起到了抑制作用导致
期刊
基础教育课程改革以“落实立德树人”为根本任务,并以“各学段学生发展核心素养体系”为系统性概念,深入回答“培养什么人、怎样培养人”这一问题。中小学音乐教育肩负着对下一代审美感知、艺术表现、文化理解、创意实践等音乐学科核心素养培养的重任。高等师范院校的音乐师范生是未来的中小学音乐教师,其音乐学科核心素养的培养直接影响到其未来学生核心素养的培养。该文依照2022年版《义务教育艺术课程标准》和2017年版
期刊
为适应云南省高速公路运营管理近年来呈现的核心业务数据井喷新形势,云南交投集团从组织流程层面、管理控制层面、决策支持层面、信息服务层面建设支撑集团智慧高速体系的综合运营管控平台,从过去传统、被动、定性和分散的管理,转变为现代、主动、定量和系统化的管控体系。
期刊
中国传统聚落营建在漫长的探索中形成了深厚的历史积淀,传统聚落留存至今宛如史籍般记载着前人对居住空间的探索与创造,蕴涵着历代营建者对聚落发展的深入思考与巧妙革新,是中国本土城乡建设的根脉所在。然而,优秀的传统营建经验却尚未得到深刻的认知与全面的研究,伴随着现代城镇的快速发展,逐渐与城乡建设的实践脱离开来,使聚落空间丧失了文化特色与精神内涵,正在应对严峻的发展困境。因此,发掘与传承本土聚落营建经验、联
学位
镍基高温合金粉末是军用及民航发动机涡轮盘件的主选材料,由于真空感应熔炼气雾化(Vacuum Induction Melting Gas Atomization,VIGA)技术在制备镍基高温合金粉末方面具有可控性好、产量大、球形度高和粉末细等优点,VIGA技术被广泛用于镍基合金粉末的制备。VIGA工艺核心技术部件是紧耦合喷盘,随着对粉末收得率要求不断提高,在工业生产过程中,雾化系统堵塞(也称导流管堵
学位
本文在总结国内外智慧高速公路标准现状的基础上,提出了智慧高速公路标准体系的构建目标、构建原则,构建了智慧高速公路标准体系“信息服务-全生命周期-标准层级”三维结构模型,架构了以数据为核心,基于信息服务维度以及覆盖建设、管理、运维与服务全生命周期的智慧高速公路标准体系,可以为四川省智慧高速公路标准编制提供参考。
期刊
正倒向随机方程解耦求解是最优控制理论的基础.最优控制求解分为两部分:首先利用变分法得到极大值原理,即在平衡条件下的正倒向随机方程;其次是求解正倒向随机方程,并设计最优控制器.因此求解正倒向随机方程具有重要意义.其研究开始于上世纪70年代,半个世纪以来取得了重要进展.然而注意到已有结果主要针对特殊的正倒向随机方程,而在一般时滞情形下解耦求解仍面临障碍.本文的主要贡献是提出时滞情形下一般线性正倒向随机
学位