工具变量方法处理不可忽略数据缺失的研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:zhangjunfeng_2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
缺失数据普遍存在于多个领域中.而不可忽略缺失数据,即在给定观察到的数据信息后数据缺失概率仍与缺失数据本身有关,是最难处理的一类缺失数据问题.当存在不可忽略数据缺失时,Robins and Ritov(1997)证明了,为了识别所有的未知参数,原始的数据模型和数据缺失概率模型中至少有一个模型需要具有参数形式.而即便存在参数模型假设,参数模型也仅在一定的条件下才可识别.现阶段,不可忽略缺失数据的可识别性问题仍然是一个棘手的问题.近些年来,Wang et al.(2014),Zhao and Shao(2015)和 Miao and Tchetgen Tchetgen(2016)在Tang et al.(2003)的基础上提出基于“工具变量”的方法来解决模型可识别性的问题.这类工具变量方法也为不可忽略缺失数据的研究开辟了新的思路和方向.具体来说,工具变量的定义是一个与缺失概率模型无关但与数据模型有关的协变量向量.在满足一定的条件下,工具变量可以帮助识别不可忽略缺失数据问题中的未知参数(Wang et al.,2014;Zhao and Shao,2015).本文的目的在于,从多个角度研究工具变量方法处理不可忽略数缺失数据问题,从而帮助完善工具变量方法的理论体系,并拓展该类方法的实际应用性.主要的研究工作如下:第一,很多关于工具变量方法的研究均假设工具变量是已知的或者所需的参数模型是固定的,这类假设在实际应用中可能是不适用的.而错误选择工具变量或者参数模型均可能导致工具变量方法失效.在此,我们讨论该类方法中的工具变量搜索和参数模型选择的问题.首先,在仅有数据模型具有参数形式而数据缺失模型是非参数形式时,我们假设工具变量未知.基于Tang et al.(2003)和Zhao and Shao(2015)提出的伪似然方法以及协变量的经验分布,我们构造出两个关于候选工具变量的条件分布,并提出一个最大比准则来搜索工具变量.同时,我们证明了该搜索方法具有变量选择的相合性,即依概率趋于1使得选出的变量等于真实的工具变量.其次,我们进一步假设数据模型的参数形式也不固定.通过对数据模型的密度函数进行分解,我们将工具变量搜索的方法结合到模型选择问题中,从一组候选模型中选择出正确的数据模型,并剔除协变量中与数据模型无关的干扰变量,从而得到无偏且更有效的的参数估计和统计推断.第二,在仅有数据模型具有参数形式而数据缺失模型是非参数形式时,Zhao and Shao(2015)提出的伪似然方法是处理不可忽略缺失数据问题的常用方法之一,而我们提出的工具变量搜索的方法也是以伪似然方法为基础的.由于伪似然方法在运用过程中需要对协变量的联合分布进行估计,故而伪似然方法在处理高维协变量方面的表现并不稳定.为了扩展伪似然方法和工具变量搜索方法的实际应用性,我们利用非参数核回归方法重新估计伪似然方法中的似然函数,以避免对协变量的联合分布做任何参数模型假设.同时,我们将该方法与充分降维方法结合,以提升未知参数估计的稳定性.基于充分降维和伪似然方法的理论性质,我们建立了降维后的伪似然参数估计的相合性和渐近正态性.第三,在解决了工具变量搜索和模型选择这两个关键问题后,我们考虑将工具变量方法进一步推广到一些估计方程中含有不可忽略缺失的情况.我们首先讨论当协变量中含有不可忽略缺失数据时估计方程中未知参数的统计推断问题.基于工具变量,我们可以运用伪似然方法来估计给定已观测协变量下缺失协变量的条件分布,并以此来构造无偏的估计方程.然后根据修正后的估计方程和经验似然方法,我们能得到有效的参数估计.由于并未对数据缺失概率模型有任何假设,因此该方法属于半参数方法.我们通过理论推导证明了该方法可以被应用到两类常用的估计方程中,同时也证明了估计参数的渐近性质并构建经验似然比检验统计量.最后,我们继续讨论估计方程的参数估计问题,区别在于该问题中响应变量中含有不可忽略数据缺失.该研究的目的在于通过工具变量来解决模型的可识别性问题,并尝试利用附加信息,例如协变量的总体均值已知,来提高参数估计的有效性.在倾向模型具有参数模型的假设下,我们利用广义矩方法估计缺失概率,并构造半参数似然函数.同时,我们参照Qin et al.(2002)的半参数似然方法将估计方程和一些附加信息作为限制条件,从而估计未知参数.同样地,我们也构建了估计参数的渐近理论性质.针对本文提出的几种方法,我们分别通过模拟随机试验和实例分析来验证方法的可行性,并得到了具有可解释性的结论.
其他文献
受到Liu工作的启发,我们用统一的方式给出了mock theta函数的Appell-Lerch级数或Hecke-type级数表示.我们给出了许多带a和b参量的恒等式.通过选取特殊的(a,b),我们不仅可以给出2、3、5、6和8阶mock theta函数的许多已经和新的级数表示,而且可以得到许多其他有趣的等式.我们发现一些不同阶数的mock theta函数是相关的,某种意义上,它们的表示可以从(a,
近年来,量子信息领域发展迅速,而量子光源是实现量子信息不可或缺的关键资源。其可以用于实现量子通信、量子计算以及量子精密测量等方面。提升量子光源性能主要有三个方面,即量子光源的量子关联特性、通道容量和光束数量。量子关联特性直接决定了量子通信的保真度,而光束数量以及通道容量共同决定了量子光源的尺度,进一步决定量子通信的复杂度和信息容量。在利用增加光束数量来提升量子光源尺度方面,传统的产生方式需要很复杂
含孤对电子的半导体材料表现出卓越的光电性质,其中由含Pb 6s2孤对电子的有机-无机杂化卤化物钙钛矿材料制备的太阳能电池和发光二极管展现出巨大的商业应用潜力。然而,稳定性差及含重毒金属Pb两大缺点限制了其未来应用的前景。这促使科研人员寻找能够代替杂化钙钛矿的新型光电材料,它们需要满足两个条件,既能继承钙钛矿材料孤对电子的特性,又能解决钙钛矿材料不稳定和含重毒金属Pb的问题。本文通过第一性原理计算研
同步化是指系统中大量相互作用的基元,在宏观上实现一致的步调或者节律,是自然界和人类社会中常见的协同现象。过去数十年中,人们一直在发展研究系统同步化相变的理论方法,构建出许多动力学模型,其中最经典的就是藏本模型(Kuramoto模型)。同步化关注的焦点之一是系统形成的各种协同态。目前在耦合振子系统中观测到的协同态有:同步态、π态、行波态、奇异态(Chimera态)、柏勒洛丰态(Bellerophon
表面等离激元共振是材料表面自由电子在外部入射光场的作用下,在材料表面形成的一种表面束缚电磁波。因其具有很强的局域场增强特征,使其在生物传感、单分子探测、纳米光刻等方面有着广泛的应用前景。表面等离激元主要分为局域表面等离激元和传播表面等离激元两类。在局域表面等离激元的特性与应用方面,本文分别研究了等离激元尺子、表面增强拉曼光谱的超快选择激发。在传播表面等离激元方面,研究了飞秒激光在半导体表面激发表面
盐水入侵是河口地区最重要的现象之一,不仅与河口环流,泥沙输运,生态环境密切相关,还关系到河口淡水资源的利用。长江河口盐水入侵受径流、潮汐、河势、混合和风应力等因子的综合影响,其动力过程复杂。2014年2月长江河口发生了多年不遇的严重盐水入侵事件,对上海最大水库青草沙水库的取水产生了不利影响,威胁到了上海市的供水安全。本文利用观测资料结合数值模拟,对该次盐水入侵的过程和动力机制进行分析和研究,主要工
分子由电子和原子核构成,其内部的电子运动与核运动在光与物质相互作用过程中扮演着非常重要的角色。在超短强激光脉冲的作用下,分子内的束缚电子将从激光场中吸收光子能量发生跃迁,最终逃逸到自由态或布居到高激发的里德堡态,致使分子被电离或激发。电子发生跃迁运动时通常会伴随着原子核的超快运动。由于原子核比电子质量大几个数量级,它们各自的运动时间尺度也相差甚远,例如原子核的振动、转动以及解离等行为一般发生在几十
本文研究了调和向量场1和两类含旋度算子的方程组,包括Maxwell方程组和Lam(?)方程组.我们主要研究了这两类方程组解的渐近性态.对于Maxwell方程组,我们研究解在变动区域上的渐近性态.而调和向量场的性质与Maxwell方程组解的性质密切相关,因此我们先研究了调和向量场的分解及渐近性态.对于Lam(?)方程组,我们研究随着方程组的参数的变化解的渐近性态.第一章是本文的绪论,介绍本文的研究背
原子分子的精密光谱在人类探索自然的过程扮演着核心的角色,特别是自激光器诞生以来,原子分子频率跃迁的测量的精度得到了极大的提高。每一次光谱频率分辨率的提高都带来人类认识的新革命,导致了一系列重大的发现:比如精细和超精细分裂、Stark效应、Zeeman分裂和精细常数的时间变化等。在这一系列重要的科学和技术的进步中,能级结构简单原子的高精度谱线测量在基本常数标定、奇异核结构测量和量子电动力学修正等领域
金属蛋白作为非常重要的一类生物大分子体系,在诸多生命过程中扮演着关键的角色。从理论上深入理解金属离子和蛋白之间的相互作用,对解释相关机理有重要意义。经典分子力场具有简单高效的特点,在生物分子体系的相关研究上应用广泛,但是在处理金属离子相关问题时,存在着准确性严重不足的问题。而量子化学(Quantum chemistry,QM)计算虽然准确度高,但计算量巨大,难以应用到金属蛋白等生物大分子体系的动力