样本选择模型及其在医疗费用研究中的应用

来源 :山西医科大学 | 被引量 : 8次 | 上传用户:jht20007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
样本选择模型(Sample selection Model)是由选择等式和结果等式组成的回归方程组,它要求两个等式间的残差项不独立,且要求模型中结果等式的因变量以某固定值为限向上或向下截取,这样的性质极大的拓展了统计模型的应用空间。同时,样本选择模型在参数估计过程中利用了方程间误差项的相关信息,使参数估计效率在满足某些适当条件下较之对有因变量缺失的单个回归方程进行参数估计的传统方法得到改进。在某些流行病学调查和临床试验中,个体数据的收集是在不完全随机抽样情况下进行的,其中部分原因是由于个体本身具有自主选择判断的能力,因此很可能会采取拒绝合作等影响抽样的行为而导致数据缺失,致使抽样失去随机性。这种由于个体自我行为所导致的样本选择偏倚,单靠好的抽样设计,根本没有办法消除。尽管被调查者是否参与调查是其自主选择判断的结果,但是这种决策并不是以丢硬币这样完全随机的方式产生的,而是由其他因素影响所导致的,且这些因素往往也是研究者所关心的。由于受某些因素的共同影响,研究者所需要发现的结果等式和影响被调查者决策的选择等式之间常存在一定程度的相关性。因此,样本选择模型在医学研究(特别是大型调查)中有重要的应用价值。本课题结合医疗费用数据结构的特殊性,系统探讨了样本选择模型的医学统计建模方法和经典的参数估计方法,并向半参数推广,重点解决居民自付医疗费用支出影响因素分析的样本选择模型统计建模和参数估计方法。我们在第一章介绍了样本选择模型的基本结构,结合某慢性疾病医疗费用影响因素研究的数据缺失特点,阐明其建模机制。并且,在有偏样本的基础上,分析对结果等式应用最小二乘法所获估计量存在偏差的原因。第二章着重介绍样本选择模型的似然估计和两步估计。以年代为主线,并以误差项的分布假设为依据,分别介绍似然估计和两步估计的参数、半参数方法的发展、优缺点及其在实例分析中的应用情况。与此同时,我们特别强调了本课题研究的重点——半参数两步估计法,并介绍该估计法中用到的核回归方法及其核函数和最优窗宽的选择。最终,选用高斯密度核和解方程插入法所获得的最优窗宽来进行Nadaraya-Watson核回归。第三章是模拟试验与实例分析。在误差项服从双变量正态分布的模拟试验中,通过因变量的不同截取程度和误差项不同相关程度的组合,比较三种估计方法所获回归系数估计量。当因变量重度截取且误差项的相关较强时,两步估计和似然估计所获估计量偏倚较小。当误差项不服从双变量正态分布,在因变量重度截取和误差项较弱相关时,两阶段局部回归估计量的偏倚最小。在实例分析中,样本选择模型的残差项不服从双变量正态分布,但存在一定程度的相关性,故我们选用两阶段局部回归估计,并结合医疗费用控制方面的研究对所获结果做出合理解释。第四章为课题总结。本章对样本选择模型中估计方法的比较、共线性问题和异方差问题都做出了进一步的探讨。最后,我们对该模型的软件实现和理论发展方向做出了大胆预测。本课题的模拟试验和实例分析使用SAS9.0和STATA9.0软件作为运算分析平台
其他文献
人类群体遗传学(population genetics)是一门通过研究人群的遗传结构及其变化规律来探讨人群进化机制的遗传分支学科。人群遗传结构是指遗传变异在群体内或群体间的分布样式
学位