零膨胀模型的构建及其在卫生服务调查研究中的应用

来源 :第二军医大学 | 被引量 : 2次 | 上传用户:nebula_0718
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究背景:近年来,随着我国医疗信息化技术不断发展,大量的医学信息原始数据得以记录和保存下来,如流行病学的调查数据、医院的信息化数据等。这些医学数据在数量迅速增加的同时,其质量和准确度也在不断提高。如何借助恰当的统计分析方法,来挖掘这些海量的数据信息,以更好的为医疗卫生行业的管理、医院的诊疗、科研和教学服务,从而进一步为医疗决策提供支撑,已经成为国内外统计学界较为关注的热点问题。然而,在实际研究中,此类计数数据常常会出现零过多的现象,这种现象在流行病学调查数据中尤为常见。所谓零过多现象是指在计数数据中零的个数明显多于按照泊松分布、二项分布或负二项分布等标准离散分布随机产生的零的个数的现象。计数数据中取值为零的数量过多,会导致数据过度离散。对于该类零过多的计数数据,如果仍使用普通的计数模型去拟合,将会导致参数估计的偏差过大,甚至做出错误的推断。为了解决零过多计数数据的过离散问题,针对该类数据的特点,分成零计数(零点的退化分布)和非零计数(取值为泊松分布)两个部分建立混合回归模型,即零膨胀泊松回归模型(Zero-inflated model,ZIP)。研究目的:本研究针对医学研究中普遍存在的零过多的计数数据的问题,构建零膨胀模型,对于小样本资料,引进贝叶斯的方法,构建贝叶斯零膨胀模型并与传统模型比较,模拟不同样本量和不同零过多比例等多种数据情境,从准确性、精确性和模型的拟合优度等多个方面对构建的模型进行评价,探索不同的数据情境下最优的参数估计模型。同时,为了增加模型估计的可靠性,引入Bootstrap统计技术。本研究可以为今后流行病学调查数据中零过多数据的统计分析提供方法学支持。研究方法:首先进行原始数据的模拟,数据模拟设置不同的样本量,分别为1000、500、100,同时考虑不同的离散程度,设置不同的零比例,分别为0.9、0.8、0.7、0.6,模拟不同的数据情境下的最优模型。1.模型构建基于大样本的情况下,构建零膨胀泊松回归模型(ZIP)、零膨胀负二项泊松回归模型(Zero-inflated negative binomial,ZINB)并与传统的泊松回归和负二项回归进行比较;基于小样本的情况下,构建贝叶斯零膨胀泊松回归模型(Bayesian zeroinflated Poisson)、零膨胀负二项泊松回归模型(Bayesian zero-inflated negative binomial model)并与贝叶斯泊松回归模型、贝叶斯负二项回归模型进行比较。同时,模型构建的过程中引进Bootstrap统计技术,根据原始样本量大小进行有放回等样本重复抽样,每次抽样200次,然后对这200个复样本进行统计分析。2.模型评价分别从准确性、精确性和和模型拟合度三个方面,使用绝对偏倚、置信区间覆盖率、标准误、置信区间宽度和模型拟合度五个指标对模拟的结果进行全面、客观科学的评价。综合以上五个指标可全面评价模型模拟的结果,为今后医学数据不同模型评价提供了方法学参考。3.实例分析将构建的零膨胀模型应用于卫生服务调查实例研究中,大样本的实例分析选择对上海市居民患慢性病数的影响因素进行分析;小样本的实例分析选择对上海市浦东新区农业户口居民年住院次数的影响因素进行分析。实例分析中构建不同的模型进行统计分析,并对模拟研究的结果进行实例验证。研究结果:本研究的结果分成两个部分,分别是基于大样本和小样本两个不同的部分。基于大样本构建四个模型。先从准确度和精确度方面进行比较,然后比较所有模型的拟合优度指标AIC值。当样本量为1000、500时,我们发现这两个传统计数模型随着零比例的增加,在准确度方面,其绝对偏倚的值是不断增加的,置信区间的覆盖率也越来越低;在精确度方面,标准误也是增大的趋势,其置信区间的宽度不断增加。由此可见,传统计数模型模拟结果的准确性和精确性并不高,传统计数模型对于零过多数据的模拟结果并不是很理想。然而,相同条件下零膨胀模型的模拟结果比传统计数模型要好很多。基础零膨胀模型的AIC值,普遍比基础计数模型的AIC值小,即基础零膨胀模型的拟合度比基础计数模型要好,而负二项回归拟合度优于泊松回归。在零比例为0.6、0.7时,模型拟合度比较分别为:零膨胀泊松回归模型优于零膨胀负二项回归优于负二项回归优于泊松回归;零比例在0.8、0.9时,零膨胀泊松回归与零膨胀负二项回归的拟合度基本一致,均优于负二项回归,负二项回归又优于泊松回归。基于小样本构建四个模型。在样本量为100,零比例为0.8、0.7、0.6时,贝叶斯泊松回归和贝叶斯负二项回归这两种模型的准确度和精确度。我们发现这两个模型在随着零所占的比例增加,在准确度方面和精确度方面以及模型的拟合度方面均不是很理想。在比例为0.9时,贝叶斯泊松模型和贝叶斯负二项模型无法拟合,可见贝叶斯传统计数模型对于小样本零过多计数数据的模拟结果并不是很理想。在零比例为0.6、0.7、0.8时,从模型准确度、精确度和拟合度方面比较分别为:零膨胀泊松回归模型与零膨胀负二项回归模型模拟结果相差不大,贝叶斯负二项回归模型优于贝叶斯零膨胀模型优于贝叶斯泊松回归模型;零比例在0.9时,贝叶斯零膨胀泊松回归与贝叶斯零膨胀负二项回归的模拟结果基本一致,均优于贝叶斯传统计数回归模型。实例分析中基于大样本的统计分析结果与模型数据模拟的结果较一致,验证了对于零过多数据零膨胀模型优于传统计数模型,并得到了影响上海市居民患慢性病数的一系列危险因素。基于小样本的统计分析结果与模型数据模拟的结果也比较一致。研究结论:根据卫生服务调查数据不同的零过多计数数据特点,选择合适的零膨胀模型分析方法优于传统计数模型,能够有效的减小偏倚。在小样本条件下,贝叶斯零膨胀模型分析方法略优于贝叶斯传统计数模型分析方法。此外,零膨胀模型的分析方法在具有层级结构的零过多数据和高维零过多数据中的的表现尚需要进一步探索研究。
其他文献
近年来,依据全面从严治党、全面加强基层党的建设、全面做好意识形态工作和全面推进基层党支部评星定级的要求及标准,国有企业党委不断强化基层党支部的党建、意识形态和支部
梁家煤矿属典型的“三软”地层矿,井岩石普氏硬度系数小于f3。煤岩体松软破碎,强度低,维护困难。通过在采区巷道中采用了锚网喷、锚梁联合支护形式,取得了较理想的支护效果,获得了
艰苦奋斗精神是中国共产党在长期的革命斗争中倡导和培育的光荣传统,是克服困难,战胜敌人,取得革命和建设事业胜利的重要保证。党的革命和建设的实践一再证明,什么时候艰苦
党组织在国有企业改革发展中具有“把方向、管大局、保落实”的核心领导地位.如何有效将国企党建与中心工作深度融合,避免“两张皮”的貌合神离?本文以山东鲁泰化学有限公司
党支部是党的基层组织,也是贯彻执行党的方针、落实党的任务的排头兵.随着煤矿企业组织形式和利益分配方式的日趋多样化,煤矿企业党支部建设迎来了新的问题.创新煤矿基层党支
目的:对癌性发热治疗中,清热散瘀解毒方治疗效果进行观察分析.方法:从医院2018.01~2019.12收治恶性肿瘤患者中选取100癌性发热患者例作为研究对象,根据治疗方法不同分成对照组
贯彻落实习近平新时代中国特色社会主义思想和党的十九大报告精神,贯彻落实中央关于“推动全面从严治党向基层延伸”“党的一切工作到支部”,落实“三会一课”制度,把“守正
党的十九大以来,国有企业和电力体制改革步伐加快,电力竞争多元化、市场化加剧,电力企业中传统的模式逐渐被日益发展变化的新格局所代替.企业共青团组织已不能按传统的模式开
英国教学卓越框架(TEF)的实施标志着英国这一老牌教育强国的教育视角转型.它第一次将高等教育的结果放在重要位置,重点关注教学评估标准,保护多样的学生利益与需求,重视学生
当前,如何把国企党建工作融入生产经营全过程,这就需要国企要坚持“对内服务”总基调和“对外合作”主基调,党建工作实现由生产经营“传统管理”向生产经营“标准管理”的转