论文部分内容阅读
背景:大数据背景下,数据驱动的观察性研究逐渐成为流行病学研究的重点。然而,与实验性研究相比,观察性研究在论证因果关系时存在一些固有缺陷。例如,传统的关联性分析方法难以有效控制混杂因素,尤其是不可观测的混杂,导致因果效应估计存在混杂偏倚;此外,由于在研究数据收集和测量过程中测量仪器精度不高、测量环境的改变、对过去的暴露史回忆不准、在数据录入过程中的录入错误、以及在数据整理时不恰当的变量变换等原因,使研究数据中往往难以避免地存在测量误差,导致用测量值代替真实值得到的变量间因果效应的估计值与真实值之间往往存在测量偏倚。工具变量法(如孟德尔随机化法)是目前观察性研究中广泛使用的控制未知混杂的因果推断方法,而传统的工具变量法要求暴露和结局变量均能被准确地测量,当暴露或结局中存在不同程度和类型的测量误差时,往往会使传统工具变量法估计量存在偏倚,或对其检验效能产生影响。目前研究者提出的工具变量模型中控制测量偏倚的方法,有些仅考虑了暴露变量或者结局变量中存在测量误差的情况;有些只能识别因果效应的方向或上下界,无法识别暴露对结局的因果效应;有些则依赖于已知的测量误差机制。目前尚缺乏暴露和结局均存在测量误差且测量机制未知情形下,工具变量模型理论框架下同时控制混杂偏倚与测量偏倚的因果推断方法。因此,创建工具变量模型理论框架下同时控制测量偏倚和混杂偏倚的因果推断方法,识别并准确估计暴露对结局的因果效应,是观察性研究因果推断中需解决的关键问题。方法:针对观察性研究数据中广泛存在的变量间的未知混杂与暴露和结局中的测量误差,本研究首先通过理论推导,探索连续暴露和结局中存在的非差分测量误差对传统工具变量法因果效应估计量的影响,推导传统工具变量法因果效应估计量的渐近偏倚。进一步,采用理论推导证明、统计模拟实验和实际数据分析相结合的方法,利用暴露以及结局的各两次重复测量值,构建同时控制测量偏倚和混杂偏倚的工具变量法。具体而言,首先根据暴露和结局的测量值间可能存在的多种相关性(给定暴露和结局真实值时四个测量值条件独立、部分条件独立或条件相关),构建三种因果图模型;考虑模型中变量类型的不同,设置如下三种情境:(1)连续工具变量模型中暴露和结局存在条件独立或部分条件独立的非差分测量误差;(2)连续工具变量模型中暴露和结局存在条件相关的非差分测量误差;(3)二分类工具变量模型中暴露和结局存在条件独立的非差分测量误差。基于因果图模型和do算子、后门准则等因果推断的基本准则,通过理论推导分别构建三种情境下同时控制测量偏倚和混杂偏倚的工具变量法;进而,通过统计模拟,将本研究提出的校正方法与不调整未知混杂和测量误差的粗相关法、仅调整暴露与结局间未知混杂,忽略变量中测量误差的传统工具变量法,以及仅调整未知混杂和样本相关性,忽略变量中测量误差的基于广义矩估计的三阶段最小二乘法进行比较,通过偏倚、标准误、均方误差等指标对各方法得到的因果效应估计值的准确性和精确性等进行评价;运用提出的校正方法探索免疫性血小板减少症病人中基因相对表达量之间的因果调控关系。最后将本研究提出的方法编写成函数和R包。结果:1.理论证明结果:(1)在连续工具变量模型中,暴露和结局中存在的经典非差分测量误差不会导致传统工具变量法因果效应估计值产生偏倚;若暴露和结局中均存在一般形式的非差分测量误差,当暴露(结局)的真实值与测量值呈正相关时,因果效应估计值偏倚的大小取决于暴露和结局测量误差模型斜率的差异:当暴露和结局测量误差模型的斜率相等时,传统工具变量法因果效应估计值不存在偏倚;二者斜率的差异越大,偏倚越大。(2)针对连续暴露和结局中的条件独立或部分条件独立的非差分测量误差以及暴露与结局间的未知混杂,本研究借助暴露和结局的各两次重复测量值,基于传统工具变量法的基本假定以及条件独立或部分条件独立的非差分测量误差假定,构建了该情境下同时控制测量偏倚和混杂偏倚的工具变量法,提出了暴露对结局的总因果效应的识别公式和渐近无偏估计量。(3)针对连续暴露和结局中的条件相关的非差分测量误差以及暴露与结局间的未知混杂,本研究借助暴露和结局的各两次重复测量值,基于传统工具变量法的基本假定以及对称相关的非差分测量误差假定,构建了该情境下同时控制测量偏倚和混杂偏倚的工具变量法,提出了暴露对结局的总因果效应的识别公式和渐近无偏估计量。(4)针对二分类暴露和结局中的条件独立的非差分测量误差以及暴露与结局间的未知混杂,本研究借助暴露和结局的各两次重复测量值,基于传统工具变量法的基本假定、条件独立的非差分测量误差假定以及对称且有效的错误分类假定,构建了该情境下同时控制测量偏倚和混杂偏倚的工具变量法,提出了暴露对结局的依从者平均因果效应的识别公式和渐近无偏估计量。2.统计模拟结果:固定其他参数为初始值,分别遍历样本量、各边效应参数以及暴露、结局的测量误差大小的模拟结果表明,本研究提出的三种情境下同时控制测量偏倚和混杂偏倚的工具变量法均可以得到暴露对结局因果效应的渐进无偏估计,估计值较为稳定,检验效能较高。同时,暴露或结局中测量误差的大小不会对本研究提出校正方法的准确性产生影响。3.实际数据分析结果:实际数据分析结果提示,免疫性血小板减少症病人中NF-κB相对表达量对IL-18相对表达量均存在负向因果调控关系。4.函数和R包:将针对上述三种情境下本研究提出的校正方法编写成 R 函数,并编写 R包RCMIV上传至 https://github.com/lxinhui/RCMIV.结论:1.在连续工具变量模型中,暴露和结局中存在的经典非差分测量误差不会导致传统工具变量法因果效应估计产生偏倚;若暴露和结局中均存在一般形式的非差分测量误差,且暴露(结局)的真实值与测量值呈正相关时,偏倚的大小取决于暴露和结局测量误差模型中斜率的差异。2.针对连续暴露和结局存在条件独立或部分条件独立的非差分测量误差,且暴露与结局之间存在未知混杂的情境,基于传统工具变量法的基本假定和条件独立或部分条件独立的非差分测量误差假定,本研究提出的校正方法可以得到暴露对结局总因果效应的渐近无偏估计。3.针对连续暴露和结局存在条件相关的非差分测量误差,且暴露与结局之间存在未知混杂的情境,基于传统工具变量法的基本假定和对称相关的非差分测量误差假定,本研究提出的校正方法可以得到暴露对结局总因果效应的渐近无偏估计。4.针对二分类暴露和结局均存在条件独立的非差分测量误差,且暴露与结局之间存在未知混杂的情境,基于传统工具变量法的基本假定、条件独立的非差分测量误差和对称且有效的错误分类假定,本研究提出的校正方法可以得到暴露对结局的依从者平均因果效应的渐近无偏估计。