论文部分内容阅读
背景:X染色体失活(X chromosome inactivation,XCI)是调控女性X染色体基因表达水平的重要机制。XCI发生在女性胚胎发育的早期,此时女性的两条X染色体中,只有一条X染色体上的基因会被表达,而另一条X染色体上的基因则会发生表达沉默。由于女性有两条X染色体而男性只有一条,因此XCI机制的存在使得男、女性之间的X染色体基因表达水平接近一致(又称剂量补偿)。XCI的选择一般是随机的,即女性两条X染色体发生失活的可能性相等。但目前已有大量研究发现,非随机的XCI现象(偏倚失活)也存在于女性中,并与许多人类疾病的发生发展密切相关。然而,目前XCI偏倚程度的检测主要依赖于分子生物学的方法,而且尚未存在统计学方法能够从群体遗传学的角度利用家庭数据度量XCI的偏倚程度。目的:(1)基于三联体家庭数据,提出可用于度量XCI偏倚程度的统计指标,并构造该统计指标的点估计与区间估计;(2)研究三联体家庭中父母基因型数据缺失时的参数估计方法;(3)将所提出的方法运用于北美类风湿性关节炎疾病数据中,以对该方法做进一步的实例验证,并探索与类风湿性关节炎相关的偏倚失活位点。方法:本文提出一种基于三联体家庭数据的统计学指标用以度量XCI偏倚程度。该统计度量指标可以表示为女性的两个基因型相对危险度构成的比值,其点估计通过最大似然估计方法获得。当三联体家庭中的父母基因型缺失时,采用条件期望最大化算法(expectation-conditional-maximization algorithm,ECM)计算未知参数的最大似然估计值。进一步,基于似然比检验方法得到该比值的置信区间。通过计算机模拟,研究该统计指标的点估计与区间估计的统计性质。最后,将该方法应用于北美类风湿性关节炎疾病数据进行实例验证。结果:模拟结果显示,在各种模拟背景下,该统计量的置信区间的覆盖率均接近预设值,并且相应的似然比检验随着该统计量的真实值与原假设取值之间距离的增大而具有更高的检验效能。该统计量点估计的中位数与真实值之间的差距在一定程度上受到数据的缺失模式与基因型相对危险度的影响。另外,将本方法应用于北美类风湿性关节炎疾病数据时,发现存在偏倚失活的可疑位点rs2238907,但该结论仍需要通过生物学方法做进一步验证。结论:本文提出了XCI偏倚程度的统计度量指标,并且构造出该统计指标的点估计与置信区间。该方法既适用于完整的三联体家庭数据,也适用于父母基因型缺失的三联体家庭数据,能够有效地反映群体XCI偏倚程度。因此,值得将该方法推荐应用于真实数据分析,以探索存在偏倚失活的位点。