论文部分内容阅读
混合模型是用来描述一个大群体中若干个子群体的统计模型.有限混合模型不仅在理论研究上是统计学家们研究的重点问题,而且在实际中也有非常广泛的应用.在理论上,由于有限混合模型不满足经典统计学中的正则性,给研究者带来了巨大的困难,许多经典的统计结论将不再适用.特别是当混合模型退化到单一成分模型时,参数不可识别,似然比检验(LRT)统计量的极限分布也不是经典的卡方分布.针对有限混合模型非正则的性质,学者们不断提出新的方法来解决,其中主要包括对参数进行限制,对参数做惩罚以及基于EM算法来构造新的检验统计量等方法.本文将提出研究混合模型的一个新思路,即带有辅助信息的混合模型.研究表明,额外的数据信息能够使得有限混合模型中的参数可识别,且参数估计也有相合性,参数估计的收敛速度也会提高,似然比检验统计量也将会有简单而且容易使用的极限分布.有了辅助信息,假设检验的检验功效也会大大提高.在实际中,混合模型在生物遗传学中的应用尤为重要.基因组印记是一个重要的表观遗传现象,与许多复杂疾病有着密切的关系.识别印记基因对研究复杂疾病的病因有很大的帮助.以往的统计方法大都是基于家系数据或者家庭数据而研究的.然而对于有些疾病,父母以及家庭成员的信息难以获得.本文将主要考虑群体数据下的印记基因识别问题.根据印记基因的特点,来自父母双方的等位基因有着不同的表达特性.由于对杂合子样本,不能确定哪个等位基因来自父亲,哪个来自母亲.对杂合子样本的表达值将符合一个两成分的混合模型.而纯合子样本的两个等位基因相同,相应的表达值将符合单成分模型.印记基因识别的统计问题是要识别来自父母双方等位基因的表达值是否有差异.而额外的纯合子样本对杂合子混合模型的推断能够提供非常有用的信息.本文将以印记基因的识别作为基本问题,研究了各种辅助信息下混合模型的理论性质及其应用.首先考虑了群体数据中纯合子样本对混合模型的辅助信息.根据印记基因的特点建立了相应的混合正态模型,其中考虑了等方差和异方差两种情形.对等方差的情形,利用纯合子样本的辅助信息,证明了参数极大似然估计(MLE)的相合性,推导出LRT统计量的极限分布为0.5χ2+0.5χ2.对异方差的情形,对方差参数和混合比例参数分别做了惩罚以保证似然有界和参数的可识别性.同样利用纯合子样本的辅助信息,证明了基于惩罚似然的参数估计的相合性,以及推导出此时LRT统计量的极限分布为χ23.另外,运用这些结论分析了精神分裂症数据中印记基因对疾病的影响.其次对群体数据中带有辅助信息的混合模型,提出了相应的EM–检验方法.在这部分的研究中将辅助信息与EM–检验方法的相结合,提出了新的EM–检验统计量.其中在构造EM–检验统计量时对π=0.5的情况作了特殊考虑,并推导出了构造的检验统计量的极限分布.最后考虑了核心家庭数据中的混合模型.利用父母基因型的信息分别提出了等方差以及异方差的混合模型.由于有父母的数据,辅助信息将更充足.只有当家庭中孩子,父母双方都为杂合子时样本的表达值才符合两成分的混合模型.研究表明,充足的辅助信息足以使参数的MLE有相合性,使得均值参数和方差参数都有Op(n1/2)的收敛速度,并且似然比检验统计量有与经典统计学中一致的卡方极限分布.本文的研究在统计理论上和实际应用方面都有所突破.在统计理论方面为混合模型的研究提供了新的思路.利用辅助信息不仅在理论上使似然比检验统计量有简单且易使用的极限分布,而且假设检验的功效还会大大提高.在应用方面,较好的解决了对群体数据印记基因的识别问题.