带有辅助信息的混合模型及其应用

来源 :东北师范大学 | 被引量 : 3次 | 上传用户:cheerlucky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
混合模型是用来描述一个大群体中若干个子群体的统计模型.有限混合模型不仅在理论研究上是统计学家们研究的重点问题,而且在实际中也有非常广泛的应用.在理论上,由于有限混合模型不满足经典统计学中的正则性,给研究者带来了巨大的困难,许多经典的统计结论将不再适用.特别是当混合模型退化到单一成分模型时,参数不可识别,似然比检验(LRT)统计量的极限分布也不是经典的卡方分布.针对有限混合模型非正则的性质,学者们不断提出新的方法来解决,其中主要包括对参数进行限制,对参数做惩罚以及基于EM算法来构造新的检验统计量等方法.本文将提出研究混合模型的一个新思路,即带有辅助信息的混合模型.研究表明,额外的数据信息能够使得有限混合模型中的参数可识别,且参数估计也有相合性,参数估计的收敛速度也会提高,似然比检验统计量也将会有简单而且容易使用的极限分布.有了辅助信息,假设检验的检验功效也会大大提高.在实际中,混合模型在生物遗传学中的应用尤为重要.基因组印记是一个重要的表观遗传现象,与许多复杂疾病有着密切的关系.识别印记基因对研究复杂疾病的病因有很大的帮助.以往的统计方法大都是基于家系数据或者家庭数据而研究的.然而对于有些疾病,父母以及家庭成员的信息难以获得.本文将主要考虑群体数据下的印记基因识别问题.根据印记基因的特点,来自父母双方的等位基因有着不同的表达特性.由于对杂合子样本,不能确定哪个等位基因来自父亲,哪个来自母亲.对杂合子样本的表达值将符合一个两成分的混合模型.而纯合子样本的两个等位基因相同,相应的表达值将符合单成分模型.印记基因识别的统计问题是要识别来自父母双方等位基因的表达值是否有差异.而额外的纯合子样本对杂合子混合模型的推断能够提供非常有用的信息.本文将以印记基因的识别作为基本问题,研究了各种辅助信息下混合模型的理论性质及其应用.首先考虑了群体数据中纯合子样本对混合模型的辅助信息.根据印记基因的特点建立了相应的混合正态模型,其中考虑了等方差和异方差两种情形.对等方差的情形,利用纯合子样本的辅助信息,证明了参数极大似然估计(MLE)的相合性,推导出LRT统计量的极限分布为0.5χ2+0.5χ2.对异方差的情形,对方差参数和混合比例参数分别做了惩罚以保证似然有界和参数的可识别性.同样利用纯合子样本的辅助信息,证明了基于惩罚似然的参数估计的相合性,以及推导出此时LRT统计量的极限分布为χ23.另外,运用这些结论分析了精神分裂症数据中印记基因对疾病的影响.其次对群体数据中带有辅助信息的混合模型,提出了相应的EM–检验方法.在这部分的研究中将辅助信息与EM–检验方法的相结合,提出了新的EM–检验统计量.其中在构造EM–检验统计量时对π=0.5的情况作了特殊考虑,并推导出了构造的检验统计量的极限分布.最后考虑了核心家庭数据中的混合模型.利用父母基因型的信息分别提出了等方差以及异方差的混合模型.由于有父母的数据,辅助信息将更充足.只有当家庭中孩子,父母双方都为杂合子时样本的表达值才符合两成分的混合模型.研究表明,充足的辅助信息足以使参数的MLE有相合性,使得均值参数和方差参数都有Op(n1/2)的收敛速度,并且似然比检验统计量有与经典统计学中一致的卡方极限分布.本文的研究在统计理论上和实际应用方面都有所突破.在统计理论方面为混合模型的研究提供了新的思路.利用辅助信息不仅在理论上使似然比检验统计量有简单且易使用的极限分布,而且假设检验的功效还会大大提高.在应用方面,较好的解决了对群体数据印记基因的识别问题.
其他文献
摘 要TPACK理论下综合实践活动教师培训课程体系,基于TPACK理论,立足《中小学教师专业发展标准及指导》和教师实际需求,采用“必修 差异 选修”模式,以信息技术为支撑,为各层次综合实践活动教师提供菜单式、模块式及进阶式课程,更好地体现课程的针对性、系统性和持续性。  关键词TPACK理论 综合实践活动 教师培训课程  《教师教育振兴行动计划(2018—2022年)》中明确提出“互联网 教师教
患者,女,27岁。主因间断性抽搐13年,头痛5d入院。查体未见明显阳性体征。头颅MRI示:左颞叶可见1类圆形等T1短T2异常信号影,大小约2cm×1.8cm;并呈环形强化。
龋病是影响儿童口腔健康最常见的疾病之一。世界卫生组织口腔流行病学资料表明世界不同地区龋病患病率有很大差别,为了解石家庄农村儿童患龋情况,我们2006年3月至2008年6月对石
寺庙园林植物景观在园林空间的组织、植物配置上,具有独特的审美品质和深厚的宗教文化及传统园林艺术内涵。本文以普陀山寺庙植物景观为研究对象,在实地调查和分析文献资料的
肺血栓栓塞症(PTE)是来自静脉系统或右心的血栓阻塞肺动脉或其分支所致的疾病,以肺循环和呼吸功能障碍为其临床和病理生理特征,占肺栓塞(PE)的绝大多数(约90%以上)。其临床表
期刊
传染性单核细胞增多症是一种由人类疱疹病毒(EB病毒)引起的单核-巨噬系统急性增生性疾病,小儿期常见。本文将我科2004年4月至2007年10月收治的23例传染性单核细胞增多症临床分
笔者随中国红十字会组织的赴日血液工作考查团,走访了日本赤十字社,考查东京都等四所赤十字血液中心和福知山日本赤十字社血液管理(NAT检测)中心,参观多处献血屋及采血车,近距离地
本文以2013-2019年我国上市流通企业为研究对象,分析了供应链集中度与流通企业创新投入之间的关系,并且基于调节效应模型实证检验了供应链集中度是否可以调节融资约束、现金
慢性肺心病心力衰竭是呼吸内科常见病,也是导致患者死亡的主要原因之一。我科2005年1月至2007年12月对89例住院的慢性肺心病心力衰竭(心衰)患者应用个体化联合用药、取得较满意