单倍型的分布估计和关联分析

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:shengyan1205
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单倍型是一种能够反映不同位点间连锁不平衡信息的等位基因遗传序列,基于相型信息缺失的基因型数据估计单倍型分布的统计算法已被广泛研究。作为一种相对于个体基因定型设计而言效率高成本低的实验设计方法,混合DNA设计已成为全基因组关联分析中初步甄选标记位点的常用手段。在一些研究中,甚至将数以百计的实验个体血样混合在一起进行基因定型以显著降低实验费用。然而,由于计算量的限制,文献中还没有能够应用于这类大型混合DNA设计的单倍型分布估计算法。本文主要研究能够应用于混合基因池任意大的混合DNA设计中的兼有统计效率和计算效率的单倍型分布估计算法,同时在匹配病例—对照设计中研究单倍型—疾病关联分析方法。通过假定哈代—温伯格平衡律成立和等位基因频率具有渐近正态性,本文引入了被称为重要性因子的常量来分别度量每种单倍型在对数似然函数的条件期望中的贡献大小,从而该条件期望在期望—最大化算法(EM算法)的期望步中,可以表示成混合基因型数据前两阶矩的线性约束下的极大熵模型。这种被称为PoooL的算法可以采用改进的迭代标度算法高效地求解,并且能够在理论上保证获得可行解空间上的全局最优解。模拟研究表明,PoooL可以从混合基因池中包含成百上千个实验个体的混合基因型数据中精确地估计单倍型分布,甚至在混合基因池中仅包含一或两个实验个体时仍然能够正常工作。PoooL的计算复杂度与混合基因池的大小无关,因此,与文献中的现有方法仅能计算少量个体混合数据相比,混合基因池较大的混合DNA设计的分析效率得到了显著的提高。模拟研究还表明,PoooL在存在基因定型错误和群体分层时的表现比较稳健。虽然PoooL在大型混合DNA设计中表现良好,但由于等位基因频率和连锁不平衡系数的估计量之间存在相关,使得基于矩估计的PoooL算法的解不是极大似然估计,从而造成统计效率的损失。本文进而通过正态密度比近似,降低了EM算法中期望步的计算复杂度,由此得到了能够在渐近意义下获得单倍型分布的极大似然估计的近似EM算法。由于仅仅将上一步的迭代解代入完全样本似然即可完成迭代更新,因此该近似EM算法相比于PoooL更容易编程实现。通过引入近亲系数,本文还将该算法拓展到哈代—温伯格平衡律失效的情形中去,并可以获得渐近意义下具有最优统计效率的近似极大似然估计。当哈代—温伯格平衡律成立时,模拟研究表明近似EM算法能够获得比PoooL更小的估计偏差和标准差。进一步的模拟显示不考虑哈代—温伯格平衡律失效造成的影响会导致估计偏差增大。引入了近亲系数的近似EM算法能够有效地降低估计偏差并获得更小的均方误差。考虑到群体中通常只包含少数几种单倍型,本文通过在混合基因型数据的前两阶矩和单倍型分布间的线性约束下极大化单倍型分布的稀疏性度量,提出了一种统一的算法—CSPOOL。该算法与压缩感知理论中的典型方法存在紧密联系。压缩感知理论的主要目标是设计有效的解码算法从欠定线性采样中精确地重建稀疏原始信号。由于个体基因定型设计可以看成是混合基因池中仅包含一位实验个体时的特殊的混合DNA设计,且CSPOOL的性能仅仅依赖于基因型数据的前两阶矩的估计精度,从而CSPOOL可以同时应用于混合DNA设计和个体基因定型设计。此外,通过引入近亲系数,CSPOOL还能够应用于哈代—温伯格平衡律失效时的情形。在个体基因定型设计中,当样本量相对较小时,模拟研究显示CSPOOL能够在均方误差和有效累积概率方面一致地优于金标准算法PHASE。当样本量较大时,CSPOOL可以获得与PHASE相似的精确估计,同时CSPOOL的计算复杂度与样本量无关,而PHASE的计算复杂度随着样本量的增加而快速增大。在混合DNA设计中,当样本量较大时,CSPOOL的性能优于PoooL而与近似EM算法的性能相当。当样本量相对较小时,由于基因型数据的连锁不平衡系数矩阵在这时通常是病态的,PoooL和近似EM算法都会失效,而CSPOOL仍然能够正常工作,并且模拟结果显示混合DNA设计能够在实验成本和统计效率两个方面均优于个体基因定型设计。通过采用logistic回归模型刻画单倍型与疾病的关联性,本文提出了一种匹配病例—对照设计中的基于回溯似然的单倍型—疾病关联分析方法NHAP-F。NHAP-F适用于多种遗传机制,也可以用于检验单倍型与环境因子间的交互效应。由于近亲系数的引入,模拟研究表明,对于具有中等或较低发病率的遗传疾病,NHAP-F在单倍型分布偏离哈代—温伯格平衡律时较为稳健,同时NHAP-F能够获得近似无偏的参数估计,由此构造的检验,其功效一致高于文献中的相关方法。
其他文献
文章根据中医药学的经典理论原则,对人卫版"十二五"教材《中医妇科学》的几个错误理论进行了商榷和质疑。首先,该教材对"胞宫的基本概念"做了错误论述;其二,该教材在已确定"
以聚乙二醇单甲醚-400与甲基丙烯酸直接酯化反应,以甲苯为带水剂、对甲苯磺酸为催化剂,合成甲丙烯酸聚乙二醇单酯。通过实验确定酯化反应的最佳条件:甲基丙烯酸与聚乙二醇单甲醚
一位美国旅行家说过:“年轻时别去阿拉斯加,因为那里风景优美得令人不想走。年老时一定要去阿拉斯加,没看到那里风景会令人终生遗憾。”阿拉斯加位于北美洲西北角,东与加拿大
文章介绍了一种利用摆式漏斗代替可逆短胶带输送机的工艺流程优化应用实践。通过该设计漏斗可实现烧结返矿系统工艺流程优化,同时达到节约备件材料消耗、减少维护成本、提高
弹载数据链是武器弹药深入作战体系的重要手段。介绍了美军战术数据链在武器弹药上的应用与计划。概括了弹载数据链的发展趋势和技术特点,最后对当前弹载数据链装备发展需深
研读《未刻本叶氏医案》中治咳案,叶氏治咳不囿于治肺一途,或理脾(胃 )、或补肾.治肺:风寒犯肺,散寒肃肺,常用桂枝汤加减;风热犯肺,辛凉解散,喜用辛 凉轻剂.治脾(胃):阴伤肺燥,甘凉
计算机科学与技术凭借其优势不断渗入至各行业的生产中,并已成为人们生活中不可或缺的一部分。因此,人们较为关注计算机科学与技术在现如今生活中的应用,并期待计算机科学与