论文部分内容阅读
近年来,伴随着大规模人群的全基因组关联分析(Genome-Wide Association Study,GWAS),许多与阿尔茨海默症(Alzheimer’s Disease,AD)相关的微效位点被发现。鉴于GWAS分析仅包含了常见变异,其发现的致病位点结合已知的致病基因只能部分解释AD的遗传率。对于上位性、结构变异及稀有变异等因素有待进一步的分析。本文着重于研究AD中的上位性,也就是遗传位点之间的相互作用,通过筛选与AD及AD病理性状相关的遗传互作,分析AD的发病机制及遗传机理。本研究发现遗传互作可以用来衡量AD的患病风险,并且其与传统多基因遗传风险打分(Polygenic Risk Score,PRS)相结合可以提升对AD风险的预测能力。本文提出了一种包含长程互作与短程互作的卷积神经网络(Convolutional Neural Network,CNN),与遗传风险打分、多层感知机及传统机器学习模型相比,其在AD风险预测上具有最佳的准确性。本文第一章全面概述了AD的遗传机制,以及遗传风险打分和深度学习模型在遗传风险预测中的应用。本文第二章使用全基因组互作分析发现与Aβ(β-Amyloid,Aβ)或tau蛋白相关的遗传互作。Aβ和tau蛋白的异常沉积是AD的两大病理表征。本研究通过ROSMAP数据集(N=2,090)发现AD病理相关的遗传互作,再以ADNI数据集(N=1,550)作为独立数据进行检验,总共得到了2,803对与tau蛋白相关的遗传互作,以及464对与Aβ相关的遗传互作。其中,与tau蛋白相关的基因主要富集了与轴突功能(轴突再生、轴突引导、轴突发育等)相关的生物学过程,与Aβ相关的基因则主要参与神经系统发育、细胞决定及阳离子跨膜转运等生物学过程。互作位点所对应的互作基因往往呈现出共表达的趋势,说明其生物学功能的实现需要一定程度的转录水平的协同。另外,通过分析病理相关的互作对海马体体积、内嗅皮层体积及大脑部分区域的各向异性分数的影响,本研究进一步解释了AD病理表征与脑部萎缩及白质丢失的生物学关联。本文第三章从三组db Ga P数据集(N=10,389)出发,以AD临床诊断作为表型,分析得到与AD相关的遗传互作,并定义了上位性风险打分(Epistasis Risk Score,ERS)。通过在ADNI及ROSMAP数据集上评估ERS对AD风险的预测能力,本研究发现ERS可以作为AD的风险指标,在相同的年龄下具有更高ERS的个体其AD发病风险越高。进一步将ERS与PRS相结合可以得到组合的风险打分(Combined Risk Score,CRS),CRS同时包含了位点间加性效应与位点间互作效应,能更好地预测疾病的风险。本文第四章构建了预测AD风险的深度学习模型。深度学习模型从原始基因型数据训练模型,不仅可以囊括单个位点的效应也可以直接反映位点之间的互作效应。本研究将三组db Ga P数据合并作为训练集(N=10,389),根据不同模型实际情况,通过五倍交叉验证或以ROSMAP作为验证数据集进行参数选择。统一以ADNI作为测试数据集,通过不同指标比较了PRS、CRS、XGBoost、CNN与多层感知机在AD风险预测上的优劣。CNN在各项评价指标上均表现最优。在CNN模型中的重要位点,其GWAS中的P值并不显著,说明这些位点可能通过与其它位点的互作影响疾病风险。综上,本研究采用系统遗传学的方法,深入研究了AD及AD病理相关的遗传互作,定义了反映遗传互作对疾病风险贡献的遗传风险打分——ERS,最后构建了能更好预测疾病风险的CNN模型。