论文部分内容阅读
生物医学工程技术的快速发展带来了大规模的以生物组学数据和医学影像数据为代表的生物医学大数据。将生物组学数据和医学影像数据这两种不同模态的数据融合起来分析,能够为复杂疾病的研究带来新的方法,为阐明复杂疾病的发病机理提供新的见解。本论文系统研究面向复杂疾病的生物组学数据与医学影像数据融合分析方法,并重点应用于阿尔兹海默病(Alzheimer’s disease,AD)及其临床前期轻度认知障碍(Mild Cognitive Impairment,MCI)的研究。通过分析遗传因素对复杂疾病定量表型(Quantitative Trait,QT)变化的影响,探索表型与单核苷酸多态性(Single Nucleotide Polymorphism,SNP)及基因表达之间的相互关系,从而更好的理解复杂疾病的生物学机制。同时挖掘分类、预测和预后的标志物,并建立应用于复杂疾病的预防、诊断和风险评估模型。本论文主要研究进展如下:(1)建立了一种基于模块QT的全基因组关联分析方法,可以同时挖掘QT关联的SNP及SNP相互作用对,通过该方法挖掘到与特定大脑结构区域相关的主效应遗传位点和交互效应位点。AD患者的脑萎缩首先出现在内侧颞叶边缘系统区域,然后随着疾病的发展扩散到其他区域。因此在大脑广泛范围内研究与QT变化相关的遗传因素,能够为理解AD的病理机制提供了新的分析角度。本研究对阿尔兹海默神经影像数据库(Alzheimer’s Disease Neuroimaging Initiative,ADNI)中的393例样本进行了遗传变异与皮层下结构QT的关联分析。依据所有样本皮层下结构体积的相关系数将大脑皮层下结构聚类为五个不同模块,以模块体积作为QT挖掘与对应模块相关的主效应位点和交互效应位点。功能注释表明不同模块间显著相关基因的功能没有交集,同时在不同模块中主效应位点以及与交互效应位点之间的相互作用可能通过神经炎症、细胞骨架维持、多巴胺代谢、胰岛素代谢等影响AD发病。(2)建立了一种大脑皮层下结构基因表达与QT的关联模式分析方法,挖掘出与QT稳定关联的基因,并基于关联模式提取可用于MCI预后分析的SNP集合。基因表达具有组织特异性,直接对MCI患者的大脑基因表达水平进行测量难以实现。本研究使用脑组织特异性的基因表达预测模型,结合ADNI数据库中MCI样本的全基因组SNP数据,预测大脑结构中特异表达的基因并与对应脑结构QT进行关联分析。挖掘出在不同脑结构差异表达的33个基因,并讨论了这些基因与MCI早期发生之间潜在的生物学联系。SNP分析结果表明,具有基因表达预测能力的SNP可能通过与转录因子的特异性结合或通过调节启动子和增强子的活性来影响其相应基因的表达。通过MCI的转化分析发现,QT和SNP可以作为MCI早期发生和发展相关的预测标志物。(3)提出了一种MCI分类模型,通过协同训练融合SNP特征和影像特征并整合无标记样本,能够预测MCI患者是否会在三年后转化为AD。MCI是AD的临床前期并具有异质性,MCI的准确分类对于AD的早期诊断和治疗至关重要。本论文构建的模型,能够融合提取自全基因组基因型数据的SNP特征和提取自结构核磁共振成像(structural Magnetic Resonance Imaging,s MRI)的QT特征,并可以通过整合无标记样本提高训练集样本量,进而提高MCI的分类准确率。我们使用独立验证集对模型进行评估。实验结果表明,我们建立的模型在MCI分类中分别获得了85.50%的准确率和0.825的AUC。通过与国际上类似的研究进行比较发现,尽管我们使用的是独立测试集,我们的模型的性能表现也要优于国际上绝大数研究。结果表明通过协同训练方法融合利用s MRI和SNP数据可以显著提高MCI分类的性能。(4)挖掘出COVID-19与AD的共性关键基因,探索了这两种疾病背后相互联系的生物学机制。COVID-19是一种由新型冠状病毒引起的急性呼吸系统疾病,大量临床研究发现新型冠状病毒能够入侵中枢神经系统,导致COVID-19患者大脑出现类似于AD的症状。本章研究,我们对COVID-19风险相关的脑特异性表达基因系统分析,同时分析上述基因中的AD共性表达基因,挖掘COVID-19与AD的共性关键基因及其对应的生物学机制。我们发现免疫应答与炎症中关键基因IL10RB具有COVID-19药物靶点的潜力,同时该基因还是COVID-19和AD两种疾病之间重要的共性表达基因。该研究为AD和COVID-19的治疗以及追踪疾病进展的生物标志物的开发提供数据支持。