基于深度学习的全基因组关联分析方法对阿尔茨海默症的生物标记物检测研究

来源 :南方医科大学 | 被引量 : 0次 | 上传用户:qz824zane
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全基因组关联分析(Genome-wide Association Analysis,GWAS)常被用于阿尔茨海默症(Alzheimer’s Disease,AD)标记物的检测。在传统的GWAS中,通过分析AD的表型数据(phenotype)及其基因型数据(genotype)之间的联系,从而探测AD相关的标记物。这样的GWASs通常存在三个问题:1)忽略了疾病的标签信息。2)基因型数据和表型数据之间的映射关系难以用线性模型来拟合;3)超高维(~106)的基因型数据是GWAS研究中的大挑战,而现有的方法要么以时间为代价,要么舍弃部分基因型数据以降低计算复杂度。为了解决以上提出的问题,我们提出了一种基于深度学习的GWAS方法(deep-GWAS)对AD的生物标记物进行检测,先通过参数约简网络搭建表型数据和高维基因型数据的非线性拟合模型来逼近两者间的距离,再利用有监督学习构建统一的深度学习框架联合基因型数据和疾病的诊断信息,最终实现精确的AD相关生物标记物的检测以及临床诊断信息预测。本文中,我们对公开数据库ADNI里的数据集进行了实验评估。对数据进行相应质量筛选等预处理后,ADNI数据集中共有708例样本,包括198例正常人(Normal Control,NC)数据,152例轻度认知障碍未转化者(MCI non converter,MCInc),194 例轻度认知障碍转化者(MCI converter,MCIc),以及164例AD患者,实验中按照病程,708例样本被划分为2类,其中NC/MCInc为一类,记为0;AD/MCIc为一类,记为1。每个样本都包含了磁共振影像(Magnetic Resonance Imaging,MRI)和基因数据单核苷酸多态性(Single Nucleotide Polymorphism,SNP)。经过处理后,最后每例样本中都包括93维感兴趣区域(Region of Interest,ROI)的体积向量和501584维的SNP向量数据,其中SNP是由{0,1,2}组成的超高维离散数组。需要注意的是,本研究中我们的目的是检测AD相关的标记物,包括ROI标记物和SNP标记物。因此,随着deep-GWAS模型的建立,评估各模块有效性,最后根据我们的标记物检测方法,得到相应的标记物。ROI关于708例样本分2类的精度为0.820±0.025,ROI主要标记物包括右海马体,左海马体,右内嗅皮层,左杏仁核,右丘脑,右脑回,右穹窿部,右枕颞外侧回,内囊前肢,左颞中回等,SNP关于708例样本分2类的精度为0.70±0.15,检测的SNP标记物包括TOMM40,DDX60L,LHFPL2,PHACTR3,LOC105374660,FGD6,LOC112268261,NAALADL2,LOC105374660,LOC100506974,CACNB2等。这些标记物在以往的研究中多数被证明与AD相关,因此一定程度上证明了我们方法的有效性。在deep-GWAS中,我们的贡献总共有四点:1)实现了超高维SNP数据在GWAS研究中的非线性拟合;2)实现了超高维SNP数据到疾病诊断空间的直接映射;3)提供了网络交互在神经网络中的应用,该思路可以拓展至其他处理高维参数的研究;4)提供了将传统GWAS与深度学习相融合的方法思路,可应用于其他的传统方法;
其他文献
背景:乙型肝炎病毒(HBV)感染所致慢性乙型肝炎(CHB)以及相关的严重肝病一直是全球重大公共卫生健康问题。由于所有CHB患者都有进展至肝硬化及肝细胞癌的风险,因此,抑制HBV复
随着人们对矿产资源的过度开发利用,对矿区周边的生态环境造成了严重的破坏,特别是对土壤的重金属污染,直接影响当地的居民的身体健康。本文以谭家山煤矿主要的居民生活区(重点区)作为研究区,对研究区内As、Hg、Cd、Pb、Cr、Cu、Ni、Zn和Mn这9种重金属元素的地球化学特征及污染程度进行研究。通根据多元统计分析和空间分析以及主成分分析等分析方法,结合SPSS、Arcgis等软件,多角度地阐明了研究
贵州山区中小型水库工程是平衡各山区降雨分布不均,提升山区降雨利用率的重要水利工程之一,也是造成水土流失较为严重的生产建设项目之一。本研究以关岭自治县戈林水库工程为例,通过主体资料收集及实地踏勘,分析研究区工程布置及项目组成,划分防治分区,结合工程施工进度、施工工艺、扰动特点、水文气象、地形地貌、地质构造、土壤植被等情况,分析各防治分区的水土流失特征,计算建设期产生的水土流失量,明确产生严重水土流失
羊无浆体(Anaplasma ovis)感染绵羊、山羊和一些野生反刍动物,引起无浆体病。主要表面蛋白(Major Surface Proteins,MSPs)是其外膜蛋白,也是重要抗原。为分析其持续感染过程
背景与目的胃内容物含有胃酸、胃蛋白酶(pepsin)、胆汁酸和食糜等,反流至咽喉可造成粘膜损伤,胃蛋白酶是其中主要的损伤介质,但损伤机制仍未明确,细胞内活性氧簇(reactive oxygen species,ROS)水平增高和NOD样受体家族蛋白-3 型炎症小体(NOD-like receptor family protein-3 inflammasome,NLRP3)的激活可能与之相关。ROS
本论文研究了饲粮添加不同水平吡咯喹啉醌二钠(PQQ.Na2)对肉仔鸡生物学有效性及安全性的评价,具体分为以下两部分:试验一:吡咯喹啉醌二钠(PQQ.Na2)对肉仔鸡的生物学有效性评价本
作为构成汉语反问句的组成部分之一,是非问反问句不仅是我们在交际中经常会使用的表达方式,也是汉语中很有特点的一类疑问句式。由于反问句是运用肯定形式来表达否定意义,用否定形式来表达肯定意义,而且汉语疑问句的四种基本形式都可用于反问句,包括是非问反问句,这种形式和意义上的不对等更使得它成为对外汉语教学中的重点所在,也成为来华留学生习得汉语反问句的难点所在。第一章的绪论部分,介绍了本文的选题缘起和研究综述
雌性动物的生殖活动主要受下丘脑-垂体-卵巢轴(Hypothalamic-pituitary-ovary axis)的调控,促性腺激素释放激素(Gonadotropin-releasing hormone,GnRH)作为下丘脑-垂体-卵巢
随着社会关系网络等复杂网络的快速发展,复杂网络中的社区发现已经成为了一个研究热点。作为其中的一个分支,重叠社区发现更接近真实的网络结构,因而具有重要的研究和实践意
张闻天是伟大的无产阶级革命家,马克思主义理论家,一生著述丰富,涉及文学、哲学、经济、历史各个领域。张闻天虽然没有像历史学家一样投入历史研究,但这并不意味着他没有这方