论文部分内容阅读
研究基因型和表型之间的关联是生物信息学的热点问题之一。复杂疾病是多个基因异常调控共同作用的结果,具有复杂的遗传模式。研究其致病的机理,不但要研究单个基因的功能和对生物系统的影响,还必须充分考虑基因之间复杂的互作关系。得益于高通量测序技术的快速发展,积累了海量的组学数据,使得系统研究关键基因、揭示复杂疾病的致病机制成为可能。然而,庞大的数据量、不确定的噪声数据以及复杂的数据结构给复杂疾病机理研究提出新的挑战。如何构建符合生物系统特性的模型,融合各种组学数据,提取符合生物特征的模式,成为计算生物信息学研究的主要目标。网络科学以复杂网络系统为研究对象,通过将复杂系统建模为复杂网络,为这一课题研究提供了基础理论和方法的支持。 在复杂疾病中,关键基因指决定疾病表型的过程中起关键作用的基因。其中最具特征性的两种关键基因是基因标记和驱动基因。基因标记是一个可致病或者疾病易感性的DNA序列,这个序列的异常能够标示生物过程、致病过程以及药理反应的状态。驱动基因是指在复杂疾病尤其是癌症的发生发展过程具有选择性优势的基因,此类基因的异常如突变、拷贝数变异以及异常性表观修饰推动癌细胞的形成,加速癌细胞的增殖乃至转移。识别这两类关键基因以及相关的基因模式对揭示复杂疾病的致病机制、诊断疾病程度、设计药物靶标以及治疗性干预都有着重要的指导意义。 本文围绕基因标记和驱动基因两个主题开展研究。通过在生物网络上集成多尺度的组学数据,提出了识别基因标记和驱动基因以及相关基因模式的算法,并应用于二型糖尿病以及癌症的研究中,主要内容及创新工作如下。 1.集成基因表达数据和蛋白质互作网络,充分考虑疾病相关的先验知识对结果的积极作用,设计算法识别具有网络特征的生物标记,分析了其在分类性能上的稳定性及在复杂疾病发生发展过程中发挥的作用。基于二型糖尿病骨骼肌获取的47个正常样本和45个二型糖尿病样本,利用算法识别出由32个基因组成的网络生物标记。实验分析表明该网络生物标记在骨骼肌表达数据以及和二型糖尿病相关的不同组织表达数据上分类性能稳定,生物意义明确。进一步结构分析表明二型糖尿病致病基因的模块性以及差异表达基因的组织特异性在网络标记稳定性和分类性能上发挥的作用。 2.集成DNA甲基化数据及基因表达数据,提出了一种基于网络模型的DNA甲基化致病模式的挖掘方法,发现驱动甲基化基因及由其介导的应激模块。基于非吸烟人群早期肺腺癌患者的DNA甲基化数据及相匹配的基因表达数据,分析了DNA甲基化异常和基因差异表达之间的潜在因果关系,识别出可能的135个甲基化驱动基因候选集,继而通过差异网络分析的方法识别出由 DNA甲基化异常介导的应激模块,并通过应激模块的差异度对候选基因排序。实验结果表明,算法能够有效识别和非吸烟早期肺腺癌有关的驱动甲基化基因以及其介导的应激模块。文献验证和功能富集分析显示排名前三十的基因不但具有明确的肺腺癌病理解释,其应激模块也富集了KEGG信号传导通路。 3.刻画了驱动基因优势选择的网络属性,定义了驱动基因的适应模式,集成基因表达数据、基因变异数据、拷贝数变异数据以及分子生物网络信息,提出了一种驱动基因适应模式的挖掘方法,构建驱动基因的适应网络,分析了适应模式下驱动基因在癌症过程中功能承续性,以及驱动基因优势选择的选择倾向性。采用三种分子网络作为背景网络,分别构建适应网络,分析三种适应网络重叠的显著性验证了方法的可靠性,分析了适应模式与共发生模式的一致性揭示了适应模式刻画功能关系的准确性,分析了适应模式在信号传导网络上的功能承续性。根据适应网络拓扑特性定义了适应核,识别出一组具有高入度、低出度的特征的驱动基因,说明驱动基因优势选择的倾向性。文献分析分析揭示了适应核在癌症发生发展过程中的功能重要性,以及作为潜在药物靶标的实用性。对结肠腺癌和黑色素瘤相关的高频变异的适应模式分析进一步揭示了适应模式在认知癌症分子机制方面的有效性。驱动基因间的适应性关系为癌症病理研究提供了一种新的思路和视角,对癌症病理研究、药物干预具有重要的参考价值。 4.定义了一种驱动基因变异协作模式,提出了一种驱动基因变异协作模式的挖掘算法,并应用于黑色素瘤。算法首先识别具有互斥性特征的基因集合,藉此构建了互斥性基因集合的共发生超网络,通过对超团的挖掘,识别出驱动基因的协作模式。和基于通路的变异模式分析比较,说明算法能有效降低识别基因共发生模式的假阳性率。分析了算法生成的协作模式对已知驱动基因的富集性,揭示了基因协作模式在癌症发生发展过程中的功能重要性。驱动基因变异协作模式提供了一种从基因模式到通路协作模式研究癌症病理的新思路。