Network-based key gene discovery and pattern recognition in complex diseases

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:qq330525312
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究基因型和表型之间的关联是生物信息学的热点问题之一。复杂疾病是多个基因异常调控共同作用的结果,具有复杂的遗传模式。研究其致病的机理,不但要研究单个基因的功能和对生物系统的影响,还必须充分考虑基因之间复杂的互作关系。得益于高通量测序技术的快速发展,积累了海量的组学数据,使得系统研究关键基因、揭示复杂疾病的致病机制成为可能。然而,庞大的数据量、不确定的噪声数据以及复杂的数据结构给复杂疾病机理研究提出新的挑战。如何构建符合生物系统特性的模型,融合各种组学数据,提取符合生物特征的模式,成为计算生物信息学研究的主要目标。网络科学以复杂网络系统为研究对象,通过将复杂系统建模为复杂网络,为这一课题研究提供了基础理论和方法的支持。  在复杂疾病中,关键基因指决定疾病表型的过程中起关键作用的基因。其中最具特征性的两种关键基因是基因标记和驱动基因。基因标记是一个可致病或者疾病易感性的DNA序列,这个序列的异常能够标示生物过程、致病过程以及药理反应的状态。驱动基因是指在复杂疾病尤其是癌症的发生发展过程具有选择性优势的基因,此类基因的异常如突变、拷贝数变异以及异常性表观修饰推动癌细胞的形成,加速癌细胞的增殖乃至转移。识别这两类关键基因以及相关的基因模式对揭示复杂疾病的致病机制、诊断疾病程度、设计药物靶标以及治疗性干预都有着重要的指导意义。  本文围绕基因标记和驱动基因两个主题开展研究。通过在生物网络上集成多尺度的组学数据,提出了识别基因标记和驱动基因以及相关基因模式的算法,并应用于二型糖尿病以及癌症的研究中,主要内容及创新工作如下。  1.集成基因表达数据和蛋白质互作网络,充分考虑疾病相关的先验知识对结果的积极作用,设计算法识别具有网络特征的生物标记,分析了其在分类性能上的稳定性及在复杂疾病发生发展过程中发挥的作用。基于二型糖尿病骨骼肌获取的47个正常样本和45个二型糖尿病样本,利用算法识别出由32个基因组成的网络生物标记。实验分析表明该网络生物标记在骨骼肌表达数据以及和二型糖尿病相关的不同组织表达数据上分类性能稳定,生物意义明确。进一步结构分析表明二型糖尿病致病基因的模块性以及差异表达基因的组织特异性在网络标记稳定性和分类性能上发挥的作用。  2.集成DNA甲基化数据及基因表达数据,提出了一种基于网络模型的DNA甲基化致病模式的挖掘方法,发现驱动甲基化基因及由其介导的应激模块。基于非吸烟人群早期肺腺癌患者的DNA甲基化数据及相匹配的基因表达数据,分析了DNA甲基化异常和基因差异表达之间的潜在因果关系,识别出可能的135个甲基化驱动基因候选集,继而通过差异网络分析的方法识别出由 DNA甲基化异常介导的应激模块,并通过应激模块的差异度对候选基因排序。实验结果表明,算法能够有效识别和非吸烟早期肺腺癌有关的驱动甲基化基因以及其介导的应激模块。文献验证和功能富集分析显示排名前三十的基因不但具有明确的肺腺癌病理解释,其应激模块也富集了KEGG信号传导通路。  3.刻画了驱动基因优势选择的网络属性,定义了驱动基因的适应模式,集成基因表达数据、基因变异数据、拷贝数变异数据以及分子生物网络信息,提出了一种驱动基因适应模式的挖掘方法,构建驱动基因的适应网络,分析了适应模式下驱动基因在癌症过程中功能承续性,以及驱动基因优势选择的选择倾向性。采用三种分子网络作为背景网络,分别构建适应网络,分析三种适应网络重叠的显著性验证了方法的可靠性,分析了适应模式与共发生模式的一致性揭示了适应模式刻画功能关系的准确性,分析了适应模式在信号传导网络上的功能承续性。根据适应网络拓扑特性定义了适应核,识别出一组具有高入度、低出度的特征的驱动基因,说明驱动基因优势选择的倾向性。文献分析分析揭示了适应核在癌症发生发展过程中的功能重要性,以及作为潜在药物靶标的实用性。对结肠腺癌和黑色素瘤相关的高频变异的适应模式分析进一步揭示了适应模式在认知癌症分子机制方面的有效性。驱动基因间的适应性关系为癌症病理研究提供了一种新的思路和视角,对癌症病理研究、药物干预具有重要的参考价值。  4.定义了一种驱动基因变异协作模式,提出了一种驱动基因变异协作模式的挖掘算法,并应用于黑色素瘤。算法首先识别具有互斥性特征的基因集合,藉此构建了互斥性基因集合的共发生超网络,通过对超团的挖掘,识别出驱动基因的协作模式。和基于通路的变异模式分析比较,说明算法能有效降低识别基因共发生模式的假阳性率。分析了算法生成的协作模式对已知驱动基因的富集性,揭示了基因协作模式在癌症发生发展过程中的功能重要性。驱动基因变异协作模式提供了一种从基因模式到通路协作模式研究癌症病理的新思路。
其他文献
基于信息技术电子通信网络的高速发展,使得通过各种通信媒体和网络来实现远程教育具备了可能性。远程教育平台以学生为中心,向学生提供专业知识、专业素养等全方位的支持。通过
信息抽取作为在海量数据中,快速有效的寻找有价值信息的重要手段,是自然语言处理领域的热点课题。国外在上世纪末开始了相关方面的研究,发展到现在已经取得了很多成果。由于
离群检测是数据挖掘的重要任务之一,它的主要目标是从数据集中发现与大部分其他数据点有显著区别的样本。这些数据点往往蕴含着重要的信息,有很重要的使用价值和广阔的应用前
专利文献包含重要的研究成果,内容广泛新颖,技术细节描述详细,是世界上最新技术信息的重要来源。专利文献的有效分析对提高企业市场竞争力至关重要。本文在分析国内外现有专
为了获得可靠的、可信的、高质量的服务,对服务实施充分的、完全的测试是至关重要的。总体上看,目前的Web服务测试尚处在初级的阶段,研究人员主要通过传统的技术,在原有的测
随着Internet/Web 技术的快速普及和迅猛发展,Web 上信息总量日益膨胀。如何将用户所需信息从这个信息海洋中找到,并按照相关度从大到小排列并返回给用户变得日益迫切,搜索引擎
网格是一个集成的计算与资源环境,它能充分吸纳各种计算资源,并将它们转化成一种随处可得的、可靠的、标准的同时还是经济的计算能力,实现资源的全面共享。网格任务调度是网
乘务员排班优化问题广泛存在于航空、铁路及城市交通等多个领域,如何合理地进行乘务排班以减少运营中乘务费用支出和提高运营效益一直是交通运输公司面临的重要问题。对我国快
随着网络的普及,互联网应用正逐渐渗透到经济,社会,生活的各个领域,特别是搜索引擎技术的出现,促进了信息的整合。垂直搜索是针对某一个固定行业的专业搜索引擎,是搜索引擎的
随着地球资源的日益贫乏,太阳能作为一种“取之不尽,用之不竭”的安全、洁净的新能源,正在被更广泛地利用。本文为了开发出一套太阳能发电控制系统,使太阳能电池板自动跟着太