论文部分内容阅读
当今,癌症被认为是死亡率最高的人类疾病之一。研究者们在研究癌症临床诊断之前必须要先理解癌症的分子机理。高通量测序技术包括第二代测序技术和质谱分析技术被广阔的应用于解决各种生物问题,尤其是人类疾病领域。比如国际癌症基因组联盟(ICGC)和美国政府发起的癌症和肿瘤基因图谱(TCGA)就是影响甚大的两个癌症基因组图谱项目,这些大规模的基因组学项目为多种癌症类型提供了大量的基因组学、表观组学和蛋白质组学等数据。如何从这些数据中找到促进癌症增殖过程的突变基因和突变通路仍然是一个很大的挑战。在已有的研究中,原始的筛选方法是在大样本数据中找到那些突变率显著很高的基因作为候选基因,这样的筛选不能解决癌症通路中基因之间强异质性的问题。研究者们也逐渐意识到对于多组学数据的研究是非常必要的。如在转录组水平上,检测已知小RNA和预测新的小RNA都可以通过小RNA测序技术实现,这些小RNA不但可以作为诊断疾病的分子标志物,在用于研究疾病治疗手段也有很大潜力。在蛋白质组水平上,如与疾病相关的特定蛋白质可能通过蛋白质组学测定,测定后的数据可以作为疾病临床分期分型的重要参数。在本文中,第一章介绍了癌症驱动基因与通路识别的研究意义以及国内外研究的进展。第二章对该领域经典的方法以及常用的数据集做了一个简要的概括与汇总。在第三章中,根据突变通路符合两种特性—高覆盖性、强异质性,尝试使用一种基于遗传算法(GA)的多目标优化模型用于解决“最大权重子矩阵”问题,多目标优化模型被设计用于权衡两个特性以用来辨别癌症过程中期功能性作用的突变通路。为了提高算法的实用性,使得到的结果更加符合生物意义,在多目标优化模型的基础上继续提出了一种结合基因表达数据和突变数据的整合模型,通过在生物数据的实验对比算法做出优化后,提高了算法性能并对识别结果做生物学分析。第四章基于多组学数据的结合,在分子网络框架中,改进了DriverNet算法,通过评估突变在mRNA表达网络上的影响来识别突变基因。通过引入正常样本的基因表达数据,使得对差异表达的基因筛选更加精确。同时依据基因长度影响基因突变率的生物现象,使用广义加性模型过滤掉那些可能因为基因长度过长从而导致的随机突变,对突变数据进行筛选,可以去除生物网络数据中的冗余信息的目的。与DriverNet算法对比实验也证明了算法改进的有效性。考虑到基因长度过长可能导致随机突变,对突变数据进行筛选,可以达到去除生物网络数据中的冗余信息的目的。生物数据上的实验结果也证明了算法改进的有效性。