论文部分内容阅读
可变剪接是真核生物的一种重要的基因调控机制。可变剪接能够使基因产生多个基因同源变体,进而能够编码多种蛋白质,极大的丰富了蛋白质的功能种类。研究证明,可变剪接与人类的多种疾病紧密相关,包括:脊髓性肌萎缩、色素性视网膜炎、Prader-Willi综合症和癌症相关的细胞迁移、细胞生长调控、荷尔蒙响应性、细胞死亡和化疗反应中基因表达变化等。因此,对可变剪接的研究将有助于研究者在本质上理解基因和蛋白质之间的调控关系,为癌症等重大疾病找到更好的治疗方法。可变剪接调控网络是基因调控网络的延伸,用于描述基因同源变体之间的相互调控关系。构建可变剪接调控网络是深入研究可变剪接调控机制的基础。本文对可变剪接调控网络的构建进行了以下研究:(1)基因表达数据的处理。即基于Tophat对RNA-seq数据做序列比对。序列比对是基因转录分析中的重要且关键的一步,它直接影响着后续的实验结果的准确性和精度。本文首先比较现有的几种读段定位软件工具的优缺点;然后依据本文数据的特点,提出一种定位软件选择准则,根据选择准则以及软件的比对结果,挑选最适合本文项目的定位软件;最后,本文利用选择的软件,通过读段匹配,将本文中RNA-seq序列数据定位到参考基因组序列中。实验结果表明,本文选用的Tophat软件不仅能够较好的匹配跨越结合区的读段、准确地发现外显子结合区以及新的剪接位点,而且具有速度快、适合于短读段数据匹配等优势,因此,本文选用的Tophat软件能更好的满足本文数据的特点。(2)基于Cufflinks的基因表达量估计。本文选择基于RPKM(Read Per Kb per Million mapped reads)的Cufflinks软件包计算基因的表达量。首先,利用Cufflinks对单个转录体进行组装,然后,融合多个单个的转录体并计算基因变体的表达量,最后,进行基因转录差异表达分析。实验结果表明,此方法能有效发现差异表达的基因,能够为预测可变剪接事件提供依据。(3)基于相关分析的基因可变剪接变体之间关系预测。相关分析方法是研究随机变量之间的是否存在相关关系的一种统计方法。首先,利用皮尔逊相关算法,计算基因变体之间的相关系数,当相关系数大于设定的阈值时在两个基因变体之间连接一条边,然后,运用皮尔逊相关分析找到基因两两同源变体之间存在的正、负相关关系,最后,根据皮尔逊相关分析的计算结果,预测基因变体之间的调控关系。(4)基于贝叶斯网络的基因可变剪接调控网络构建。通过皮尔逊相关分析找到相关系数值大于设定阈值的基因变体,然后对这些具有相关关系的基因异构体建立贝叶斯网络,进一步分析发现多个基因变体之间的调控关系。实验结果表明,本文提出的方法能够较好的模拟白色念珠菌在不同条件下的几个关键基因的调控作用关系,较为真实的反映白色念珠菌的面对不同环境应激下的可变剪接调控机制,为实验生物学家进一步研究该物种提供理论上的指导。