论文部分内容阅读
转录暂停是基因转录过程中的重要限速步骤,常发生在转录延伸开始后25-50nt的位置。有研究指出,DNA序列特征和转录因子的反式作用是决定转录暂停的两个主要因素,暂停和暂停释放的调控在细胞分化发育过程的基因表达中发挥重要作用,转录暂停的异常释放与癌症发生相关。目前对于转录暂停的具体机制和调控信号尚未有完整的了解,对全基因组尺度转录暂停的发生规律以及与基因表达谱的关系也不甚清楚。本论文利用GRO-seq转录组数据研究分析了多种细胞系全基因组范围转录暂停基因的分布特征并建立了暂停基因的计算预测方法,为深入研究基因转录暂停在各种生物过程及基因表达调控中的作用提供了基础和方法。本论文完成了如下几方面的研究内容:首先,通过整合已有的软件、方法和脚本,搭建了基于GRO-seq数据的转录暂停基因鉴定分析流程,gro PIA(Identification and analysis of transcriptional pause genes based on GRO-seq data)。该流程适用于LINUX系统,包括数据预处理、转录暂停基因的鉴定及下游的基因富集分析等模块,在乳腺癌细胞系和宫颈癌细胞系中验证了该流程的有效性。利用gro PIA对六种乳腺癌细胞系和人乳腺上皮细胞系MCF10A中的转录暂停基因进行深度挖掘,鉴定了暂停偏好性基因。发现乳腺癌细胞系中有更多基因发生了转录暂停,癌细胞中平均33.7%的蛋白质编码基因发生暂停,MCF10A中12.8%的蛋白质编码基因发生转录暂停。通过GO富集发现暂停基因大多参与了核糖核蛋白复合物发生、核糖体发生、r RNA处理和代谢、RNA剪接等生物学过程。通过分析基因暂停程度与表达量关系,发现两者呈现负相关。为了获得暂停基因特征序列信号,本文还利用最大期望算法,提取到三个转录暂停基因序列中富集的motif,它们分别是KLF5、NRF1、ELK4转录因子的结合位点。上述转录暂停基因分析流程在实际使用中的局限性在于目前GRO-seq数据来源比较有限。考虑到基因组数据和Ch IP-seq数据来源更为丰富,本文开发了利用基因组和Ch IP-seq数据的暂停基因预测方法,tc PIC(Classifier to identify transcriptional pause genes based on trans-acting factors and cis-acting elements)。首先利用gro PIA鉴定了人类hela细胞系中的转录暂停基因和转录暂停相关motif,然后利用负延伸因子NELF和DSIF的Ch IP-seq数据,将motif频数、匹配分数和转录因子结合位置的测序丰度作为特征,分别构建了逻辑回归和支持向量机的机器学习分类模型,对细胞系中的基因转录暂停状态进行分类。在仅使用motif特征的情况下,分别获得了75.8%、76.8%的准确率;在仅使用转录因子特征的情况下,准确率分别达到了86.1%,86.5%;在联合使用motif和转录因子结合特征的情况下,准确率分别达到87.5%、88.1%。所以,在实际转录暂停研究中,可视数据拥有的情况选择gro PIA或者tc PIC进行转录暂停基因的鉴定和分析。