基于GRO-seq转录组数据的转录暂停研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:lulu1984129
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
转录暂停是基因转录过程中的重要限速步骤,常发生在转录延伸开始后25-50nt的位置。有研究指出,DNA序列特征和转录因子的反式作用是决定转录暂停的两个主要因素,暂停和暂停释放的调控在细胞分化发育过程的基因表达中发挥重要作用,转录暂停的异常释放与癌症发生相关。目前对于转录暂停的具体机制和调控信号尚未有完整的了解,对全基因组尺度转录暂停的发生规律以及与基因表达谱的关系也不甚清楚。本论文利用GRO-seq转录组数据研究分析了多种细胞系全基因组范围转录暂停基因的分布特征并建立了暂停基因的计算预测方法,为深入研究基因转录暂停在各种生物过程及基因表达调控中的作用提供了基础和方法。本论文完成了如下几方面的研究内容:首先,通过整合已有的软件、方法和脚本,搭建了基于GRO-seq数据的转录暂停基因鉴定分析流程,gro PIA(Identification and analysis of transcriptional pause genes based on GRO-seq data)。该流程适用于LINUX系统,包括数据预处理、转录暂停基因的鉴定及下游的基因富集分析等模块,在乳腺癌细胞系和宫颈癌细胞系中验证了该流程的有效性。利用gro PIA对六种乳腺癌细胞系和人乳腺上皮细胞系MCF10A中的转录暂停基因进行深度挖掘,鉴定了暂停偏好性基因。发现乳腺癌细胞系中有更多基因发生了转录暂停,癌细胞中平均33.7%的蛋白质编码基因发生暂停,MCF10A中12.8%的蛋白质编码基因发生转录暂停。通过GO富集发现暂停基因大多参与了核糖核蛋白复合物发生、核糖体发生、r RNA处理和代谢、RNA剪接等生物学过程。通过分析基因暂停程度与表达量关系,发现两者呈现负相关。为了获得暂停基因特征序列信号,本文还利用最大期望算法,提取到三个转录暂停基因序列中富集的motif,它们分别是KLF5、NRF1、ELK4转录因子的结合位点。上述转录暂停基因分析流程在实际使用中的局限性在于目前GRO-seq数据来源比较有限。考虑到基因组数据和Ch IP-seq数据来源更为丰富,本文开发了利用基因组和Ch IP-seq数据的暂停基因预测方法,tc PIC(Classifier to identify transcriptional pause genes based on trans-acting factors and cis-acting elements)。首先利用gro PIA鉴定了人类hela细胞系中的转录暂停基因和转录暂停相关motif,然后利用负延伸因子NELF和DSIF的Ch IP-seq数据,将motif频数、匹配分数和转录因子结合位置的测序丰度作为特征,分别构建了逻辑回归和支持向量机的机器学习分类模型,对细胞系中的基因转录暂停状态进行分类。在仅使用motif特征的情况下,分别获得了75.8%、76.8%的准确率;在仅使用转录因子特征的情况下,准确率分别达到了86.1%,86.5%;在联合使用motif和转录因子结合特征的情况下,准确率分别达到87.5%、88.1%。所以,在实际转录暂停研究中,可视数据拥有的情况选择gro PIA或者tc PIC进行转录暂停基因的鉴定和分析。
其他文献
学位
学位
流体在自然界中无处不在,对地球圈层内的物质循环和关键金属元素的活化和富集有着重要影响。对流体中组分的地球化学行为及热动力学性质的认识是研究热液成矿过程的基础。随着新能源汽车和移动设备的兴起,锂金属逐渐成为一种关乎国家未来发展的战略金属。近年来,越来越多的研究指出锂矿化与热液成矿过程密切相关。热液流体中富含的阴离子配体对于地质体中金属元素的萃取,迁移和富集过程至关重要。传统地球化学实验很难获取流体组
湖泊富营养化带来的蓝藻水华问题,是当下湖泊生态治理重点。太湖和巢湖是我国典型的两大富营养化淡水湖泊,其蓝藻水华暴发机制也是很多相关学者研究的重难点,其中包括从水温、营养盐、水力工程等角度探究其成因,但目前仍没有完全阐明。蓝藻群体附生细菌是蓝藻水华发生发展中必不可少的物质循环者、能量转化者和信息传递者,与蓝藻关系密切。因此,深入认识蓝藻群体附生细菌群落结构组成的稳定性和动态变化,对理解蓝藻-细菌相互
邻苯二甲酸二丁酯(Di-n-butyl phthalate,DBP)是聚氯乙烯塑料中最常用的增塑剂,也是一种典型的环境内分泌干扰物,可以穿过胎盘屏障导致胚胎期的暴露,影响神经系统和生殖系统的发育。DBP入血之前经过胃和小肠代谢为邻苯二甲酸单丁酯(mono-n-butyl phthalate,MBP),MBP是DBP暴露后引起不良反应的主要活性物质。胚胎期DBP暴露与男性生殖和发育异常密切相关,然而
学位
土壤中的多环芳烃(Polycyclic Aromatic Hydrocarbons,PAHs)通过多种途径进入人体,无意识的口腔摄入为主要途径之一。起初人们基于土壤污染物的总量进行风险评估,结果往往高估健康风险。而胃肠液中生物可获得性部分的污染物才有可能被机体吸收进入血液循环产生生物毒性,因此亟需基于生物可获得性对摄入PAHs污染土壤进行准确的人体健康风险评估。近年来,研究人员将体外胃肠模拟法用于
学位
学位
利用地震波形资料来反演地球内部结构是地震学成像领域最先进的反演方法之一,为了克服噪音和非线性对反演收敛速度的影响,需要选择满足一定条件的地震波形时间窗口进行反演。然而传统的时窗拾取方法已不能满足海量数据反演时的效率要求,需要发展更加智能、高效的波形拾取方法。近年来,人工智能技术在各个领域都得到广泛的应用。基于神经网络对数据特征的学习能力,本文采用了一个全卷积神经网络,用以自动拾取复杂的地震波信号。