论文部分内容阅读
随着上千种生物基因组测序工作的完成和研究者们对于基因组功能研究的不断深入,人类对于生命的认知已经进入了后基因组时代。探索基因表达的调控方式已经成为当下科研工作者的重要任务。 真核生物的基因组包裹在核小体上,形成一种染色质结构。核小体上可以添加多种组蛋白修饰,同时,组蛋白修饰间存在着相互作用关系,这些相互作用关系可以通过调节部分组蛋白修饰间接地影响基因表达。以往的研究工作主要集中在分析基因启动子区域组蛋白修饰对基因表达的影响以及组蛋白修饰间的相互作用关系,而对于转录延长区域组蛋白修饰的研究比较缺乏。逐渐积累的证据表明该区域上组蛋白修饰可以调节转录延长以及RNA剪切等,这些过程也是基因表达调控中重要的组成部分。本文利用计算的方法构建了转录延长区域上组蛋白修饰与RNA剪切之间的调控网络,从而找出可以调节RNA剪切的组蛋白修饰以及组蛋白修饰间的相互作用关系。本文的主要内容包括: (1)提出了基于转录延长区域组蛋白修饰的外显子表达水平预测模型。 本文首先从计算的角度分析了转录延长区域组蛋白修饰对基因表达以及外显子剪切的调节作用,论证了构建转录延长区域组蛋白修饰与外显子剪切间调控网络的基础条件。本文提出了基于转录延长区域组蛋白修饰预测外显子表达水平的线性回归模型,并基于该模型系统地分析了转录延长区域组蛋白修饰与外显子表达水平之间的关系。本文得到以下三方面结论:1)证实了该区域上组蛋白修饰和基因表达水平及外显子表达水平间存在着良好的定量关系,表明该区域组蛋白修饰可能调节基因表达和外显子剪切;2)说明不是所有组蛋白修饰都与外显子表达之间存在调控联系;3)我们的结果说明以上的定量模型在不同的外显子类型间甚至不同的细胞类型间都具有通用性。 (2)提出了从染色质结构角度寻找pre-miRNA剪切机制的定位信息。 本文利用统计学方法系统地分析了pre-miRNA序列上的染色质结构特征,本文的分析结果表明表观信息也可能调节miRNA的剪切。以往的研究工作主要集中在分析DNA序列对miRNA剪切的影响,而对表观信息在miRNA剪切中的作用了解较少。本文的结果显示在pre-miRNA序列上存在着核小体、组蛋白修饰( H2BK5me1、H3K36me3和H4K20me1)以及RNAPII的明显富集。本文的研究结果揭示了pre-miRNA序列上的染色质结构特征,并表明了一种可能的pre-miRNA剪切机制,该机制通过RNAPII将DNA水平和 RNA水平连接起来,并能够识别染色质结构特征,从而促进pre-miRNA剪切。 (3)构建了外显子区域上组蛋白修饰调控网络。 在以上工作的基础上,为了更明确地找到调节RNA剪切的组蛋白修饰以及组蛋白修饰间的相互作用关系,本文构建了外显子区域上组蛋白修饰和选择性剪切外显子表达水平间的调控网络。在启动子区域,已有一些研究工作利用基于聚类的贝叶斯网络方法来发现组蛋白修饰与基因表达之间的调控关系。在方法上,本文利用偏相关系数来发现调控关系,一方面,避免了聚类造成的信息丢失和不同的聚类过程导致的网络结构不稳定性,另一方面,偏相关系数可以从选择性剪切外显子的表达水平中有效地剔除掉基因表达水平的影响,更有利于发现组蛋白修饰与选择性剪切事件之间的联系。本文将该方法应用到了人类CD4+T细胞的全基因组组蛋白修饰高通量ChIP-seq数据和RNA-seq数据上,预测出外显子区域上组蛋白修饰之间的相互作用关系以及组蛋白修饰与选择性剪切事件之间的调控关系。多种相关生物学实验结果以及相关分析验证了本文预测结果的正确性和本文方法的有效性。 (4)提出了组蛋白修饰非稳态调控网络的构建方法。 为了进一步比较外显子区域与其它基因组功能元件上组蛋白修饰调控关系间的差别,本文提出了一种非稳态调控网络的构建方法,该方法能够自动地确定基因组上功能元件的边界,并同时发现不同功能元件上组蛋白修饰之间的调控关系。本文将该方法应用到了人类CD4+T细胞中的全基因组组蛋白修饰高通量ChIP-seq数据上,预测出多种基因组功能元件上不同的组蛋白修饰间调控关系。不同角度的分析以及多种相关生物学实验结果都验证了预测结果的正确性。