论文部分内容阅读
根据生物中心法则,真核生物基因表达主要包括转录、剪接和翻译。基因剪接是指从信使RNA前体上剪除内含子(非编码区域)、连接外显子(编码区域)为成熟信使RNA的过程,是转录和翻译间的核心步骤。一个基因可以通过选择性剪接产生多个不同的成熟信使RNA,编码为不同蛋白质。超过95%的人类基因存在选择性剪接。基因选择性剪接存在不同的剪接模式,其中,盒式外显子是最常见的一种剪接模式,即外显子可以出现在不同的成熟信使RNA中。如何识别盒式外显子对理解基因剪接调控机制具有重要意义。本研究将在基因组层面对定义盒式外显子的基因组特征进行研究,通过对组成性外显子与盒式外显子的序列特征进行整理分析,利用统计显著差异特征构建分类模型,并用此模型来识别盒式外显子,探索基因剪接的调控机制。首先,不同于已有研究者采用外显子长度、GT含量、调控元件、剪接位点信号强度等方面的基因组特征对动物不同组织进行的外显子研究,本文提取人类基因组成性外显子与盒式外显子下面五个方面的特征:序列长度、核苷酸组成、剪接位点信号强度、剪接调控元件分布和进化保守性来深入研究外显子。在此基础上获得107个统计差异特征。其次,对于已提取的基因组特征需要选择适合的分类算法,才能达到最好的分类效果。对此,基于107个特征,本文应用支持向量机、决策树、多层感知机神经网络和朴素贝叶斯分类模型,分别构建盒式外显子分类器。比较不同分类方法的预测结果,支持向量机的预测效果最优,预测精度超过90%。最后,对于所提出的外显子特征,本文应用已有数据库中基因结构与疾病发生之间的联系解释了脊髓型肌肉萎缩症和家族性、孤立性生物激素缺乏Ⅱ型遗传病的发病原因,从生物学的角度理解分类模型特征选取的合理性。对于本文所提出的提取外显子不同特征对其进行研究的方法,相关实验结果说明基于这些外显子序列特征研究基因剪接模式是可行的。