论文部分内容阅读
本文基于公共数据库数据,以冷休克结构域(cold shock domain)蛋白超家族为例,利用生物信息学的理论和方法,对冷休克结构域蛋白超家族的分子进化进行深入研究,目的是揭示冷休克结构域蛋白超家族基因起源和进化的分子机制以及基因非编码区调控作用,并为深入研究其他基因家族以及超家族进化机制提供新的思路和方法。本文的主要研究结果如下:(1)运用NJ法和ML法对84条冷休克结构域蛋白的氨基酸序列进行系统发育进化树构建,发现该系统发育树由3个大簇(CladeⅠ、CladeⅡ和CladeⅢ)构成,其中CladeⅠ是包含物种种类最多的一簇,从鱼类黑青斑河豚到哺乳动物人类,从基因结构看这一簇成员基本都包含长度为64、34、90的外显子,并且内含子的插入相位也大致相同,这个位置正是编码冷休克结构域的氨基酸位置,说明冷休克结构域在这些成员当中是很保守的;CladeⅡ多是无脊椎动物一簇,从低等的克氏锥虫到蜜蜂、果蝇,该簇在基因结构上表现为外显子数目少,且碱基数较多,同时在线虫中还发现4种旁系同源产物Cey1、Cey2、Cey3和Cey4蛋白;CladeⅢ是植物一簇聚集到一起,从系统发育树中看CladeⅢ和CladeⅡ聚集在一个树枝上,该簇含有的外显子数目也是很少的,且内含子数量少甚至不含有内含子。(2)通过对氨基酸序列motif进行分析,发现高等动物比低等动物含有更多数量的motif,而在植物中含有的motif数量更少,但植物中单个motif种类的重复则较多。(3)对冷休克结构域蛋白基因的mRNA的3′、5′UTR区域进行研究,结果表明在3′UTR区域的功能元件比5′UTR区域的多。采用同源序列比对发现在UTR区域的序列保守性相对较差,碱基间也发生了较大的突变。(4)对各个冷休克结构域蛋白基因中的内含子做重复序列分析,发现在由无脊椎动物到脊椎动物进化的过程中,内含子重复序列元件在增多,但重复序列元件增加的数量各有不同,说明内含子在插入外显子中的位点也相应的增多。此外,亲缘关系相近的物种,其重复序列元件在基因结构上又具有一定的相似性。更进一步的研究发现重复序列元件的种类与内含子总长度和GC含量密切相关。通过对上述研究结果的综合分析,初步模拟出了冷休克结构域蛋白家族的进化模型,即在物种形成冷休克结构域蛋白的初期是由基因复制产生直系同源蛋白,随着物种的进化由于选择性剪接进而产生旁系同源蛋白,从而使得该蛋白家族成为一个多功能蛋白家族。本文的研究结果也为更深入地研究基因家族以及超家族进化机制提供了新的方法和启示。