论文部分内容阅读
RNA介导的反转座是基因重复(Gene duplication)的重要机制之一,研究发现反转座对于基因组进化具有重要意义,是新基因的重要来源,并且会对生物个体的表型性状产生深远影响。近年来,随着测序技术的发展,物种基因组数据陆续公布,已在许多物种中进行了反转座基因(Retrocopy)的全基因组分析,挖掘出了大量的功能性反转座基因,为新基因的产生和生物进化提供了新的视角。但目前多倍体物种的反转座基因的研究还处于未知,尚不清楚多倍体化是否在反转座基因的产生和进化过程中扮演着重要角色;另外快速准确的反转座基因注释流程工具的缺乏,也限制了对反转座基因功能和进化的研究。本研究以典型的异源多倍体植物小麦(Triticum aestivum L.)为研究对象,首先开发了广泛适用于各个物种的反转座基因注释流程工具,对小麦及其祖先物种基因组中的反转座基因进行挖掘,并从序列结构特征、起源与进化以及功能性意义三个方面对鉴定出的反转座基因进行了深入分析。本研究是对多倍体小麦及其祖先物种反转座基因的初次探索,将为理解其他多倍体物种中反转座基因的进化机制奠定基础,并为后续在其他多倍体物种中进行相关研究提供参考。主要研究结果如下:1.反转座基因注释流程工具RetroScan的开发为了准确且快速地注释出小麦基因组中的反转座基因,我们整合了 LAST、BEDtools、ClustalW2、KaKsCalculator、HISAT2、StringTie、SAMtools 等生物信息学软件和Python、Shell脚本,开发了一个易于使用的反转座基因注释流程工具RetroScan。该工具不仅能基于序列相似性和内含子丢失情况对基因组中的反转座基因进行注释,还能对Retrocopy与其父基因(Parental gene)的非同义替换率(Ka)和同义替换率(Ks)进行分析;在用户提供转录组数据的情况下,还能计算Retrocopy与父基因在各个组织中的表达情况。相比于其他鉴定流程,RetroScan能挖掘出基因组中更多的反转座基因,并且能有效减少假阳性结果,在安装使用的便捷性、运行速度、注释准确性等方面均表现良好,是注释和分析反转座基因的可靠工具。2.普通小麦及其祖先物种基因组中反转座基因的鉴定我们将开发的反转座基因注释流程工具RetroScan应用到小麦反转座基因的鉴定当中,并针对小麦基因组的特点对鉴定流程进行了个性化定制。在普通小麦(AABBDD)及其祖先物种二粒小麦(AABB)、乌拉尔图小麦(AA)、粗山羊草(DD)以及外群物种大麦(Hordeum vulgare)基因组中共鉴定出4638个Retrocopy和2139个父基因,其中六倍体小麦Retrocopy数量为1999个,显著多于其祖先物种以及外群物种。同时分析发现,大部分Retrocopy在5’端和3’端均发生了序列截短。进一步分析了其上下游的重复序列,显示均主要由长末端重复序列反转录转座子(LTR-retrotransposon)所组成,表明了在小麦以及其祖先物种中,LTR-retrotransposon是反转座基因产生的主要驱动力。3.六倍体小麦反转座基因的起源与进化我们结合同义替换率与直系同源分析,探讨了小麦Retrocopy的起源与进化。首先,Ks分布显示小麦及其祖先物种在进化过程中均经历了两次反转座事件的爆发,并且这两次爆发节点均能追溯到非常古老的谱系分化事件。通过对六倍体小麦Retrocopy进行直系同源分析,发现其大部分都存在于其祖先物种以及外群物种中,仅有5个Retrocopy为六倍体小麦所特有。表明了小麦独立的多倍体化事件对于Retrocopy的产生并无显著影响,小麦Retrocopy主要来源于古老的反转座事件。但值得注意的是,六倍体化虽然没有促进Retrocopy的大量新生,但它造成了同一个Retrocopy的重复保留,这也是多倍体物种Retrocopy的特性之一。我们进一步比较了这些直系同源基因间的序列结构差异,发现部分Retrocopy在六倍体化后发生了内含子化、嵌合化等结构进化,形成了新的基因结构,并且六倍体小麦Retrocopy的嵌合速率显著高于水稻以及灵长类,同时还发现Retrocopy的表达模式发生了改变。以上结果表明了六倍体化可能加速了 Retrocopy的结构进化,同时也证明了反转座事件是小麦新基因的重要来源。4.小麦Retrocopy的功能性意义Ka/Ks分布显示六倍体小麦大部分的Retrocopy受到强烈的功能限制,具有潜在的功能性。在小麦1999个Retrocopy当中,一共有1656个Retrocopy为1653个蛋白质编码基因(Retrocopy gene)贡献了编码区域,参与了编码蛋白质。并且,大部分Retrocopy gene的组织表达模式与父基因不存在相关性。GO富集分析结果显示,Retrocopy gene虽然与父基因参与类似的生物学过程,但承担着不同的分子功能。结果表明Retrocopy在经历了普遍的序列截短以及获得新的编码序列后,可能进化出了与父基因不同的功能模式。此外,部分Retrocopy还能从反义链转录为lncRNA,并能与其父基因的mRNA、pre-mRNA形成二聚体,可能与父基因和miRNA的结合以及父基因转录本的可变剪接(Alternative splicing)有关。综上所述,本研究首次开发了适用于多物种的反转座基因注释流程工具RetroScan,为后续相关研究提供了便利和参考,并对多倍体小麦及其祖先物种的Retrocopy进行了深入分析,发现多倍体化会显著影响Retrocopy的结构进化,并且Retrocopy的功能与其父基因存在差异。本研究是对多倍体物种反转座基因的初次探索,为后续相关研究奠定了基础。