论文部分内容阅读
在真核生物中选择性剪接是调控基因表达和产生蛋白质多样性的一种重要机制。由选择性剪接所产生的功能变化可以迥然各异,从完全丧失功能或者获得新的功能到及其微小的修饰变化。尽管通过表达序列标签的研究人们揭示了植物中大量存在的选择性剪接,但是要阐明植物中选择性剪接对蛋白质结构和功能的影响仍然是一项挑战。
通过分析来自20种组织文库中的32127条完整cDNA序列,我们识别出了5419条选择性转录序列具有2041个选择性剪接现象。
我们的目的是检测选择性剪现象同时分析选择性剪接对蛋白质结构的影响,在这些选择性剪接基因当中,超过83%的选择性剪接都改变蛋白质的结构和功能。其中数量最多的模式是改变氨基酸序列的C端。还有334个选择性剪接异形体仅仅改变非翻译区,因此并不导致氨基酸序列的不同,这种类型的选择性剪接可能会影响mRNA转录本的稳定性。同时利用TreeDomViewe软件来识别蛋白质的结构域并分析选择性剪接对蛋白质结构域的影响。发现在5419条选择性转录序列当中,475个剪接异形体通过选择性剪接删除蛋白质的结构域,130个剪接异形体通过选择性剪接增加了蛋白质结构域。
本论文也分析了选择性起始和多聚腺苷酸化位点,所有的分析结果都可以在http://www.bioinfor.org/ASIR查询。以上分析结果无疑可以加深对水稻的选择性剪接机制的理解。
鉴于NBS-LRR序列在水稻抗病方面的重要作用,我们利用与上述不同的方法和更多的数据集对NBS-LRR序列进行了更加深入的分析。通过隐马尔柯夫模型搜索,从美国基因组研究所数据库里得到了855条编码NBS-LRR基序的序列。利用这些序列在KOME、美国基因组研究所基因索引及UniProt三个数据库中进行同源搜索,获得同源的完整cDNA序列、假设一致性序列和蛋白质序列。再利用Spidey和SIM4程序把完整cDNA序列和假设一致性序列联配到相应的BAC序列上来预测选择性剪接。蛋白质序列和基因组序列之间的联配使用tBLASTn。
在这875个NBS-LRR基因中,119个基因具有选择性剪接现象。其中包括71个内含子保留,20个外显子跳跃,25个选择性起始,16个选择性终止,12个5′端的选择性剪接和16个3′端选择性剪接。大多数选择性剪接都为两个和多个转录本所支持。可以通过访问http://www.bioinfor.org/NBS_LRR/index.htm查询这些数据。进而通过生物信息学分析剪接边界发现外显子跳跃和内含子保留的‘GT...AG’的规则不如组成型的保守。这暗示了它们是通过不同的调控机制来指导剪接变构体的形成。通过分析内含子保留对蛋白质的影响,发现选择性剪接的蛋白更倾向于改变其C端氨基酸序列。
最后对选择性剪接的组织分布和蛋白质定位进行分析,结果表明选择性剪接的最大类的组织分布是根和愈伤组织。超过1/3剪接变构体的蛋白质定位是质膜和细胞质。这些选择性剪接蛋白可能在抗病信号转导中起到重要作用。同时全长cDNA序列被我们用来提高编码NBS-LRR序列的注释。其中有63条序列和全长cDNA序列完全匹配。120条注释序列有其同源性很高的全长cDNA序列,但是却被Sim4定位到水稻基因组的不同位置上。有21条注释序列被认为是两个相邻基因的拼接。根据全长cDNA序列的证据有33条序列被改变了基因内部结构。91条序列没有在KOME数据库中找到同源序列,但其中有21条在水稻OsGI中找到了同源序列。定位信息由程序分析并辅助手工检测。所有的注释序列,全长cDNA序列和注释更新的数据都被导入MySQL数据库供读者查询。