论文部分内容阅读
G-四链体(G-quadruplex,G-Q)是富含G的序列折叠形成的高级DNA或者RNA二级结构,其结构单元为G-四分体(G-quartet)。G-四分体是由氢键结合鸟嘌呤碱基形成的环形平面。G-Q广泛地存在于植物基因组中,且参与了转录、翻译、端粒维持等重要的生理进程。尽管目前有大量预测和研究G-Q的工具及数据库,但是针对植物的研究却十分匮乏。随着下一代测序技术的成熟以及测序成本的不断降低,大量的植物基因组被组装和注释。为了更好地促进植物中G-Q大数据的挖掘及分析,本研究采用公共数据平台中获得的植物基因组及注释信息,采用生物信息学统计及分析方法,以及利用结构配对的方法对植物基因组中的G-Q进行挖掘和注释。利用挖掘到的所有G-Q信息,构建了一个全面的综合的界面友好的开放型数据库。本研究主要成果如下:(1)植物基因组信息资源库的构建。通过对植物基因组文章的阅读与信息采集,获取了195个植物的基因组及注释文件。物种的拉丁名、英文名、发表时间、版本号、参考文献名称及获取地址、基因组获取地址、基因组大小等详细信息被提取出来,利用这些信息构建了一个植物基因组信息资源库。(2)G-Q大数据的挖掘及注释。基于195个植物物种的基因组信息,对全基因组中的G-Q进行扫描,最终获得626,341,645个G-Q结构。其中两单元G-Q最多,总数为610,897,其所占比例为总数的97.43%;三单元G-Q次之,总数为14,326,347,其所占比例为总数的2.38%;四单元G-Q的结构最稳定,但是数量最少,为1,117,349,其所占比例为总数的0.19%。基于195个植物物种的注释信息,完成了对G-Q所在基因或者基因间的位置注释。(3)G-Q大数据的分析。将195个植物按照所属的科进行分类,并对其中物种量较多的13个科进行G-Q结构的频率及位置分布的分析及比较。G-Q结构在基因组上的分布频率中,所有物种的两单元G-Q结构在基因组中的分布频率最高,三单元G-Q结构在基因组上的分布频率占第二,四单元G-Q结构在基因组上的分布频率最低。分别对禾本科、十字花科以及茄科的18个物种的G-Q结构在基因组上的分布频率的统计分析发现,其分布规律仍是两单元G-Q在基因组上的分布频率最高,三单元G-Q结构分布频率占第二,四单元G-Q结构分布频率最低。对于13个科的G-Q位置分布的分析表明,大部分物种G-Q结构在基因间的数量大于其在基因上的数量,也有一部分物种的G-Q结构在基因上的数量较多,几乎所有的物种的基因上都存在着G-Q结构,推测出G-Q结构可能参与植物生命活动中某些重要的生理功能。(4)G-Q大数据及分析工具库。基于挖掘出来的G-Q大数据及注释信息,进行G-Q信息查询库的搭建。主要查询结果包括物种拉丁名称、染色体ID、G-Q的类型、G-Q的起始位置、G-Q的终止位置、G-Q的详细序列信息。本数据库还开发了G-Q结构的在线预测工具,实现了对FASTA格式的基因组序列中的G-Q大数据进行在线预测。此外,基因组浏览器Jbrowse展示了植物的全基因组、注释信息、G-Q序列的图形信息。所有的G-Q数据以及Perl脚本均可以在下载界面中获得。(5)植物G-四链体大数据平台的搭建。本研究使用LAMP(Linux+Apache+MySQL+PHP)将上述功能界面构建在一起,搭建了一个可供用户查询、预测以及浏览G-Q信息的界面友好的植物G-四链体大数据平台Plant-GQ(http://biodb.sdau.edu.cn/plantgq/index.php)。植物G-四链体大数据平台将极大地促进GQ在植物中的各种功能的研究。植物G-Q大数据比较分析及植物G-四链体大数据平台的搭建,不仅将会促进G-Q在植物中的各种调节作用的研究,而且弥补了植物中G-Q数据库的空缺。