论文部分内容阅读
选择性多聚腺音化(alternative polyadenylation,APA)是产生具有不同3’末端的mRNA或者编码不同蛋白mRNA的重要基因调控层。众多研究表明,在植物基因中,高达70%的注释基因都存在选择性多聚腺苷化位点,APA在基因表达以及许多细胞过程,如开花时间控制、氧化应激反应等,都起重要调控作用。随着高通量测序技术的发展,通过深度测序获得的生物数据爆炸性增长。而高通量3’末端测序技术也产生了不同物种全基因组不同条件下的poly(A)位点数据,如何处理、存储、分析以及可视化不同物种中日益增长的poly(A)位点数据,对分析和挖掘大规模生物数据的方法和工具提出了更高要求。尽管海量的3’末端测序数据不断生成,到目前为止仍无专门用于不同植物poly(A)位点提取、分析以及可视化的生物信息平台。本文开发了不同植物全基因组poly(A)位点分析和可视化平台PlantAPA。在技术实现上,PlantAPA平台基于HTML、PHP和JavaScript构建,集数据上传、数据处理和数据可视化服务为一体;数据处理程序以Perl和R脚本开发,通过PHP调用实现;数据可视化则是使用JavaScript的canvas绘图实现开发。PlantAPA提供了各种各样的动态交互图形界面,并且与基因组浏览器Jbrowse无缝结合,能够更好的描绘不同情况下poly(A)位点,更清晰地展现出不同生物条件下的poly(A)位点的表达规律。特别地,通过PlantAPA用户可以分析3’UTR延长区域、基因间隔等不同区域中由选择性剪切得到的poly(A)位点数据。除此之外,PlantAPA也为分析poly(A)位点选择,3’UTR延长或缩短,非典型APA位点切换及不同条件下基因差异性表达提供了强有力的工具,有助于APA相关的基因表达控制研究。PlantAPA也提供了一系列的生物信息学数据处理流程,允许用户上传自己的短序列和表达序列标签文件用于poly(A)位点提取,允许将用户的poly(A)位点数据与平台提供的数据进行比较,进一步探索poly(A)位点选择。目前,PlantAPA包括来自水稻,拟南芥,蒺藜苜蓿和衣藻四种植物的全基因组poly(A)位点数据,是当前最大的植物APA位点数据库。PlantAPA能从不同植物海量3’末端测序数据以及RNA-seq数据中提取poly(A)位点;集成一系列APA分析方法和工具,能综合分析不同条件下的APA位点差异选择和基因差异表达;搭建的可视化平台能够以多种方式直观展示不同植物不同条件下的poly(A)位点分布及使用情况,能有效辅助相关科研人员特别是生物学者利用该平台筛选候选APA位点及基因。PlantAPA将会成为生物学家研究植物的选择性多聚腺苷化机理及基因表达调控的重要平台,能为科研人员提供更加优秀而便捷的Web服务。