论文部分内容阅读
棉花是世界上重要的经济作物之一,涉及农业和纺织工业两大重要的国民经济支柱产业。自2012年起,随着雷蒙德氏棉(D基因组)、亚洲棉(A基因组)和陆地棉(AD基因组)全基因组测序组装工作的相继完成,对棉花基因组结构和功能进行精细注释也越发迫切。目前公共平台已积累了大量的组学数据,通过对高通量转录组和表观基因组数据的整合与分析,在全基因组水平上对棉花基因进行精细注释,将有助于研究棉花生长发育和应对胁迫的调控机制。本研究以A基因组亚洲棉和异源四倍体AD组陆地棉为主要研究对象,整合现有转录组数据,分别构建了两种棉花的全基因组共表达网络,并根据不同的生长阶段和胁迫处理条件,利用基因表达谱展示手段进行网络动态解析,成功预测了调控重要农艺性状(如纤维生长和水分胁迫应答)的功能模块。为了提高预测的可信度,将全局共表达网络作为研究基础,加入直系同源分析、顺式作用元件分析和基因集富集分析(GO、KEGG和基因家族)等手段对基因功能进行模块化注释,并利用集团渗透算法分别在亚洲棉和陆地棉中确定了 1,155和1,884个共表达功能模块以及213和135个miRNA靶基因功能模块,对参与诸如代谢、病原体和胁迫应答、激素响应和生长发育等生物学过程的功能基因进行模块化挖掘。同时,结合单个棉花物种的模块化注释手段和比较基因组学分析,通过利用96,466对直系同源基因或16,142个同源基因群功能网络,比较子网络的组成、启动子区调控元件、基因表达谱和同源基因对,从而提高预测基因功能的可信度和降低复杂模块功能预测的难度。此外,使用实验室已有的棉花H3K4me3 ChIP-seq表观基因组数据和多种组织的RNA-seq转录组数据,对进化过程中基因组结构和基因功能的保守性和差异性进行分析和注释,从而在亚洲棉和陆地棉中预测出6,773和12,773个新转录本,并经过基因组共线性、ESTs和qRT-PCR的验证提高了转录本的可信度。运用H3K4me3修饰图谱结合共表达网络进行模块化分析的方法,试图解析了棉花生长发育中组蛋白修饰差异和基因表达差异间的联系。最后,构建的二倍体和多倍体棉花共表达网络分析平台ccNET,形成了整合基因组、转录组和表观基因组的多层面模块化比较分析体系,从而提高了棉花功能基因注释效率和注释范围(http://structuralbiology.cau.edu.cn/gossypium/)。另外,基于多组学整合和模块化分析手段,成功构建了谷子功能基因组数据库SIFGD(http://structuralbiology.cau.edu.cn/SIFGD/)来提高其基因功能注释率。整合的拟南芥表观基因组和转录组的公共数据实现了对miRNA基因初始转录起始位点的预测,并且通过构建PTSmiRNA(http://structuralbiology.cau.edu.cn/PTSmiRNA/)平台实现了结果的可视化。本研究采用多组学整合和模块化比较分析方法,充分发挥了多组学整合分析的互补性和高效性,实现了对棉花的基因组结构和功能基因的精细注释,以期对棉花生长发育和胁迫应答的功能模块研究提供新视角,并为刚刚测序的植物和多倍体植物或作物提供可行的模块化功能挖掘手段和功能基因组精细注释分析方案。