大规模转录组数据的整合分析方法和平台 ——以玉米为例

来源 :西北农林科技大学 | 被引量 : 0次 | 上传用户:limitU
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量测序技术的快速发展,生命科学领域也进入了大数据时代。传统分析方法在应对数据量巨大、数据类型繁多以及增长极快的生物学大数据中存在诸多局限。本论文利用玉米大规模转录组数据,开展了转录组图谱构建、基因表达数据挖掘、unmapped RNA-Seq read应用和图基因组在转录组数据上的应用等四方面的生物信息学整合分析方法研究,并搭建了相应的生物信息学分析平台,为相关大规模转录组的分析工作提供了借鉴和分析工具。具体研究结果如下:基于大规模转录组数据的转录组图谱构建整合玉米B73品系大规模二代转录组RNA-Seq数据、三代转录组Full-length non-chimeric(FLNC)Pac Bio read和参考基因组注释的转录本信息,发现了17952条当前基因组中尚未注释的新转录本。新转录本中,947条位于基因间隔区,其中694条(73%)的新转录本包含转座子。基于整合大规模转录组数据构建转录组图谱的方法,搭建了相应的生物信息学分析平台。基于大规模表达数据的关键基因挖掘通过整合玉米B73品系大规模二代转录组RNA-Seq数据,得到高维度基因表达矩阵。利用矩阵分解(Matrix factorization,MF)方法对基因表达矩阵进行分解,可得到以metagene为纽带的描述基因关系的振幅矩阵(Amplitude matrix,AM)和描述样本关系的模式矩阵(Pattern matrix,PM)。基于PM矩阵进行样本聚类和空间转录组分析:样本聚类分析中,鉴定出774条籽粒发育关键基因,包括已有文献报道的调控胚乳淀粉合成的Zm GRAS20、调控籽粒淀粉代谢的Zm ZAG2、激活Zein基因活性的Opaque2等;空间转录组分析中,利用不同metagene数发现了不同生物学过程的信息,并鉴定出相应的关键基因。鉴定的关键基因中尚未报道的基因也为后续籽粒研究提供新线索。基于大规模表达数据的整合和MF方法,搭建了专门针对高维度表达矩阵的矩阵分解分析平台easy MF。大规模unmapped RNA-Seq read的挖掘与应用RNA-Seq数据与参考基因组比对时常产生大量不能比对至参考基因组的unmapped read。通过对来自籽粒、叶片、根、节间组织的大规模B73品系玉米unmapped RNA-Seq read从头(de novo)组装,经多水平质量控制后,鉴定出635条玉米新转录本。通过转录本序列特征分析,发现部分转录本编码叶绿体相关蛋白、转运蛋白、泛素化连接酶等;通过转录本表达特征分析,发现部分转录本参与籽粒发育,光合作用,干旱应答过程;基于共表达网络模块的GO富集分析,发现部分转录本参与光合作用、蛋白翻译、染色质构成等生物学过程。基于大规模unmapped RNA-Seq read的整合分析方法,搭建了针对其分析的生物信息学分析平台CAFU。图基因组在转录组数据上的应用对于同一物种不同品系RNA-Seq与非相应品系基因组比对时存在的unmapped read和read比对不准确问题,创建了基于图基因组策略的转录组数据分析方法。利用Han21品系玉米结构变异信息构建图基因组,并基于其针对Han21品系RNA-Seq数据进行了read-genome比对、基因定量和差异表达分析。基于图基因组策略,Han21样本比对率由与B73线性基因组比对的83.41%提高至87.71%,由于比对考虑了结构变异信息,read-genome比对的精准度也有所提高;同时,图基因组策略提高了基因定量、差异表达分析等下游转录组分析结果的准确性。综上所述,本论文从转录本结构注释和基因表达特征挖掘等方面,对大规模转录组数据进行了整合挖掘,分别重构了玉米B73品系转录组图谱,丰富了转录信息;鉴定了籽粒过程中的关键基因,为后续相关研究提供了新知识。针对RNA-Seq数据中存在大量不能比对至参考基因组的unmapped read造成的数据浪费及同一物种不同品系RNA-Seq数据不能准确比对进而影响下游分析结果准确度的问题进行了进一步探究,发现unmapped RNA-Seq read也包含大量的生物学信息;图基因组可有效提高readgenome比对、基因定量和差异表达分析结果准确性。基于研究中各分析流程,创建了相应的大规模转录组数据的整合挖掘方法和分析平台,为深入挖掘大规模转录组数据、解决相关生物学问题,探究生物体内调控机制提供了便利。
其他文献
淀粉作为自然界中含量最丰富的生物聚合物之一,天然淀粉固有的缺陷限制了其应用。以高分子科学理论为指导的新型食品加工技术调控淀粉的结构和性质的研究已成为当今淀粉科学发展的主流方向。等离子体技术是一种具有工业应用潜力的淀粉物理改性新技术,具有操作简单、绿色环保、节约成本等优点。但目前等离子改性淀粉的研究多采用长周期处理模式,对等离子处理与淀粉多尺度结构特性的系统性研究相对缺乏。同时,聚焦应用等离子体与多
黄土高原属于典型的干旱和半干旱气候,水资源相对匮乏,加之退耕还林还草工程等生态建设工程进一步加剧区域水资源危机,亟需深入认识黄土高原的水循环过程以实现水资源的可持续利用与管理。黄土高原水循环过程具有独特的空间分布格局,对水循环过程的研究多关注降水、径流、土壤水分等环节或变量;然而,对土壤蒸发、地下水补给和植物蒸腾等环节的研究相对不足,特别是缺乏区域尺度宏观规律的认识。因此,本文以黄土高原水循环过程
当前我国育龄女性肥胖人数逐年攀升,母代肥胖引发的后代学习和社交功能损伤等神经发育障碍问题已日趋严重,然而潜在的分子机制和有效干预措施尚不明确。母代肥胖不仅造成自身肠道菌群的紊乱还引起后代菌群稳态失衡。肠道微生物在机体免疫、代谢和神经系统的发育和功能方面扮演着重要角色。研究发现膳食纤维可有效调节肠道微生物群。研究表明母代孕期补充膳食纤维通过调节母代菌群结构改善后代的免疫和代谢功能。但膳食纤维对母代肥
全球气候变暖背景下青藏高原气候变化显著,湖泊作为青藏高原重要的下垫面之一,对高原气候与生态系统有着重要的影响。科学评估青藏高原湖泊热力过程时空变化特征,合理预测青藏高原湖泊未来热力过程变化,可为青藏高原气候研究与生态建设提供理论支撑。针对目前青藏高原湖泊热力过程变化及预测研究存在的不足,本文选择青藏高原湖泊为研究对象,以陆面模型Community Land Model(CLM)中一维湖泊模型为理论
青藏高原作为地球“第三极”,在全球变暖背景下,过去几十年其增暖速度显著高于全球平均;与此同时,发生在青藏高原的巨大动力和热力作用,也显著影响其上下游地区乃至全球的大气环流。目前,青藏高原本身的观测数据仍旧不足,高原区域的地表能量和水分收支状况,以及其与上空及周围区域大气的相互作用机理仍需深入研究。因而,进一步理解青藏高原的陆面过程,从而更真实的刻画高原地表能量和水分收支状况,已经成为研究青藏高原陆
昆虫表皮碳氢化合物(Cuticular hydrocarbon,CHC)是沉积于昆虫表皮最外层的长链烷烃或烯烃类物质,在昆虫保水耐旱以及化学通信中具有重要生物学意义。昆虫CHC具有种内多样性和高度可塑性特征,昆虫碳氢化合物(HC)合成途径中的不同催化合成步骤是CHC产生变异的关键决定性因素,而昆虫中关于CHC变异的分子基础尚未系统研究;此外,昆虫CHC普遍存在性二型特征,而昆虫CHC性二型形成的关
三型分泌系统效应蛋白(Type 3 secretion effectors,T3SEs)通过三型分泌系统(Type 3 secretion system,T3SS)可以直接进入真核生物细胞中发挥功能。T3SEs既是致病菌侵染宿主过程中的毒性因子,也是根瘤菌与其宿主豆科植物建立共生体系过程中的影响因子。根瘤菌的T3SEs有些与致病菌的T3SEs同源,有些则为根瘤菌所特有。根瘤菌的T3SEs也被称为结
氮素是植物必需的大量营养元素,广泛参与植物萌发、生长、开花和结实等诸多生理过程。为了维持作物较高的产量和品质,农民必须施加大量的氮肥。然而作物吸收利用氮素的效率并不高,只有30%-50%的氮素能被作物吸收。氮肥的大量施用不仅增加了作物生产的成本,而且造成严重的环境问题。因此,维持作物高产,同时减少氮肥使用量,已成为现代农业可持续发展必须要解决的问题。深刻理解植物吸收氮素的作用机制和解析植物氮素吸收
在气候系统中,湖泊通过改变不同时空尺度上陆面与大气间水热交换过程,对区域的天气和气候系统产生影响。由湖-气相互作用引起的中尺度过程不仅会改变区域气候特征,而且气候系统中不同大气环流尺度间的相互作用会影响区域和全球气候预报的准确性。本研究不仅探索了湖泊过程对区域及全球气候预报的影响,而且为湖泊气候过程的深入理解和气候预报技能的提高提供依据。在全球气候预报模式CFS(Climate forecast
DNA解旋酶在DNA复制、转录、调控和修复中发挥重要作用。RecQ家族解旋酶是一类ATP依赖性的解旋酶家族,其在维持基因组稳定性中起着核心作用。研究发现五个人类RecQ家族解旋酶中的三个缺陷会导致基因组不稳定、癌症易感性和过早衰老等相关的独特遗传疾病。RecQ家族解旋酶成员之间具有很多互不重叠的功能,但是其分子基础仍然不清楚。此外,该解旋酶家族的成员已被证明能够解决非典型的DNA结构,例如fork