论文部分内容阅读
水稻是我国最重要的粮食作物之一,全国水稻种植面积约占粮食作物总种植面积的30%,产量接近全国粮食总产量的一半。同时,水稻也是一种十分重要的模式生物。水稻主要有两个亚种,黏性、短粒的粳稻(japonica),和非粘性、长粒的籼稻(indica),而现有对水稻的研究主要针对粳稻。近年来,随着高通量测序技术在转录组水平的逐渐发展与应用,RNA-Seq技术也为转录组结构的解析提供了全新的技术支撑。过去几年间,出现了多种针对转录组复杂性的研究方法,如基因表达丰度、可变剪切、等位基因特异性表达、RNA编辑、基因融合。目前,国内外相关科研机构也越来越多的使用RNA-Seq数据对水稻转录组进行扩充,注释了大量的水稻全新的转录活跃区域,并对大量发现的区域进行了RT-PCR鉴定,以及编码性分析,并扩充了基因边界。此外,还有研究小组针对水稻的不同发育阶段,对水稻胚胎进行了测序,统计了每个时间段的基因表达情况,统计了所有表达基因的分布、覆盖度分布,统计了不同发育阶段基因的特意表达情况,并对不同生长阶段表达的基因进行了详细的基因特异性表达分析。本研究以水稻转录组重建与功能性分析为目标,进行了水稻RNA-Seq数据收集、数据质量评估、转录组重建的分析流程构造和优化、并最终水稻的转录组未注释转录活跃区域进行了较为全面的分析。其中,总共收集到可使用的总共得到19个非生物学重复的样本,来自21个文库的mRNA-Seq数据。最终,我们在水稻转录组中鉴定到了100478个全新剪切位点,并且探测到RAP-DB注释的82.84%的剪切位点。接着,我们在水稻转录组中共预测得到的新转录物共有62167个(由34728个新基因编码),其中有18946个原有基因增加了45402个可变剪接转录物,全新的15782个基因编码16765个转录物。本研究成果与MSU-RAP注释相比较,水稻基因组注释区域由先前的46.10%提升到55.47%。此外,本研究还分析重构转录组的可变剪切类型比例,对比并分析全新转录位点转录物与已注释转录物的编码特性与功能特征,并分析了全新转录位点转录物中潜在的基因,我们的方法为降低基因组注释成本指出了方向。