论文部分内容阅读
植物线粒体基因组具有大且大小可变,外源迁移序列,重复序列具有重组活性,存在多元的亚基因组分子,基因表达依赖于广泛的RNA编辑等复杂特征。同时,线粒体基因组异常的序列重组,导致形成一些嵌合基因,而大量研究表明植物细胞质雄性不育因子与线粒体的一些嵌合基因相关。棉花是重要的经济作物,但是其线粒体基因组测序和CMS分子机理的研究尚未报道。本文分别利用高通量测序技术和基因组文库,对海岛棉Pima90-53和陆地棉CMS保持系2074B的线粒体基因组进行了测序和序列初步分析。对海岛棉基因组BAC文库进行筛选,获得了10个线粒体阳性克隆,根据重叠性和插入片段大小分析预测可基本覆盖其线粒体基因组。我们对其中一个富含基因标记的BAC克隆进行测序,拼接后得到一个大小为115kb的序列。基因注释表明,该克隆中含有15个已报道的线粒体功能基因。用8个基因组成联合基因集对20个植物物种进行分子系统发生研究,客观反映了物种间的进化关系。同时,我们对该克隆序列的组成特征和基因排列的共线性进行分析,并对RNA编辑进行了初步的预测。利用454测序技术对陆地棉2074B的mtDNA进行测序,获得约为114M数据量,平均reads读长为399bp。对拼接产生的Large contig序列利用NCBI进行同源性分析,800bp以上contig序列中有110个与植物线粒体基因组同源性很高,大小为541.478kb,约占分析序列总大小的42%。同时,我们对Large Contig中所有大于500bp的contig序列进行同源性分析,将与线粒体基因组同源的contig数量增加至133个,总长度为561.522kb。鉴于高等植物线粒体基因组中基因间区序列的可变性,我们初步确定这133个contig序列为棉花mtDNA中的序列。根据植物mtDNA组成特征和2074A拼接序列,设计引物进行contig间的初步拼接,用89个测序片段将102个contig拼接为13个较大的contig序列,原来133个contig减少至43个,总大小增加到581.332kb。基因组注释,获得了54个线粒体基因,包括35个蛋白编码基因和19个RNA编码基因,这些基因或内含子序列分布于其中的18个contig中。重复序列分析发现,43个contig中最大的重复序列仅为488bp,更多的是在100bp以下,所以较大片段重复序列的获得和组装可能是下步完成mtDNA图谱工作的重点。为了进步进行序列的拼接,我们构建了2074B线粒体基因组的Fosmid文库,包括21个96孔板,计2016个克隆,平均插入片段约40kb。用拼接contig末端和功能基因标记共62个标记,对Fosmid文库的6个混合池进行筛选,获得了28个阳性克隆。分析发现三个Fosmid克隆与拼接的contig司存在重叠关系,预计这些克隆的测序可将总contig数量减少至35个。同时,通过克隆与contig重叠关系的分析,也发现了一些相互矛盾的连接次序,这些连接是否线粒体多元分子构型的体现,以及如何正确组装这些序列无疑对完成其线粒体基因组至关重要。总之,通过海岛棉和陆地棉mtDNA测序和筛库结果,对其序列特征和基因组成得到了深入的研究,这些工作为进一步完成棉花线粒体Finish图谱奠定了基础。