论文部分内容阅读
芸薹属包括白菜、甘蓝和甘蓝型油菜等很多重要的经济作物,是与模式植物拟南芥亲缘关系最近的近缘种之一。芸薹属中绝大部分物种都是多倍体,其中二倍体的白菜和甘蓝也属于古三倍体,很多基因均存在三个及以上拷贝。而甘蓝型油菜是异源四倍体作物,由白菜和甘蓝在自然条件下杂交而成。目前,甘蓝型油菜的基因组序列还未公布,依赖参考基因组序列的大规模SNP分析还无法进行。另外,基因组中普遍存在的同源序列,阻碍了芸薹属作物基因组学和表观基因组学等方面的研究。本研究主要基于双酶切缩减文库和高通量测序技术,对甘蓝型油菜的一个DH分离群体进行简化基因组测序,并开发了配套的SNP分析软件RFAPtools,从复杂的同源序列中识别等位基因,构建高密度遗传连锁图谱;此外,我们还将双酶切缩减文库结合重亚硫酸盐测序,开发了双酶切RRBS技术,对白菜基因组水平上的DNA甲基化进行了解析。 1.构建甘蓝型油菜高密度遗传图谱。遗传图谱是基因组学研究的必备工具,而多态性标记又是遗传图谱的基础。大量存在的同源序列及基因组序列的缺乏,使得很难在多倍体作物如甘蓝型油菜中,开发和定位SNP等多态性标记。为了解决这个问题,我们设计了一种缩减文库的构建方法,同时开发了配套的生物信息学分析软件RFAPtools。该软件主要包括三部分:1)模拟参考序列的构建;2)SNP检测;3)从同源序列中区分出等位SNP变异。 通过模拟酶切,我们分析了富集到的酶切片段在染色体上的位置分布、片段的大小分布以及每个单株所需的最适数据量,证明了所开发的简化基因组测序技术的可行性。RFAPtools软件首先通过模拟参考序列的构建,可以将部分同源序列分开,同时利用prf_allele.sh脚本,基于群体数据可以从同源序列中区分出属于同一位点的等位SNP。因此该技术适用于所有物种,进行高通量SNP分析,特别是类似于甘蓝型油菜、小麦等基因组复杂且未完成全基因组测序的物种。对两个亲本及BnaNZDH群体进行简化基因组测序,利用RFAPtools软件开发SNP及分析群体基因型。最终构建了两张平行的高密度遗传连锁图,包括一张包含8780个SNP位点的遗传连锁图以及一张包含12423个显性位点的PAV遗传连锁图。将这两张遗传连锁图A亚基因组上的位点序列与白菜基因组进行共线性分析,总共检测到14个可能的拼接错误及8个可能的定位错误scaffolds序列,对白菜基因组序列进行纠正。同时与白菜未定位的scaffolds序列进行比对分析,将44个未定位的scaffolds序列(包含8.15mb)定位到白菜不同染色体上。为了验证该方法的准确性和重复性,我们随机选取44个SNP位点进行Sanger测序,并将其转化成CAPS标记检测亲本间多态性。其中26个位点得到验证,而未被验证的18个SNP位点的PCR扩增产物中,均包含多条同源序列或不含目标位点序列。利用26个得到验证的SNP位点检测91个DH单株的基因型,总共检测到2251基因型且准确性高达99.3%。对其中6个DH单株重新构建缩减文库并测序,进行重复实验,其中SNP位点的重复性高达99%以上,而PAV重复性与数据量有关,当两次重复的数据量均高于150万reads时,其重复性也较高,达到98%以上。 2.解析白菜的全基因组DNA甲基化。DNA甲基化在基因表达及转座子沉默等过程中起调控作用,是最重要的表观修饰之一。近年来利用各种高通量技术对多种植物的DNA甲基化组进行了分析,为此我们改进了之前开发的缩减文库构建方法,开发了双酶切RRBS技术,并利用该技术对白菜全基因组DNA甲基化进行研究。通过比较分析发现,双酶切RRBS技术富集到的染色体区域中三种基序分别在基因和转座子区的比例,与白菜全基因组水平上基因和转座子区甲基化比例一致。同时对水稻基因组进行模拟酶切,通过与全基因组的比较分析,也得到一致的结果,证明双酶切RRBS技术能够被用来解析全基因组DNA甲基化。 利用该方法,我们分析了白菜CG和non-CG位点的全基因组DNA甲基化水平,分别为CG52.4%、CHG31.8%及CHH8.3%。绝大部分CG位点不是未甲基化就是被高度甲基化修饰,而51.8%CHG及77.4%CHH位点为低甲基化修饰。同时分析了白菜不同染色体上DNA甲基化分布,发现DNA甲基化与转座子等重复序列分布一致,而与基因的分布相反。除了A02染色体的真实着丝粒区域,绝大部分真实着丝粒和古着丝粒区域均维持在高度甲基化状态。基因和转座子区域的DNA甲基化水平差异很大,其分布规律均与拟南芥类似,即在基因转录起始和终止位置区域甲基化水平最低,且基因区明显低于侧翼序列,转座子区域维持在一个比较恒定的高甲基化修饰状态。 对不同亚基因组间基因区DNA甲基化进行分析,表现为LF<MF2<MF1但是差异并不明显,且该结果与基因表达水平上差异一致。对不同拷贝数基因间的DNA甲基化进行分析,发现单拷贝基因的DNA甲基化水平明显高于多拷贝基因,且转录起始和终止位置附近区域的DNA甲基化差异最大。因此认为DNA甲基化水平较高的基因更容易丢失,DNA甲基化水平较低的基因更容易被保留。LF亚基因组中单拷贝基因DNA甲基化水平显著低于其它两个亚基因组,而多拷贝基因间并没有显著差异。因此认为不同亚基因组单拷贝基因的DNA甲基化差异导致了不同亚基因组间的DNA甲基化差异,并决定LF中基因丢失的比例显著低于另外两个亚基因组。从表观遗传学上,解释了基因丢失的可能分子机理,及白菜三个亚基因组间基因丢失比率的差异。