论文部分内容阅读
比较基因组学是以遗传图谱和基因组序列为基础,对已知基因和基因组结构进行比较来了解基因组进化的机制以及物种形成。以往在禾本科植物中进行的比较基因组学研究揭示了植物基因组组织结构的多样性和保守性,但是这些研究很少涉及到基因家族的比较。多基因家族是一类起源于共同的祖先,具有相似的结构与功能的基因,是植物基因组的重要组成部分,其中串联重复基因(tandemly arrayed genes,TAGs)占了很大的比例。
醇溶蛋白( prolamin)是大部分粮食作物中主要的储藏蛋白成分,在玉米中占蛋白总量的60%左右,其中最大的一类是a-醇溶蛋白(a-zein),它又可分为19kD和22kD两类。在玉米BSSS53自交系中,22kD a-醇溶蛋白(z1C)共有23个拷贝,其中22个成簇分布,而在高粱中,其对应的22-kD醇溶蛋白(kafirin)有11个基因拷贝成簇分布。以往的比较分析显示玉米与高粱的22-kD醇溶蛋白区域中基因呈“马赛克”式的分布,在玉米自交系之间的比较中也发现了很大的差异,但是关于22-kD醇溶蛋白基因家族的扩增、演化与表达还没有深入研究。
本研究以薏苡为材料,选取了薏苡中22-kD醇溶蛋白(coixin)基因家族位点,进行了比较基因组学研究。薏苡是玉米的野生近缘属,曾被认为是玉米可能的祖先,薏苡种子具有蛋白含量高的优点,因此克隆和分析薏苡中主要的种子储藏蛋白是提高种子蛋白含量和改善蛋白品质的基础。有研究显示,薏苡基因组中,22-kD醇溶蛋白也是成簇分布,但是还没有进一步进行基因组学研究。
本实验室已有19个含有22-kD coixin基因的BAC克隆并且其中2个已完成了初步测序。我们通过进一步筛选得到了它们的重叠克隆,经过“鸟枪法”测序、序列组装以及后期的序列修补,总共得到了283,037bp的连续序列。序列比较分析显示,玉米自交系BSSS53中的醇溶蛋白基因密度是7.6kb/基因,在自交系B73中的密度是7.9kb/基因,在薏苡中的密度稍低,为13.5kb/基因,而高粱10个紧密相连基因的密度达到了3kb/基因。基因密度的差异可能是因为不同程度的转座因子(transposable elements,TEs)插入导致,我们在高粱kafirin基因簇中没有发现反转座子只有少量的转座子,玉米BSSS53与B73自交系的转座因子分别占了所测序列的30%和38%,而在薏苡的283kb序列中,转座因子占了60%。
通过基因家族成员的进化分析并结合它们的相对位置,我们提出了高梁、玉米和薏苡22-kD基因家族的进化模型,kafirin、z1C和coixin基因都经历了两轮的基因扩增:早期的局部基因复制和后期的快速基因扩增。早期的扩增发生在大约1,000万年之前,产生了一个或数个复制基因。后期的扩增主要发生在500万年至100万年之间(高粱100万年之内),串联重复基因之间错配导致的不等交换(UCO,unequal crossing over)是复制的主要机制,结果产生了头尾相连的重复基因。在扩增的后期,玉米和薏苡基因组有大规模的反转座子入侵,使得这一区域更加复杂、庞大。同时基因组的膨胀也被不等交换和异常重组中和,我们认为异常重组(illegitimate recombination)对z1C基因区域删除DNA起了主要作用,而不等交换在coixin基因区域中发挥了更大的作用。
通过对该基因家族的表达情况研究发现,基因家族成员的表达与编码区结构的完整性相关,几乎所有完整的基因都是表达的,而所有表达的基因几乎都是完整的。基因的年龄与表达量的高低没有明显关联,基因的表达方式在基因复制后迅速产生分化。
对kafirin、zein和coixin基因区域的比较研究,丰富了我们对禾本科植物基因家族进化与表达的认识,同时也为我们研究基因家族的演化与利用野生近缘种的基因资源奠定了基础。