论文部分内容阅读
基因组序列k-mer分布的理论研究一直倍受关注。研究者提出了各种k-mer分布的概率模型和参数等。主要的关注重点在于研究极端偏好或稀有的k-mer以及这些模体可能的生物学功能。一些工作研究了全基因组序列的k-mers分布。物种从低等的九噬菌体、细菌到高等生物人类。发现低等生物k-mer(k>6)频数呈单峰分布,而高等生物(四足哺乳动物)的k-mer(k>6)频数呈三峰分布。但产生三峰或单峰现象的本质仍不清楚。我们将基于五种真核生物8-mer使用的分离现象,研究8-mer的序列特征与8-mer使用分离的关系,以揭示不同序列的结构组成和物种之间的进化关系。 选取人类、小鼠、斑马鱼、线虫和酵母这五种生物基因组序列为样本。分别提取各个基因组中的基因间序列、内含子序列和编码序列,统计每类序列8-mer出现的频次,得到8-mer相对模体数随频次的分布。发现斑马鱼、线虫和酵母的各类序列均呈单峰分布,人类和小鼠基因间序列和内含子序列呈三峰分布,它们的编码序列呈单峰分布。表明人类和小鼠的基因间序列和内含子序列中8-mer频次出现了明显的使用分离现象。我们推测在斑马鱼、线虫、酵母和人类小鼠的编码序列中仍存在8-mer使用分离现象,只是分离程度不同。 为了探寻各类序列的8-mer使用分离,揭示三峰分布和单峰分布的根本原因,将全体8-mer集合按照包含CG二核苷的数目分为0CG、1CG、2CG三个模体子集(称CG分类),并给出各子集8-mer的相对模体数分布。发现0CG、1CG和2CG子集呈现完全独立的单峰分布,且三个子集的分布与人类和小鼠基因间序列和内含子序列的三个峰严格对应。而出现单峰分布的序列实际上是CG分类的三个单峰分布的叠加。由于CG分类的三个单峰距离较近而造成全部8-mer单峰分布的现象,人类和小鼠基因间序列和内含子序列的三峰现象是由于CG分类的三个单峰距离较远而造成的。这就是三峰或单峰现象的本质。还发现在其它15种XY二核苷分类中,0XY、1XY和2XY子集并未呈现完全独立的单峰分布,因此CG分类的模体子集反映了各类序列的组成结构和基因组序列的进化模式。 将序列的长度标准化后进行比较发现:0CG模体分布中心与随机序列分布中心一致,2CG和1CG模体频次远远小于0CG中的模体频次。表明2CG和1CG模体是定向进化的,0CG模体是随机进化的。1CG模体分布的最概然相对模体数在不同物种和各类序列中明显大于0CG,表明定向进化是以CG二核苷为中心展开的。生物进化水平越高级,所有序列的0CG、1CG和2CG三个模体分布中心之间的距离越大。对同一个物种,基因间序列和内含子序列的三个模体分布中心之间的距离无明显差别。基因间序列和内含子序列的三个模体分布中心距离随物种进化显著增大,而编码序列的三个模体分布中心距离随物种进化增大缓慢。表明编码序列的进化具有保守性,物种进化主要体现在非编码序列上。 综上说述,基因组DNA序列是由0CG、1CG和2CG三类8-mer模体组成的。0CG模体的使用遵循随机进化规律,1CG和2CG模体的使用遵循定向进化规律,而定向进化是以CG二核苷为中心展开的。三类模体组成成分的差异是基因间序列、内含子序列和编码序列差异的根本原因。基因组序列的进化差异主要体现在非编码序列上,或者说是1CG和2CG定向进化和0CG随机进化的结果。三类模体频次分布距离大小是序列的8-mer频次呈现单峰或三峰现象的根本原因。本文的研究对于进一步阐明各类序列的结构和基因组的进化规律具有重要意义。