论文部分内容阅读
系统发生(phylogeny)是指生物形成或进化的历史.系统发生分析就是通过对生物学数据的建模,直接比对DNA序列或蛋白质序列获得距离矩阵,或者提取特征,比较特征(特征相似的生物被认为在遗传学上接近),从而,研究生物形成或进化的历史.物种信息特征的提取是系统发生分析的关键,是分析结果可靠性的保证.传统的基于序列比对的方法依赖于基因或蛋白质序列的选取,并且不能进行长序列大规模的计算,传统的基于全基因组的方法由于数据源的缺乏和方法本身上的一些缺陷,也不能很好的进行大范围内的物种系统发生分析.该文通过对现今生物数据库中数据最丰富完整的、能够反映遗传进化本质的基因组序列进行统计分析,从而提取出能够反映序列局部结构的特征,来进行系统发生分析,既解决了长序列大规模计算的问题,又解决了数据的来源问题,使得能够在比较大的范围内进行物种之间进化关系的分析.该文首先研究了两种统计特征——二联核苷酸相对丰度(DRA)和碱基对的关联性(BBC)的稳定性.发现DRA特征的稳定性相当好,BBC特征的稳定性在参数K=2时最好,但较DRA差一些.这两种统计特征都能很好的区分物种,同一物种的染色体序列,特征很相似,用较小的片段进行计算得到的结果,也能够很好的反映整条序列的特征.同时,我们还发现,当不能得到全序列时,同一染色体序列的不同序列片段的特征向量的均值能够更真实地反映全序列的特征,这提供了一种提高特征稳定性的方法.对这两种序列统计特征的稳定性研究表明,序列的统计特征可以作为基因组的标记.用DRA和BBC特征进行了物种的系统发生分析研究和线粒体进化的研究.对真核生物的研究结果符合现今公认的真核生物进化关系,而对古细菌和细菌研究的结果就不甚好,这与微生物的进化模式有关.我们对线粒体的进化研究结果支持线粒体的共生起源假说.此外,我们还对BBC特征稳定性研究和基于BBC特征的系统发生研究中发现的一些特别现象做了更进一步的研究.发现了疟蚊的3L染色体的特殊性,它在比较长程的碱基相关性特征上与其线粒体相似.确定了BBC的不稳定分量与物种之间存在联系,即不同物种的序列BBC特征不稳定的分量不同,而相同物种的序列的BBC特征不稳定的分量相同.发现了人第7号染色体上有两个序列片段很特殊.最后,设计了基因组特征数据库,提供计算序列特征的算法程序,将多种基因序列的统计特征加入到数据库中,提供基于特征的序列搜索.这样的搜索机制能够找到在某些功能结构上面相似的序列,而不仅仅是序列上相似的序列,并且计算耗时少.