基于序列统计特征的全基因组系统发生分析

来源 :东南大学 | 被引量 : 0次 | 上传用户:bohaiyifan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
系统发生(phylogeny)是指生物形成或进化的历史.系统发生分析就是通过对生物学数据的建模,直接比对DNA序列或蛋白质序列获得距离矩阵,或者提取特征,比较特征(特征相似的生物被认为在遗传学上接近),从而,研究生物形成或进化的历史.物种信息特征的提取是系统发生分析的关键,是分析结果可靠性的保证.传统的基于序列比对的方法依赖于基因或蛋白质序列的选取,并且不能进行长序列大规模的计算,传统的基于全基因组的方法由于数据源的缺乏和方法本身上的一些缺陷,也不能很好的进行大范围内的物种系统发生分析.该文通过对现今生物数据库中数据最丰富完整的、能够反映遗传进化本质的基因组序列进行统计分析,从而提取出能够反映序列局部结构的特征,来进行系统发生分析,既解决了长序列大规模计算的问题,又解决了数据的来源问题,使得能够在比较大的范围内进行物种之间进化关系的分析.该文首先研究了两种统计特征——二联核苷酸相对丰度(DRA)和碱基对的关联性(BBC)的稳定性.发现DRA特征的稳定性相当好,BBC特征的稳定性在参数K=2时最好,但较DRA差一些.这两种统计特征都能很好的区分物种,同一物种的染色体序列,特征很相似,用较小的片段进行计算得到的结果,也能够很好的反映整条序列的特征.同时,我们还发现,当不能得到全序列时,同一染色体序列的不同序列片段的特征向量的均值能够更真实地反映全序列的特征,这提供了一种提高特征稳定性的方法.对这两种序列统计特征的稳定性研究表明,序列的统计特征可以作为基因组的标记.用DRA和BBC特征进行了物种的系统发生分析研究和线粒体进化的研究.对真核生物的研究结果符合现今公认的真核生物进化关系,而对古细菌和细菌研究的结果就不甚好,这与微生物的进化模式有关.我们对线粒体的进化研究结果支持线粒体的共生起源假说.此外,我们还对BBC特征稳定性研究和基于BBC特征的系统发生研究中发现的一些特别现象做了更进一步的研究.发现了疟蚊的3L染色体的特殊性,它在比较长程的碱基相关性特征上与其线粒体相似.确定了BBC的不稳定分量与物种之间存在联系,即不同物种的序列BBC特征不稳定的分量不同,而相同物种的序列的BBC特征不稳定的分量相同.发现了人第7号染色体上有两个序列片段很特殊.最后,设计了基因组特征数据库,提供计算序列特征的算法程序,将多种基因序列的统计特征加入到数据库中,提供基于特征的序列搜索.这样的搜索机制能够找到在某些功能结构上面相似的序列,而不仅仅是序列上相似的序列,并且计算耗时少.
其他文献
在该文中,通过对国内外大量相关文献的收集、整理和研究,较为系统地了解了铝电解惰性阳极问题的由来、发展过程以及现状,形成了一些观点,由此确定了实验目的,设计出实验方案.
植酸酶(phytase,phyA)是催化植酸及其盐类物质水解成肌醇和磷酸的一类酶的总称.它具有分解植酸盐的特殊作用,能促进单胃动物对磷的吸收;能使饲料中磷的利用率提高50%左右;同时
该文主要研究了FeCuNbSiB系纳米晶软磁合金在不同出炉温度下的温度特性,频率特性以及磁冲击稳定性问题.在实验过程中,采用在非真空状态下喷制的FeCuNbSiB非晶态合金及不同出
在电炉炼钢企业处于废钢资源普遍短缺的情况下,安阳钢铁公司第一炼轧厂面临着开发利用废钢替代品的艰巨任务。本论文主要研究了电弧炉冶炼过程的物料平衡与能量平衡,比较整个冶
脑卒中是严重危害人类健康和生命安全的常见疾病,存在着明显三高(发病率高、致残率高、死亡率高)现象。据“中国心血管病报告”(2008-2009年)统计我国每年新发脑卒中至少200万人
近红外光无创伤检测组织血氧饱和度的技术在乳腺癌的检查诊断方面的应用已越来越多地受到临床医生的重视,根据以往恶性肿瘤的基础研究,近红外光无创伤检测乳腺癌以高血低氧为
钙磷材料是一类具有优良的生物相容性而被广泛研究和应用的生物材料。钙磷材料的纳米化是一个新趋势,但其制备和纯化过程往往耗时较长,操作繁琐。因此改进纳米钙磷材料的制备技
学位
本论文是国家自然科学基金项目——“高分子材料表面细胞可识别分子模型及内皮化机理的研究”和“心包材料表面修饰及内皮化机理研究”两个项目内容的一部分。 心血管对其