多叉进化树构建方法的研究与实现

来源 :北京工业大学 | 被引量 : 5次 | 上传用户:fdgerg454h4
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分子系统发育分析是生物信息学中的重要研究领域,它的主要研究手段是从一组同源的DNA或蛋白质序列出发,计算各个序列之间的进化距离,从而得到反映物种进化关系的进化树。进化树通常是一棵二叉树:树的叶结点,代表了某个具体序列;树的拓扑结构表现了各物种之间的亲缘关系远近;树的分枝长度刻画了进化距离的大小。构建进化树的方法主要分为三类,即距离矩阵法、最简约方法和极大似然法。其中,距离矩阵法以结构简单、具有良好的理论基础等特点获得了广泛的应用。但是,研究指出一些基于距离矩阵的建树方法在某些情况下会产生拓扑结构不惟一的进化树结果,即进化树的具体拓扑结构会根据同源序列输入算法的顺序不同而发生变化。不加权算术平均组对法(Unweighted Pair-Group Method using Arithmetic averages,以下简称UPGMA)是一种比较常见的距离矩阵法,该方法也存在上述问题。虽然该方法被设计为针对同一组序列数据产生惟一的进化树结果,但是可以证明在算法迭代过程中,如果距离矩阵中出现最小元素不惟一的情况,则算法产生的进化树拓扑结构是随着序列输入顺序的不同而变化的。这一现象为系统发育分析结果的解释带来了困难——在多个进化树结果中,显然只能有一棵进化树反映了真实的物种进化关系,但是在出现多个结果时UPGMA并不能判断哪一棵树的拓扑结构是正确的。并且大多数流行的分子系统发育分析软件并没有处理UPGMA产生的进化树不惟一的问题。通常仅根据算法实现方式的不同,给出了其中一种拓扑结构。针对以上问题,本文详细分析了UPGMA产生不惟一结果的原因,在此基础上提出并实现了UPGMA的一种改进算法,即不加权算术平均组群方法(Unweighted Multi-Group Method using Arithmetic averages,以下简称UMGMA)。UMGMA是UPGMA的一种扩展,而UPGMA可以看作UMGMA的一个特例。在迭代计算过程中,UPGMA总是选取距离矩阵中最小的元素对应的一对序列生成新的分类群单元。而UMGMA则通过引入距离容差参数τ,将所有小于τ的元素对应的序列作为生成新分类群单元的基础。该方法在一次迭代中可以产生多个新的分类群单元,因此其进化树结果可能是多叉树。在UPGMA结果不惟一的情况下,各种可能的二叉树结果在UMGMA中被综合构建成一棵惟一的多叉树,从而解决了惟一性的问题;而在UPGMA结果惟一的情况下,取距离容差参数τ等于零,UMGMA得到的结果将与UPGMA的结果完全一致。基于实际数据的进化树构建实验表明,UMGMA不仅能够产生结果惟一的进化树,而且通过选择不同的容差参数τ,还能产生不同层次的进化树。这意味着在大规模系统发育分析中,UMGMA可以通过调整τ的值,不断突出进化树的整体脉络。本文的课题研究工作中还实现了一种包含完整UMGMA算法实现以及传统UPGMA方法实现的分子发育分析软件——Multi-Tree。该软件是一个基于Microsoft .Net framework 2.0平台构建的客户端应用,其中使用WebService完成多序列比对功能,并提供一套基本的分子进化分析流程,包括:多序列比对结果编辑、距离矩阵计算以及多种方法构建进化树,并以多种风格显示进化树。Multi-Tree软件系统有别于大多数传统的分子发育分析工具软件包,它具有友好的富客户界面,支持多语言的界面显示。系统采用了基于插件的程序结构,从指定位置的一组程序集中动态获取系统的界面元素与业务逻辑,具有良好的扩展性与可维护性。
其他文献
自1999年Napster的流行,P2P技术的研究日益升温,近几年呈现了迅猛发展的态势,并被《财富》杂志誉为“将改观因特网未来的四大新技术之一”。P2P技术解决了传统C/S模型“单点故障
九十年代中期以来,Internet的飞速发展对电信业产生了巨大而深远的影响,基于分组交换网络的多媒体通信系统逐渐成为人们关注的焦点。音频和视频压缩技术、实时数据传输技术及
学位
以太网技术已经不仅仅广泛应用于局域网,而且在不断向城域网领域渗透。万兆以太网技术的成熟使得以太网技术在城域网中应用成为可能,而目前万兆以太网技术的可靠性、服务质量(Q
Cell处理器是一种高性能单片多处理器,它的出现使得处理器性能产生了革命性的进步,针对它的应用研究也越来越广泛,将会在更多的领域得到推广应用。基于像素的多分辨率纹理合
许多工程领域中的调度和规划问题都相当地困难,尤其是大规模调度和规划优化问题。飞机地面作业调度(AGSS)就是这样的一个问题。本文在回顾了飞机地面作业调度相关领域的研究
随着移动通信的高速发展和Internet用户数目的急剧增加,越来越多的人希望在移动过程中使用移动终端通过无线方式接入Internet,以获取所需的信息,并且能够在移动的时候获得与静态
XML,(eXtensible Markup Language)已成为数据交换事实上的标准,随着Web的发展,越来越多的XML数据以流的形式存在,如何在XML,流上高效地执行查询成为当今研究的热点。XML查询的语
目前,大多数垃圾邮件过滤器独立工作,所能获得的垃圾邮件信息较少,效率较低。不仅如此,垃圾邮件制造者不断地利用新技术和新方法,使垃圾邮件的内容和发送手段等都发生了明显
由于广泛的应用前景,无线自组网已经成为通信,网络,系统等研究领域的一个热点。在无线自组网中,组通信模式的应用更为常见,比如:战地通信,视频会议,路由搜索,数据采集等,而多播被公认为
随着FPGA技术的快速发展,所支持的高级硬件平台呈现高速、并行性、原型数字系统快速开发和可优化等特点;另一方面,在信息时代,数字图像压缩技术得到了广泛应用,其中,JPEG图像压缩算