两物种小系统发育问题的算法研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:nimin518
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着分子生物学和全基因组测序技术的快速发展,产生了大量的基因数据,这使得对基因家族分子进化的研究成为可能。重建基因家族进化史对解决许多基本生物学问题起着非常关键的作用,近年来得到广泛的关注和重视,并发展成为比较基因组学中一个重要的研究方向。两物种的小系统发育问题是构建基因家族进化史的重要子问题。本文主要对该问题的求解算法进行研究,并开发了一个实用的软件包,具体工作如下:针对复制-丢失比对问题模型,对两物种小系统发育问题的算法进行研究,首先提出比对算法A LING,该算法基于字符最大匹配原则,通过在两条基因序列中插入一定数量的空格,以得到两条基因序列的一个序列比对。其次,对于给定的一个序列比对,本文提出种标记算法LABLE该算法分别从左至右和从右至左两个方向进行,利用复制-丢失操作序列标记给定的序列比对,并取对应代价较小的操作序列作为最终标记。论文基于提出的ALIGN算法和LABLE算法,设计了一种求解复制-丢失演化模型下两物种小系统发育问题的遗传算法G2SP。算法G2SP通过ALIGN产生初始解,利用LABLE来衡量解的适应度,并引入了重新匹配基因块、基因智能移动及移动基因块3种智能变异算子,以提高种群的收敛性,使算法能更快地进化到最优解区域。利用6种真实菌属的rRNA基因数据和模拟数据对算法性能进行测试,实验结果表明,算法G2SP能够获得较PBLP算法更小的进化代价,且其运行时间在实际应用中是可行的,是求解两物种小系统发育问题的一种有效方法。根据G2SP算法思路,设计并实现了一个用于求解复制-丢失演化模型下两物种小系统发育问题的实用软件包。该软件包使用c#言和Visual Studio2012开发工具进行开发,可以在装有NET Framework4.0 的 window XP 及 window 7以上的系统中运行。该软件包主要包括参数设置、读入生物数据、重建祖先、查看结果和帮助等功能模块。参数设置模块可以根据具体情况,设置进化周期、种群规模、迭代次数、变异率和交叉率等实验参数。读入生物数据是指从文本文件中读入两条生物的基因序列,每条序列由代表特定基因家族的基因构成。该软件在求解问题过程中同时显示运行时间及每次迭代的最优解等信息,最终结果保存在文件中,记录两条基因序列带有标记的序列比对、祖先信息序列及两条基因序列的进化史。综上所述,本文对两物种小系统发育问题的求解算法进行研究,针对复制-丢失比对问题模型,提出了有效的遗传算法G2SP,并获得了较好的优化效果,为解决系统发育问题提供了一种新的思路和方法。此外,开发的软件包可为求解复制-丢失演化模型下的两物种小系统发育问题提供实用工具。
其他文献
IB方法是基于率失真理论的无监督数据模式分析方法,它自1999年提出至今已在众多领域取得成功的应用。IB方法具有严密的理论基础,它通过将数据数据对象压缩到一个“瓶颈”变量
随着计算机技术、网络技术和电子商务技术的广泛应用,工作流技术得到了飞速的发展。同时,由于企业业务过程重组的不断深入,对流程适应业务需求的动态变化也提出了更高的要求
CT断层图像三维重建是指通过医学诊断仪获取连续的二维切面图像,然后将这些二维图像之间的位置和灰度信息输入计算机,在计算机上进行相应的组合和处理,最后在显示器上再现人
在互联网及其普及的今天,内容的分发和共享已经成为人们获取信息越来越主要的方式。同时网络上拷贝的盗版也日益猖獗,损害了作者和内容出版商的利益,挫伤了积极性。应运而生的DR
传感器技术和移动互联网的发展使得基于位置的信息服务成为可能,基于位置的信息服务已经成为人们日常生活中不可缺少的一部分,然而它们也带来了一些潜在的威胁。匿名化则可以
电子邮件作为一种高效、经济的现代通信技术手段,已成为互联网最大的应用之一,然而,日益泛滥的垃圾邮件严重影响了个人和组织的工作效率。传统的黑名单、关键词、邮件路由等
本文主要研究了一个支持多平台的C语言编译器,它可以在Windows主机上运行,可编译和反编译运行在Intel 80486实模式、无操作系统目标机下的可执行程序,优化性能卓越,编译目标
随着计算机科学技术的快速发展,软件的应用领域逐步扩大,开发规模与开发成本逐渐增加,软件质量问题已经日益成为人们关注的焦点。虽然由美困卡内基梅隆大学软件工程研究所提
随着生命科学研究的不断深入,生物信息学所涉及的研究范畴也在不断地扩展。微阵列(microarray)技术作为生物信息学中极具发展前景的技术之一,得到了学者们的关注和普及,该技术