基于de Bruijn图的DNA多序列比对并行算法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:feng211314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多序列比对是目前生物信息领域研究的重要课题之一,在基因识别、蛋白质结构预测等领域有着广泛的应用。由于问题本身所固有的复杂性,至今还没有一个令人满意的算法,同时随着生物数据的不断增长,串行算法已不能满足人们的需求。本课题重点研究了如何利用de Brujin图进行多序列比对及其并行化处理方案,提出了一个新的多序列比对并行算法PL_GAlign。课题的主要工作与贡献.如下:   在基于图论的算法中引入了距离参数并采用了改进的星形比对算法:详细分析了目前使用比较广泛的多序列比对算法,但是常用的并行划分策略对该类算法的执行效果较差。因此重点研究了基于图论的多序列比对算法并对其进行了改进:为了更好的适应基因的变异性,在该类算法中引入了距离参数d,将现有算法的精确匹配修改为允许一定误差的模糊匹配。在应用 de Bruijn图得到中心序列后,摒弃了现有算法中常用的动态规划算法,采用了更为适合这种情况的星型比对算法并对其进行了改进,从而使该算法的时间复杂度降低至几乎线性。   针对算法中的各个阶段提出了并行处理策略:针对多序列比对的高计算复杂性问题,研究了基于 de Bruijn图的并行化处理方案。分别对基于图论的多序列比对算法中的构建 de Bruijn图、去环、寻找最大权值路径和两两比对阶段的串行处理过程和可并行性进行了探讨,提出了各个阶段的并行处理策略。   最后进行了一系列数据测试,实验结果证明PL GAlign算法在运行速度上要优于现有的迭代法,尤其当输入序列较长且数目较多时,这种优势更为明显。在精度上略好于目前使用最广泛的 CLUSTAL W算法。
其他文献
云计算作为一种以网络为基础的计算模式和服务提供方式,一方面,它集中了C/S计算、对等计算、分布式计算、协同计算等计算模式的优点;另一方面,它屏蔽了各类终端在cpu处理能力、存
合成孔径雷达(SAR)是一种高空视觉系统,具有全天候、远距离、极强的穿透力和高分辨率等特点。针对SAR图像的目标识别已成为国内外研究的热点,而如何精确地提取图像特征和采用
省级府各个部门正积极建设各自的应急平台,但是由于早期没有统一的规划,各个单位或者部门的应急系统采用了不同的系统环境和实现技术,导致了“信息孤岛”的形成,异构应急平台间的
非一致性内存访问(NUMA,Non-Uniform Memory Architecture)架构是目前主流的高性能服务器架构之一。NUMA架构的主要特点是访存延迟的不一致性,即处理器访问本地内存所需时间
三维地质建模是地学可视化的分支之一,是通过地质体边界及其特征数据,利用计算机模拟地质体的表面形态特征和内部属性,以图像的方式再现真实的地质体,使人们更加直观的认识地质空
在无线传感器网络中,由于没有固定的基础网络设施,传感器节点以广播的形式进行通信,容易引起广播风暴等问题。为了提高网络带宽的利用率,降低传感器能源消耗,通常利用连通支
身体控制游戏是一种利用玩家运动和动作来设计交互的新电脑游戏。由于身体控制游戏与以往电脑游戏有很大不同,因此在市场上取得了极大成功。最近几年,身体控制游戏得到广泛的
随着Web技术的不断发展,Web应用程序以丰富的功能和强大的交互性等优点越来越受人们的青睐,随之而来针对它的攻击数量也日益剧增。其中,XSS攻击是Web应用程序中数量最多的攻
虚拟化技术正在被广泛地应用于企业数据中心、高性能计算、云计算等环境中。在这样的一些环境中,虚拟机网络通信的性能是影响上层应用性能一个关键的因素,虚拟机的网络通信存
科研资源共享计划(e-Science)是一个全球性的计划,旨在实现各个科研领域的合作,使用云计算的思想来解决e-Science上的资源共享问题越来越受到重视。在e-Science平台上,存在着