基于De Bruijn图的宏基因组序列组装算法研究

来源 :广西师范大学 | 被引量 : 3次 | 上传用户:A406800
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微生物群体中包含着大量诠释人类健康、自然进化和生态构成等问题的重要信息,高通量测序技术使获取这些信息成为可能。通过对微生物群落的样本数据进行测序,产生了大量的宏基因组测序片段数据,准确地分类拼接测序片段对获取微生物群体的真实信息提供了重要前提条件,从而保证了宏基因组学研究的精度和效率。近年来,利用DNA测序片段数据组装宏基因组序列的计算问题深受关注,本文针对该问题进行研究。由于大部分微生物的基因数据均是未知的,针对这个数据特点,本文基于De Bruijn图提出从头拼接宏基因组序列的方法CLUSTERH。首先,CLUSTERH方法将测序片段分解为K-mers以构建De Bruijn图,并通过调节K值来去除测序错误;其次,由于不同物种间的基因相似区域较相同物种亚种之间的基因相似区域要少,基于这个思想,CLUSTERH通过试图去除De Bruijn图中的cr分支,将De Bruijn图划分成一组孤立的子图,其中每个子图代表一个物种或者一个物种的多个亚种;最后,CLUSTERH通过多序列比对的方法来获得物种的基因序列。利用美国国立生物技术信息中心NCBI网站发布的生物数据进行实验测试与分析。结果表明,CLUSTERH算法对于携带和不带mate-pair片段的测序数据,均能获得较高精度的宏基因组组装序列,有效地放松了对测序数据的mate-pair片段要求,从而可以进一步降低测序成本,且算法的实用性更强。基于CLUSTERH方法,设计并实现了宏基因组序列组装测试软件包。该软件包使用C++语言进行开发,在Linux 64-bit操作系统下运行。主要包括参数设置、读入生物数据、宏基因组组装、查看结果以及分析结果五大模块。参数设置模块可以根据具体情况,设置生物数据格式,选择片段数据是否带mate-pair信息、生成文件路径等。读入生物数据是指从文本文件中读入测序片段数据,数据文件为fasta格式。宏基因组组装过程当中,可动态显示划分图过程中的去边过程,最终结果保存在外部文件中,并提供对结果的有效性分析。综上所述,本文对宏基因组序列组装问题的求解算法进行研究,提出了有效的算法并取得了较好的组装效果,为解决宏基因组数据组装问题提供了一种较好思路和方法。
其他文献
安全配置的语句决定了网络安全设备的行为。而配置语句表述了人们对网络的控制意图,即控制语义。访问控制常部署于防火墙、路由器、入侵检测系统等网络安全设备中。若一台设备
计算机视觉既是工程领域,也是科学领域中一个富有挑战性的重要研究方向。近年来,随着图像获取技术的进步和视觉监控与安全方面的迫切需求,视频图像的处理和理解逐渐成为计算机视
随着互联网技术的普及,电子商务、在线社会网络、云计算等基于互联网的应用也得到迅速发展,网络上正在快速聚集多类型、海量的数据资源。正是这些海量数据为人类进行科学研究
Internet是目前全球规模最大的计算机通信网,它的范围遍及全球几乎所有的地区。WWW(Word Wide Web)是一个大型的分布式超媒体信息数据集合,它的出现极大地推动了Internet的发
随着Internet的快速发展,人们越来越关注如何更好地为用户提供个性化和增值服务,由此业务选择网关应运而生。当前市场上的业务选择网关都是面向网络运营商的粗粒度的设备,而
随着网络规模的日益扩大和网络信息的逐渐增加,一些大型的组织机构中应用系统比较多,这些应用系统由于开发的时间和背景不同,相应的平台和技术架构也不一样。这样就会出现每
图像的大部分信息都是从图像边缘感知的,人们观察一幅图像时首先认识到的是图像中物体的形状也就是边缘信息。边缘包含着图像中多种有用的信息,它是图像最基本的特征。边缘检
随着信息技术的飞速发展,特别是计算机互联网络和移动通信技术的推广应用,人们获取、交流和处理信息的手段发生了巨大变化。网络带来方便的同时,信息的安全性也日益严峻,信息在网
高强度激光通过非线性介质时,因受上游光学元件上的污点或缺陷等模糊斑调制,在下游会导致非线性热像的形成,热像强度可能达到光学元件的损伤阀值,从而造成元件的损坏。系统研究强
随着Internet技术的不断发展,企业对于信息的依赖已经到了前所未有的程度,信息化的快慢直接决定着企业的前途和命运,企业级Web应用的需求随之日益增多。为此企业级应用系统的多