面向新一代测序技术的基因拼接算法

来源 :山东大学 | 被引量 : 0次 | 上传用户：dxw2814

【摘要】

：

基因拼接是生物信息学领域研究的基础课题之一,也是一个难度较大但十分有意义的研究课题。基因拼接是指从给定的基因序列集合出发,利用计算机技术,再重新构造出该生物DNA序列

【作者】

：

赵坤

【机构】

：

山东大学

【出处】

：

山东大学

【发表日期】

：

2015年期

【关键词】

：

基因拼接新一代测序 De Bruijn图动态哈希 MPI

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

基因拼接是生物信息学领域研究的基础课题之一,也是一个难度较大但十分有意义的研究课题。基因拼接是指从给定的基因序列集合出发,利用计算机技术,再重新构造出该生物DNA序列的过程。新一代测序技术的出现和发展大大改变了基因研究领域并加快了生物学和医学研究的进程。新一代测序技术一次可以获得几百万条序列信息,能在短时间内完成整个基因组数据的测定,但相比于传统测序技术,成本却下将了数十倍。目前,基因研究工作面临最大的挑战是新测序的基因序列数据无法得到及时的计算和分析,后续的研究工作也无法开展。高效的基因拼接算法的研究,将对当前生物信息学的发展起到关键性的推动作用。目前基于新一代测序技术产出的短基因序列进行基因拼接的,主要有Greedy-extension, Overlap图和De Bruijn图三种方法。De Bruijn图方法需要寻找的是一条Euler路径,而Euler路径问题的时间复杂度在理想情况下是线性的。De Bruijn图方法另外一个吸引人的特性是其可以将基因中的重复区域进行收缩,并且不会产生错误的重叠。在本文中,我们使用了动态哈希技术来构建De Bruijn图。由于设计了性能良好的哈希函数及有效的解决冲突的方法,并选择了合适的装填因子,算法中哈希表的插入和查找操作的时间复杂度较低。由于在拼接过程中查找是一个频繁的操作,查找操作时间复杂度的下降,对整体性能的提高起到了很重要的作用。同时哈希表的动态扩展使得算法可以适用于不同大小的生物数据的拼接。由于生物的基因数据很大,作为拼接算法的输入,基因文件往往可以达到数百GB甚至TB级别,这样文件I/O时间在算法总时间中所占的比例会很大。为了有效的减少文件I/O的时间,本文提出了并行I/O思路。在算法的开始,基因文件会被平均的分割成更小的子文件,这些子文件又会被平均的分配给每一个进程。然后每个进程并行的读取各自的子文件,并通过进程间通信来交换彼此需要的连接信息。本文在对de bruijn图进行充分分析的基础上,在生成contig和scaffold的步骤中,同时使用了基于共享内存多线程技术和基于分布式内存的多进程技术,充分利用了分布式集群的资源。通过实际拼接三个双末端的基因数据与一个人类基因组数据,并与PASHA和ABySS两个软件作比较,可以发现我们的算法在保证了拼接质量的前提下,获得了较好的性能。当使用64个CPU核来进行实验时,我们的算法获得了将近7倍的加速比。

其他文献

图像的不对称性计算方法及应用研究

人体的对称性不仅发生在外形，在骨胳和器官结构方面上也存在许多近似对称。在外形方面，对称通常表现为镜像对称。如果某个人的一种器官医学图像比其他人的器官图像显得更不对称

学位

不对称性原理图像计算方法胆脂瘤辅助诊断

基于JXTA的协作文本编辑系统的设计与实现

随着计算机和网络技术的发展,使得人们通过网络来协作完成同一件工作成为可能。计算机支持的协同工作(Computer Supported Cooperation Work: CSCW)研究领域正是在这样的背景

学位

协作编辑并发控制P2PJXTA

k-ary n-cube网络中的死锁及负载均衡研究

作为互连网络中一种流行的拓扑网络,k-ary n-cube网络目前面临着多应用、多业务以及业务分布不均等问题,这就要求设计的路由算法要有较强的负载均衡能力,以及所采用的死锁解

学位

k-ary n-cube网络路由算法负载均衡死锁

构件组装技术研究及组装工具的实现

基于构件的软件开发方法能够有效地提高软件开发的质量和效率,而构件组装技术是实现基于构件的软件开发的关键。目前,构件组装技术还多半停留在手工组装的阶段,自动化甚至半

学位

软件开发构件组装技术功能描述工具管理

基于网格技术的网络中心战仿真及其应用研究

网络中心战是人类战争进入信息化战争时代后，所提出的一种最新的作战思想和作战方式。它的实质是利用计算机网络把地理上分散的部队、各种探测器和武器平台连接成一个整体，实现

学位

网格技术计算机网络军事指挥平台资源

基于CMMI三级的JMIT项目管理系统的研究与实现

CMMI的全称为：Capability Maturity Model Integration，即集成能力成熟度模型。CMMI受到了世界各地许多公司的重视，得到了极为广泛的认可。然而，CMMI的应用不仅需要对CMMI有很深

学位

集成能力成熟度模型软件工程软件能力成熟度模型项目管理管理系统

LDPC纠删码的二部图构造算法研究

近年来,二元删除信道模型由于其可用来模型化互联网传输系统而受到广泛关注。基于稀疏随机二部图模型的LDPC纠删码以线性时间复杂度的编译码算法和可任意逼近删除信道容量限

学位

LDPC纠删码二部图构造算法右边正则纠删码Tornado码PEG算法

基于整体轮廓的步态识别研究技术

步态识别是生物识别技术研究中的新领域，它旨在根据人们走路的方式进行身份识别。步态识别以远距离识别、非侵犯性和难以隐藏等特点引起了视觉研究者的浓厚兴趣，成为近年来计算

学位

步态识别人体轮廓计算机视觉

跨语言信息检索中消歧算法的研究

跨语言信息检索是指用户用某种语言从另外一种或多种语言表达的文献信息集中检索出所需文献信息的方式或技术。研究目的是希望在信息时代，克服语言壁垒，提供跨语言的文献信息检

学位

跨语言信息检索文献信息检索服务查询翻译语言歧义性消歧方法贪心算法

基于Bitmask & RLE的FPGA配置文件混合压缩算法的设计与实现

FPGA（Field-Programmable Gate Array）作为一种半制定电路，不但解决了专用集成电路功能逻辑灵活性的不足，同时克服了原有可编程器件门电路数量十分有限的缺点。越来越广泛的用于

学位

集成电路可编程器件芯片设计压缩算法

面向新一代测序技术的基因拼接算法

与本文相关的学术论文