高效的分布式大规模基因组序列组装

来源 :天津工业大学 | 被引量 : 0次 | 上传用户:Willy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在基因组序列组装算法中,一个最基本的问题就是如何合适的选择上下游的短序列用于组装成一个长序列。当单独从一个种子序列进行扩展的时候,大量的重复的区域将会导致非常多的扩展的候选,从而导致序列组装问题非常的复杂。目前通用的方法就是选择一个基于短序列(双端序列)之间的重叠信息然后进行组装的。然而当所组装的基因组序列是非常高重复的复杂数据的时候,这种方法将面临巨大的挑战,尤其是序列数据中还包含有错误、高重复的序列以及不均衡的测序深度导致基因组中某些区域只有少量的序列覆盖或者大量的序列覆盖。所有的这些原因导致了现在的组装程序得不到最完美的组装基因组数据。本文提出了通过原始读长信息寻找基于多个无参考序列的拼接算法产生的重叠群之间的重叠信息,来进行再组装。算法通过首先将重叠群建立k-mer位置索引,然后进行读长映射、潜在重叠群聚类、可组装重叠群聚类等步骤进行搭支架。整个算法流程能高效率便捷的运行.我们将整个算法流程设计为基于Hadoop的分布式平台,并在多个部分使用MapReduce算法,且在较小的内存机器上就可以运行。在大肠杆菌的基因组数据集上运行结果表明,本文提出的算法在组装的多项指标上据表现出良好的性能,在N50指标上有将近46%的提高,整体的组装覆盖度更加接近参考序列,并且算法能在Hadoop平台上高效的运行。
其他文献
数据挖掘的主要目标就是在海量数据中发现隐含在数据内部的不易被察觉的对决策者有用的信息。面临海量的数据资料,我们的首要的使命是将这些数据进行合理的归类。聚类的定义
随着国民经济的篷勃发展,公路担负着国民经济大动脉的重任,而高速公路以“高速”的突出优势成为公路运输的主要交通设施。作为高速公路使用者和管理者,对高速公路的基本要求
类圆形堆积物图像的分割已经成为目前图像分割的热点之一,具有极大的研究价值。本文从多方法融合的角度出发对堆积物图像的分割进行了研究。首先,提出了同心双滑动窗口的改进
随着企业组织信息化程度的提高和互联网技术的广泛应用,大量数据分散在异构的数据源中,因而无论是传统的信息孤岛问题,还是新兴的Deep Web搜索都要求提供一个统一的查询接口
分形图像压缩方法是一种很有前途的图像编码方法,以其新颖的思想、高压缩比、分辨率无关性和快速解码等优点而广受关注。本文研究了分形的基本理论以及分形图像压缩的基本方
变电站运行人员的个人技能是影响电力系统安全可靠运行的重要因素之一,而良好的培训则能够显著的提高操作人员的技术能力。仿真培训是目前国内外电力系统的主流培训手段。经过对各类型变电站仿真培训系统的调查研究,我们分析、总结了这些仿真系统的优缺点,并在此基础上进行创新设计。同时,我们结合了软件工程思想,按照需求分析、可行性分析、体系结构设计、模块设计、详细设计、测试与维护等步骤,开发出了这套通用变电站仿真培
为了从Windows操作系统用户群中吸引潜在用户,UnifiedKernel系统旨在于Linux操作系统上运行Windows应用。在用既有软件测试UnifiedKernel系统与Windows操作系统的兼容性时,开
CDN的全称是Content Delivery Network,即内容分发网络。其目的是通过在现有的Internet中增加一层新的网络架构,将网站的内容发布到最接近用户的网络"边缘",使用户可以就近取
近几年来,随着GIS技术和Internet技术的不断发展,WebGIS有了很广泛的应用。由于GIS具有数据量大和响应要求快等特点,传统WebGIS已经不能很好地满足用户的浏览体验,如系统响应
随着中国汽车保有量的激增和国家对汽车性能检验的强制推行,客户对汽车检测线的要求也不断提高;同时,相关IT技术的迅速发展也为我们提供了更加先进和完善的解决方案。笔者在