基于哈希的高通量生物基因测序数据处理算法优化

来源 :山东大学 | 被引量 : 0次 | 上传用户:lastkaixin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着生命科学技术不断发展,特别是在高通量测序技术(通常称为下一代测序,Next Generation Sequencing,NGS)的飞速发展推动下,生命科学中生成的数据量大大增加,基因组测序项目的数量和测序数据的数量急剧增加。高通量测序数据在飞速增加,但处理器的性能提升速度却逐年放缓,甚至接近停滞,单个处理器的性能已经难以进一步扩展。在2015年,由于提升芯片频率等方法会进一步加大芯片的散热问题,同时,指令级的流水和并行也出现了巨大的局限性和低效性,各种微体系结构的改进已经达到瓶颈,处理器性能的提升现在每年只有3.5%,平均20年提升一倍,摩尔定律在芯片领域几乎已经失效。因此学者们开启了多核和异构体系结构的研究,不需要改变程序的算法和实现仅仅依靠芯片性能提升从而使程序性能获得大幅度改善已经变得越来越困难,“免费午餐”的时代已经过去。因此,一方面生命科学高通量测序数据一直在急剧增加,另一方面近年来计算性能的提升主要集中在新兴体系结构的发展,因此在新的体系结构上如何处理高通量测序数据是急切需要解决的问题。基因纠错和基因比对是高通量测序数据处理中前期的两个步骤,纠错和比对在同构CPU上的研究已经有很多,但是针对异构架构处理器的研究和针对大规模数据集的处理研究相对较少。如何在基础的算法上进行改进使得计算量减少,如何针对新兴的异构体系架构进行针对性的设计以适应不同架构处理器的特点,如何进行分布式的实现以针对大规模的数据集,都是需要解决的问题。本文的工作主要针对以上问题,围绕DNA测序数据处理过程中的基因纠错和序列比对在Intel多核和众核架构以及国产自主设计的处理器SW26010等体系结构上的算法设计和针对性实现进行研究。本文的主要研究成果如下所述:1)本文提出了一种可扩展的并行纠错算法SPECTR,旨在提高各种Intel并行平台上Illumina DNA短序列进行纠错时的吞吐量。SPECTR的实现基于k-谱方法,针对Intel多核和众核架构以及异构计算集群采用了许多针对性的优化。本文针对SPECTR中的一个关键操作Bloom过滤器的查询进行了优化,对数据重新布局,加快了查询速度,对查询工作中的共同操作,抽象出查询中向量化需要的一般操作,实现了 Bloom过滤器查询操作的异构计算框架。在纠错过程中,本文设计了一个基于堆栈迭代的方法来取代在异构架构上性能较低的递归操作。在单个设备内,本文使用OpenMP的动态任务划分实现了负载均衡。针对单个节点的多个设备,本文设计了数据的分发框架,实现了不同设备间的负载均衡。针对多个节点,本文设计了分布式实现。实验表明,与在CPU上的多线程原始实现相比,优化后的实现在不同设备中加速了 2.8到9.3倍。与其他基因纠错工具相比,在相同的硬件上执行时,SPECTR的速度可提高1.7到6.4倍。在天河二号超级计算机的32个节点上执行时,实现了约86%的并行效率。2)针对基因比对,本文在神威·太湖之光及其申威体系架构SW26010上设计实现了一种高度可扩展的序列比对算法S-Aligner。为解决序列比对算法中的内存瓶颈和计算瓶颈,S-Aligner设计采用了三层并行级别:(1)使用MPI基于任务网格模式进行节点间并行计算;(2)使用多线程和异步数据传输来实现节点内并行处理,将需要计算的数据进行分块实现了不同计算核心之间的负载均衡,充分利用了 SW26010多核处理器的所有260核,以及(3)向量化了基因比对中计算编辑距离的Myers算法,充分利用了可用的256位SIMD向量寄存器。在文件I/O期间,本文采用异步访问模式和数据共享策略以克服网络文件系统的带宽限制。性能评估表明,S-Aligner几乎可以线性扩展,在太湖之光上的13,312个节点上实现了 95%的并行效率。S-Aligner在具有很高准确度的同时,在单个节点上的性能优于在Intel CPU平台上运行的序列比对工具RazerS3。3)在对S-Aligner进行分析之后,本文设计了一个新的可扩展且高效的基因比对算法SWMapper。为了减少内存的使用和加速索引的构建,SWMap-per使用了一个精简哈希索引,设计并实现了一个分布式索引构建方法。在进行比对时,提出了一种新的过滤算法,将基因序列分解为长种子和短种子,使用短种子查找到候选匹配位置后,利用长种子进行过滤减少需要计算的候选位置数。为了去除候选匹配位置中的重复,设计使用了一个最小堆数据结构进行排序删除重复位置。在对基因序列和参考基因子序列进行编辑距离的计算时,设计实现了带状Myers(Baned Myers)算法的向量化,使用SW26010的一条三元逻辑指令替换多条逻辑指令,减少了计算指令数。本文针对多个计算核心设计了动态调度策略来实现负载均衡,针对多个节点,本文设计了分布式实现。性能评估表明,在单个SW26010上,SWMapper的性能优于在相同硬件上的S-Aligner 6.2倍。与运行在Intel CPU上的其他比对算法相比,SWMapper实现了 2.6到26.5倍的加速。在128个计算核组上运行时,SWMappcr实现了 74%的强扩展效率。
其他文献
随着当前工业化和智能化的发展需求,实际应用中出现大量的多解优化问题,如多解路径规划、多目标投资组合优化等工程与科学领域的问题,这些问题都具有多变量、多峰值、多约束
基于IP传输网络的视频会议系统并不具有传统电信专网所提供的低延时、低抖动、带宽保障的优点,这主要是由于IP网络是基于无连接分组交换设计的,提供的是“尽力而为的”服务,
随着社会智能化、数字化进程的快速发展,视觉数据(如图像、视频等)作为一种简单直接、内容丰富的信息呈现方式,已广泛渗入到现代生活的方方面面。人们在创造、分享及传播视觉
对于面部表情来说,既能够将人的情绪变化体现出来,也能够将人的喜怒哀乐表达出来。长期以来,人们都通过表情来对人的情绪变化进行研究,尤其是通过人工智能手段来识别人的面部表情。对于微表情来说,它是没有意识的、最真实的表情之一,可以将人当前的真正情感体现出来,慢慢成为了学术研究者们研究的热门方向。微表情的变化是非常微小的,这使得微表情的研究非常困难。这种表达方式是不能伪造和压制的,因此也成为了判断人们主观
随着目前移动互联网技术的高速发展,智能移动终端在消费市场中迅速崛起,成为人们生活中不可或缺的生产生活工具。安卓(Android)作为一。款面向移动端的智能操作系统,自2011年
小学班主任是小学班级教育工作的组织者和领导者,是学生管理工作的责任人,是帮助小学生德、智、体、能全面发展的指导教师,是联系班级中各科教师的纽带,是沟通学校与各种学生组织、家庭和社会的桥梁。作为小学班主任就必须具备足够的胜任力来完成班主任这个工作,从而促进教育的发展,学生的发展。因此本文从“小学班主任胜任力”这一角度,选取延吉市小学班主任作为调研对象,对小学班主任胜任力现状进行调查,从中发现问题,并
新测序技术的数据产生能力已经超越著名的摩尔定律,当前基因组数据正以12-18个月10倍以上的速度增长。数据处理所耗费的时间、人力与经济开销在整个测序流程中所占的比重越来
随着信息时代的来临,人工智能从学术研究转变为应用驱动,智能系统用于认知、识别、分析和决策等方面,其本质和最终目标是模拟人类意识与思维的过程。由于大量数据、复杂的深
目标覆盖问题是无线传感网络(WSNs)中的一个基本问题。以往对目标覆盖问题的研究,大多基于0/1圆盘感知模型,这种监测模型是一种理想化的模型。近年来,人们提出了一种更加符合实际应用场景的概率感知模型。在基于概率感知模型的传感网络中,目标通常需要多个传感器联合监测,因此0/1圆盘感知模型并不适用于概率目标覆盖问题。此外,传统WSNs中的传感器节点由有限容量的电池供电,网络寿命受到能源的限制。随着能量
恶意检测是预测在线社交网络(OSN)中异常帐户或节点的问题。由于该问题适用于多种任务(例如恶意URL或用户内容分类),因此已引起计算机安全领域研究人员的广泛关注,识别恶意帐