基于CPU-1GPU集群的HMM检索实现与优化

来源 :南开大学 | 被引量 : 0次 | 上传用户:guodong0810
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
序列数据库搜索是生物信息学中的重要应用,具有计算密集型和可并行性的特点。由于生物技术的发展,序列数据库以指数增加,使得搜索越来越耗时,传统的计算机已经难以满足计算需求。基于图形处理单元(GPU)的统一计算设备架构(CUDA)的推出,使得GPU作为一种新的并行计算平台越来越多的应用到生物计算当中。   传统的序列数据库搜索基于序列的两两比对,无法考虑序列位置的可能性概率,所以具有优秀统计能力的概率模型逐渐被引入到搜索当中,谱隐马尔科夫模型就是其中一种。目前已经发布的利用谱隐马尔科夫模型进行序列数据库搜索的工具为HMMER,该工具最新的3.0版本采用一种启发式的过滤方法使得搜索速度已经和著名的序列数据库搜索工具BLAST持平,如果能将该工具中的搜索算法加速,则会有效促进序列数据库搜索的发展。针对以上论述,本文的主要研究内容包括以下两个方面:   (1)使用CUDA对HMMER3.0中的序列库搜索算法进行加速。算法中采用了块间并行和单个块内线程并行的方式,将原有串行算法移植到CUDA平台上,并进一步实现内存和性能的优化,获得了20%左右的性能提升;   (2)结合多机分布式处理和GPU高性能运算的优势,采用MPI和CUDA相结合的方式实现HMMER3.0中搜索算法的多机分布式处理,充分利用了节点间的协作,实现粗粒度和细粒度并行的结合,合理利用了系统资源,达到了较好的效果。   本文的贡献在于首次将HMMER3.0版本的序列库搜索程序移植到GPU上,并采用分布式处理的方式,完成MPI+CUDA两层模型的构建和实现,经过测试,两种实现都取得了较好的加速。
其他文献
分子动力学(Molecular Dynamics)是在原子级模拟固态、液态物质的主要计算方法,用于研究物质微观结构、热力学性质及平衡输运性质等,广泛应用于物理科学、材料科学、生命科学
图像去噪是图像处理的经典主题。我们的目标是从噪声污染的图像中还原出一个干净的图像。几十年来,发表了很多处理噪声的算法,去噪性能一直稳步提高。这其中的大多数针对的是常
当今社会,互联网中所包含的种类繁多内容丰富的知识资源,为我们日常学习和工作中面对问题时寻求帮助和获取信息提供了很大的方便。目前的Google和百度等搜索引擎是人们从网络
随着物联网技术的深入发展,无线传感器网络(Wireless Sensor Network,WSN)和Internet的互联问题逐渐凸显,如何无缝地实现这两种网络的互联互通成为应用中的技术瓶颈。由于WSN
人脸识别作为生物特征识别的一个重要分支,近年来受到广大研究者的关注,取得了较快的发展。在一些实际应用中,每人只能获得一张图片作为训练样本,但大多数人脸识别方法在单个训练
半个世纪以来,随着研究的不断深入,已有多种模型用于基因调控网络的构建,包括布尔网络模型、贝叶斯网络模型、微分方程模型等,并取得了一些成果。20世纪90年代,基因芯片等高通量生
增强现实是将计算机生成的虚拟信息与真实世界的叠加,而全景视频是将拍摄到的视频拼接后可任意角度拖动观看的动态视频。在一些受到保护且不便让用户进入的场景(如文物古迹、
一直以来,自动语义分析是自然语言理解的主要目标之一,然而由于深层语义分析的复杂性,人们目前更关心浅层语义分析,一种简化的语义分析形式,它只分析与句子中谓词有关成分的
数据质量已被公认为是数据管理的首要问题之一。针对数据质量管理领域的数据记录不匹配及不一致问题,本文分别从记录匹配检测及不一致修复两个角度出发,提出了基于CON模型的
由于有着标准化、简洁、结构严谨和可高度扩展等优点,可扩展标记语言XML在飞速发展的互联网中逐渐成为网络数据表示和交换的标准格式。现今网络上出现了大量的XML文档,这些文档