混合异构架构上的生物大数据并行计算研究

来源 :山东大学 | 被引量 : 0次 | 上传用户：gaccia_zhou

【摘要】

：

本文主要的研究内容是生物大数据在多种高性能异构计算架构下的并行计算方法,主要解决了三方面的挑战:(ⅰ)在有限的内存空间中对大规模数据集执行计算的方法,(ⅱ)基于异构计

【作者】

：

兰海东

【出处】

：

山东大学

【发表日期】

：

2004年期

【关键词】

：

高性能计算异构计算机体系结构生物信息学序列比对大数据处理

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文主要的研究内容是生物大数据在多种高性能异构计算架构下的并行计算方法,主要解决了三方面的挑战:(ⅰ)在有限的内存空间中对大规模数据集执行计算的方法,(ⅱ)基于异构计算的多层级的算法并行化设计方法和(ⅲ)对不同架构计算设备的硬件抽象建模方法。在这三方面的研究中,抽象硬件模型是最重要的贡献,提供了一个良好的抽象硬件底层,将框架设计和具体硬件分离,简化了软件框架,可以使软件框架快速扩展覆盖多种硬件架构,并能够以简便抽象的方式控制内存布局。同时提供了一个简化的硬件视角,抽象出影响性能的关键因素,进而在此基础上设计效率更高的并行方法。由于高通量测序技术的快速进展,在过去的十年中,生物序列数据的数量出现了爆炸性增长。生物学家存在分析和理解这些数据的强烈需求,因为基因序列决定了蛋白质的生物结构以及功能。但是,生物数据的可用性并不随着数据库的膨胀而增加。事实上,目前生物数据库的数据量如此之大以至于传统的数据分析方法已不足以快速执行涉及多种数据类型的生命科学查询。另一方面,近年来的计算力增长主要体现在新兴体系结构上,如GPU,Xeon Phi和基于Alpha指令集的国产申威众核处理器上。新兴体系结构呈现如下两方面的趋势:异构化和众核化。其中异构化意味着系统中可能存在多种架构的芯片,每种芯片均为特定的任务设计以提升能效。众核化是由于处理器的顺序执行性能的提升遇到瓶颈,转而增加核心数目,提升并行计算能力。因此传统计算方法面临数据规模和架构变化两方面的挑战。在数据规模方面,本文提出了一种异步执行的方法,利用数据/任务的并行特性进行切分,通过分批处理其数据/任务子集,构建处理流水,从而实现了在少量内存占用的基础上,执行对大规模数据集的计算。异步执行方法具备良好的可扩展性,本文分别展示了将成对序列比对和多序列比对两类问题分别扩展到大规模数据集和计算集群上的方法,在同样的硬件设备上成功处理了其他生物序列计算工具无法处理的大数据集,并得到了比小数据集上更高的计算效率。在异构计算方面,本文展示了基于Xeon Phi与CUDA异构架构和Knights Landing众核同构架构的多层级并行优化方法。对硬件的架构特点进行了探索并建立了理论性能模型,在理论性能模型的指导下发展了对一大类动态规划算法适用的高效并行化方法。特别的,在Xeon Phi平台上我发现并定位了关键的性能瓶颈,并通过重构计算顺序、解构数据依赖提升数据访问的局部性,大幅提升了缓存命中率,达到了该平台上目前最高的性能,并接近理论计算峰值。在设备抽象模型方面,本文首先从执行层面的角度统一了 SIMD与SIMT两类编程模型,并在该模型基础上将所涉及计算设备划分为低延迟顺序处理器和高通量向量处理器两大类。我基于统一的抽象设备模型对应设计了一组C++类层级,通过分析抽象计算设备的共性和特性,最小化架构特定部分的代码,并对架构共性的工作流程进行了高度优化,充分利用了异构架构中不同处理器的异步执行性能,并根据设备的抽象模型为系统中的每个计算设备提供理论上最优的数据布局和统一的数据访问接口。同时,抽象的设备模型有助于不同架构之间的核心计算函数与并行方法互相借鉴,进而在多种架构上达到更好的性能。在上述三方面的贡献的共同作用下,本文中的方法已经支持CUDA、KNC、SSE、AVX2、AVX512等架构与指令集,,并在上述架构与指令集上均能够超过其他最先进方法的性能。同时能够扩展到更多节点快速搜索接近40GB的蛋白质数据库,并具备扩展到更大数据库的能力。因此,本文所述的工作成功地解决了传统计算机算法算法和软件架构面对大规模数据集和新兴计算机体系结构的挑战,其方法可以扩展到更多算法与体系结构上。

其他文献

浅谈卤菜加工中添加亚硝酸盐行为的定性

亚硝酸盐不属于我国法律规定的"有毒、有害的非食品原料",个体摊贩在卤菜加工中是允许限量使用亚硝酸盐的,超量使用导致他人食物中毒的应认定为生产、销售不符合安全标准的食

期刊

卤菜加工亚硝酸盐有毒有害物质

浅谈现代信息技术在旅游专业课教学中的应用

现代信息技术飞速发展,在多个领域都得到了广泛的应用,教育领域也并不例外,充分借助计算机网络技术辅助教学,尤其是结合旅游专业的特点,在课程教学中,进一步提升教学质量。本

会议

现代信息技术旅游专业课教学

米尔顿·弗里德曼：经济思想史视角的比较研究

米尔顿·弗里德曼是20世纪后半叶最有影响的西方经济学家之一。作为美国新自由主义经济学的旗手,他的经济思想、经济哲学改变了经济学发展史的进程,对西方思想界、政界、商界

学位

米尔顿·弗里德曼经济思想史比较研究

大数据环境下云媒资存储应用研究

在信息化高速发展的今天,媒资已经成为媒体行业的核心资源,为解决媒资的存储压力,云媒资的建设已是必然趋势。但是,在云媒资的发展中,不可避免地会遇到新的问题,如安全问题、

期刊

云媒资混合云云存储视频加密

尽精微而致广大——支玉恒教学片段赏析

<正>特级教师支玉恒曾来我校传经送宝,我也曾有幸聆听了几次他的课,深深为其看似信手拈来、轻描淡写,实则富含底蕴、独具匠心的教学风格所折服。【片段一】课前:幽默诙谐,营

期刊

教学片段志愿军《月光曲》

市政给水管道工程施工质量通病分析及防治措施

市政给水管道是影响城市建设的关键。但是市政给水管道中存在一些问题,其不仅影响了城市给水的正常供应,还影响了人民群众的日常生活。因此,提高市政给水管道系统至关重要。

期刊

市政工程给水管道施工质量质量通病防治措施

中原农耕文明的人伦日用效应

历史上，中原农耕文明捷足先登且兴旺发达；建基于内陆型农耕经济基础上的“五伦”观念乃是其赖以形成与发展的核心要素，体现了其最为根本的伦理精神属性。尽管这种伦理意识曾遭致

期刊

中原农耕文明人伦日用效应

电阻率法三维各向异性正演与主轴各向异性反演研究

电阻率法被广泛用于找金属矿、环境、工程、浅层水文等领域。一般情况下地下目标体表现为三维电性结构,同时介质的各向异性也是客观存在的。对于实际电性分布为各向异性的地

学位

电阻率法各向异性非结构化网格三维非线性共轭梯度反演

对乳腺增生患者采取优质护理干预的效果

目的研究乳腺增生患者采用优质护理干预时的临床效果。方法选取在2016年1月至2019年1月我院收治的乳腺增生患者共计78例,采用抛硬币的方式随机分为两组,各39例。对照组患者应

期刊

乳腺增生优质护理干预效果

一个基于东亚地区统计特征的新的云微物理参数化方案的个例试验研究

近年来,我国的研究者针对东亚气候和天气的区域性特征,基于对东亚区域云的长期观测研究,对东亚区域性云微物理特征进行了系统的统计。对多种云降水粒子的粒子谱、冰核活化、

学位

东亚区域云微物理参数化方案数值模拟方案评估

混合异构架构上的生物大数据并行计算研究

其他学术论文