面向基因深度测序的高效计算研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:zye284818093
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因测序已经成为获取基因序列信息的主要手段,是生命科学研究的前沿领域。自高通量技术测序出现以来,在测序通量大幅提升的同时,测序的成本在不断下降,目前为人类个体进行一次测序的花费已经降至不到1万美元。在可以预期的未来,个体测序作为一种医疗手段将会逐渐普及,成为一个新兴的巨大市场。基因数据的爆发式的增长速度已经超过了摩尔定律,对海量数据的计算处理能力成为了制约基因测序应用推广的瓶颈。  以哈希索引为核心的短序列比对算法具有规整的数据结构和良好的可扩展性,是基因测序应用的基础算法。本文选择该算法的高效计算作为研究内容,通过对算法的分析、设计定制计算部件和访存部件,提升了应用程序中热点部分的计算性能。  本文系统地研究了基于并行计算和随机访存的两种可重构计算部件,包括计算流水线并行化、计算模块和访存模块分离、访存延迟容忍等关键技术,在两种平台上进行了工程实现,通过与通用多核处理器的比较,验证了本文所提出的方法具有明显的性能优势和良好的可扩展性。  本文的创新性主要研究成果如下:  1.详细分析了基因深度测序的序列比对算法中的数据分布、计算行为和访存行为等特征,并以此为基础对算法进行了优化。  2.针对并行计算部分设计了一种基于FPGA的硬件加速系统,在数据通路的设计上具有一定创新性。  3.针对随机访存优化问题提出了一种多访存通道的结构,支持高并发的随机访存,同时利用可重构计算部件实现具有较高并行度的处理单元,使得算法的整体性能得以提升,与8路8核Xeon服务器相比,具有2.3倍的平均性能提升。
其他文献
学位
多媒体技术以及网络技术的迅速发展,使得人们拥有和面对的多媒体信息的数据量急剧增多。伴随着近年来移动互联网的迅猛崛起,大数据时代的概念已愈来愈被人们所接受。如何从如此
图像匹配是图像处理与模式识别过程中的一个重要环节,当模板图像与待匹配图像之间存在噪声、亮度、拍摄角度等差异时,传统的匹配算法在速度和精度上就不能得到较好的协调。本文
合成孔径雷达(SAR)是一种高分辨率的微波成像雷达,由于不受地域、时间、气候等多种因素的影响,在微波遥感领域占有极为重要的地位。合成孔径雷达图像通常是由机载或星载SAR对地
学位
近年来计算机体系结构的复杂化和计算平台的多样化,对程序优化产生了不容忽视的影响。通用编译器优化所得性能已经不能满足高性能计算的需求,开发人员越来越多地转向对程序和算
随着XBRL技术应用的不断深入,在商业活动中积累了基数可观的各类XBRL业务数据,其数量正以较大规模快速增长。同时,与这些XBRL数据在业务上相互关联的海量结构化数据也在不断的膨
学位
随着半导体工艺的进步,摩尔定律仍在延续,但Dennard缩放定律的失效使处理器设计面临功耗瓶颈,发射队列等关键部件因复杂度较高和线延迟增长而缺乏可扩展性,处理器单核的性能增长
目标检测是自动地从图像或者视频中发现并定位指定类别的目标,这项任务是计算机视觉和模式识别领域的研究热点。目标检测的研究不但对于计算机视觉、模式识别、图像处理等学科