全基因组序列分析软件流水线的并行与优化关键技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:ktzgy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基因组测序技术的不断发展,生物序列数据库规模持续以每10个月翻一番的速度快速增长,当前全基因组序列分析软件流水线的性能已无法满足基因组序列数据处理的时效性需求。本文在对当前生物全基因组序列分析流程进行深入剖析的基础上,对当前流程中基因组组装、序列比对和下游分析三个模块进行了优化加速。并通过实验证明,优化工作取得了显著效果。首先,对当前全基因组序列组装面对的内存需求大、整体效率低的问题进行了分析与实验验证,发现当前大规模短序列BWT的索引构建过程效率差、耗时长是导致基因组组装整体效率低下的主要原因。本文设计了一种新型的大规模DNA序列BWT索引并行构建算法,并提出了一种高效的剪枝策略,在此基础上开发了大规模DNA序列BWT索引并行构建软件BWTCP。我们在天河二号上对BWTCP进行了测试,使用16个计算节点在半小时内完成10亿条长为100个碱基的DNA序列的BWT索引构建。当前最为广泛使用的索引构建软件BCR需要13个小时来完成相应任务。另外,当前的索引构建软件对序列长度十分敏感,BWTCP通过高效的剪枝策略解决了这一问题。针对当前全基因组序列比对时效性低、难以满足生物序列大数据的处理需求的问题,我们和华大基因-香港大学联合实验室共同开发了一款面向Intel MIC协处理器的DNA序列比对软件MICA。MICA面向Intel MIC协处理器和天河二号超级计算机软硬件架构设计,采用双向BWT索引和Smith-Waterman动态规划算法进行DNA序列比对,具有接近线性加速比的扩展性能。我们在天河二号超级计算机932个节点上对MICA进行了测试,在一个小时内完成了17.4TB DNA序列的比对,相同工作量在一般的12核服务器上需要运行三个月。当前下游分析环节中RNA编辑位点识别方法受人为因素影响大,缺乏一款客观的高可信度的RNA编辑位点识别模型。针对此问题,我们提出了一个基于高通量序列比对的RNA编辑位点识别模型,该模型分析造成RNA与DNA差异的四种事件的特点,通过Bayesian后验概率模型计算各位点是RNA编辑位点的概率。经验证该模型的可信度比当前通用方法高18%。
其他文献
目标检测识别是智能交通和无人驾驶的关键技术,由于技术不成熟,目标检测识别在当前的交通视频监控系统中还没有得到广泛推广应用,相关理论和技术一直是研究难题,也具有极大地
随着无线网络通信技术的发展,为了满足用户的个性化、多业务需求,未来网络环境将是各种异构无线网络共存的局面。当前网络通信的发展趋势和要求,是在保证服务质量(Quality of
目前,多数企业在拥有内部数据通讯网的同时,还需要维护企业电话网络。前者主要用来实现数据通讯,而后者主要用来实现语音通讯。为了充分利用网络资源,降低管理费用和通讯开销
分形理论是近二、三十年才发展起来的一门新的学科,主要描述自然界和非线性系统中不光滑和不规则的几何形体。自然界中种类繁多的植物虽然形态千差万别,却大都具有自我相似、
Cache通过解决高速处理器和低速主存之间的匹配问题,提高了计算机系统的性能。但是高性能Cache本身也消耗了处理器的大部分能量。高端处理器的温度不断升高,需要低功耗解决方
目前,工业控制组态软件行业化是控制领域发展的一个重要方向,而应用嵌入式解决方案也是发展的必然趋势,同时,嵌入式系统接入Internet的问题也显得越来越重要,因此,基于嵌入式
根据企业诊断的学科特点,结合企业对信息系统不断增长的更加智能化、理性的要求,本文采用智能体Agent技术和本体论,对企业诊断系统模型进行建模分析和信息交互方面的研究。
随着互联网技术的飞速发展,微博已成为一种应用比较广泛的社交媒体。微博相对开放的自媒体传播特征,使得人们可以自由的表达观点,微博已成为人们发布信息和获取信息的主要载
随着移动设备的普及和性能的不断提高,其运行的应用程序日趋多样化。同时Java作为跨平台、面向对象的语言而受到青睐。开放式运行平台(ORP,Open Runtime Platform)是一个高性能
随着互联网与多媒体技术的迅猛发展,数据信息也飞速增长,这使得图像检索技术倍受关注。基于内容的图像检索直接利用图像的视觉特征进行检索,能有效地提高检索的速度和效率,为