基因测序数据分析工具MuTect2的优化研究与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:zhezhe_1207
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因突变检测在癌症疾病的研究、发展和化疗抵抗的过程中可以起到重大的作用。基因测序数据分析流程中最关键的步骤是基因突变检测,而MuTect2是基因测序数据分析方面最常用的基因突变检测工具之一,通常用来检测体细胞变异(SNV)和体细胞插入删除变异(Indel)。由于基因组数据量庞大,全基因组碱基对序列高达30亿对,目前基于MuTect2的常规分析流程可能需要数天才能完成,因此对该步骤加速有重要的意义。本文的工作是对基因测序数据分析工具MuTect2进行加速优化,MuTect2实现语言是java,计算效率低下。本文先对MuTect2进行了性能分析,剖析出耗时模块,将耗时分析细化到具体算法Pair-HMM算法和Smith-Waterman算法,然后分别从局部优化和全局优化的角度考虑,对MuTect2进行了优化研究和实现。从局部优化的角度,C++版MuTect2基于C++对最耗时的Pair-HMM算法和Smith-Waterman算法进行重写,并利用OpenMP对两个算法进行并行加速;GPU版MuTect2通过CUDA编程对最耗时Pair-HMM算法和Smith-Waterman算法进行重写,利用GPU的大规模并行计算能力对算法进行并行计算。从全局优化的角度,本文利用并发编程原理对MuTect2框架进行重构,设计了并发版的MuTect2,同时并发版优化方案兼容C++版和GPU版对MuTect2中两个关键耗时算法的的优化策略。最后,本文对三种优化方案进行了性能评估和结果一致性评估:C++版MuTect2对测序较深的目标测序数据、测序较浅的全外显子测序数据和全基因组测序数据加速倍速分别达到4.90倍、1.32倍和1.10倍,且检测出的变异位点结果完全一致,召回率100%;GPU版MuTect2对测序深度较深的目标区域数据和测序较浅的全外显子测序数据的加速倍数分别为7.45倍和1.36倍,变异位点结果召回率分别达到100%和99.95%;并发版MuTect2则对测序较深的目标测序数据、测序较浅的全外显子测序数据和全基因组测序数据的加速倍数分别达到7.02倍、4.85倍和4.29倍,变异位点的召回率则分别达到100%、99.88%和99.29%。
其他文献
随着《普通高中语文课程标准(2017年版)》的颁布,语文核心素养越来越受到重视。语文教学改革也在不断发展,随之,新的教学模式在教学实践的探索中应运而生。教学模式在吸收教学理论依据的基础上通过在教学实践中的具体运用和检验而形成。任何教学模式的形成都离不开理论和实践的双重检验,它既是教学理论在实践中的运用,又是教学实践总结出的教学经验的系统化、理性化的概括。以建构主义学习理论、人本主义学习理论和诱思探
科学施肥,重施有机肥,增施磷肥、钾肥,适施氮肥,增强树势,是提高果实品质、促进果实着色的基础。
眼下的广东茂名市水果飘香。经过多年发展,全市水果面积达352万亩,产量249万吨,年产值108亿元,其中仅荔枝产量就占世界总产量的1/5。今年,茂名的荔枝、三华李等喜获丰收.全市500万果
生物质资源具有储量丰富、可再生和对环境无污染的特点,应用前景广阔。生物质液化技术是一种高效的利用生物质资源的方式,它将固态的生物质原料转化为液态粘稠的混合物。本文
在多元化视觉诉求的语境下,人们对文化和艺术的追求在逐日提高与升华。受众对汉字字体设计的认知,不单单停留在文字的变形美化,而是在不断追寻新的设计语言,并且探究汉字背后
精密离心机是加速度计测试标定校准的重要试验设备,但关于其液体静压轴承的具体结构设计在国内却鲜有报道。针对某精密离心机与液体静压轴承有关的指标要求,对其结构形式进行
重金属污染场地是重工业生产遗留的环境问题,对于重金属污染场地的调查是实施修复工程前的重要环节。随着地球物理勘探技术的逐渐成熟,探地雷达探测技术作为环境物探的重要手段之一,被广泛运用于污染场地调查工程中,应用效果良好,成为现阶段污染场地调查中准确快速、方便可靠的技术手段。本文利用探地雷达技术与钻孔采样相结合,旨在查明铬污染场地土壤铬污染状况,明确地下水污染渗漏区,对土壤和地下水污染溯源研究。研究区为
本论文通过口述史访谈并结合相关的历史资料,以乡村精英为主要线索,分析土地改革时期国家灵活多变的政治策略对个人产生了什么影响。并以此分析国家在土地改革时期采取多个阶