面向基因组数据分析的大数据编程框架

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:hui8554974
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,二代基因测序技术的迅速发展使得测序平台产生的数据量大幅增长。以GATK、BWA等工具组成的二代测序数据分析流程在业内得到了广泛的使用。现有的数据处理工具和方法受限于并行扩展性差、难以移植等问题,无法满足大量基因组数据的处理需求。当下Hadoop、Spark等大数据技术为解决大数据处理中的存储和计算问题提供了新的解决方案。尤其是Spark具备良好的性能、扩展性和容错性,非常适用于对基因组数据分析流程进行优化和加速。  本文介绍了面向基因组数据分析的编程框架SparkSeq。框架定义了一套用于构建基因组数据分析流程的数据结构和程序模板,方便用户基于框架进行流程的开发。我们将基因组数据分析流程分为aligning、 cleaning和variant calling三个阶段,分析每个阶段常用的基因数据处理算法的可并行性,并且给出Spark上的实现方式。同时,框架定义了一套用于定义基因组数据分析流程的API,并且实现了用于流程执行顺序分析和自动优化的流程执行引擎。此外,框架中还集成了冗余计算消除、数据压缩等优化手段。  我们以GATK best practice中的WGS流程为例对框架进行性能测试。测试环境包括曙光刀片集群和天河Spark集群。实验结果表明程序扩展性可以达到2048核,且相比128核时的加速比达到7.25倍。程序能够在24分钟内完成对从47×的FASTQ数据到VCF的处理过程。
其他文献
该将对传输层安全协议SSLV3.0进行研究分析,介绍在嵌入式系统中实现SSL协议客户端功能的过程.SSL是一个完整而开放的通讯协议,它概括了使用对称密钥算法、公开密钥算法、数字
网络数据管理协议(NDMP,NetworkDataManagementProtocal)是一个用于网络数据备份与恢复的开放性协议.遵循NDMP标准的服务器上不再需要安装其他备份代理,就能被NDMP兼容的备份
DOM(DocumentObject Model,文档对象模型)是由W3C组织制定的一个对象化的XML数据接口,一个与语言无关、与平台无关的标准接口规范.它定义了HTML和XML文档的逻辑结构以及存取
计算机图形学中的流体场景模拟,无论在传统的影视特效、广告、三维游戏开发等领域,还是在逐渐兴起的虚拟现实、增强现实等领域,都有着广泛的应用和研究价值。然而,由于流体形态的
用户行为研究对互联网服务提供商保证应用的稳定、可靠、高质量,以及控制成本提高效率有非常重要的意义。各种应用的用户请求数据海量且特征多维度,分析要求及时性和准确性,不同
随着通信网络的迅速发展,通信网络规模越来越庞大,结构也越来越复杂.为了让一流技术的网络也能发挥一流的效益,关键在于提高网络的管理、维护水平.网管系统的建设,正是提高网
组件化可拔插的服务框架采用完全开放和可插入的体系结构,服务框架由服务请求者、服务分发器、服务引擎和具体服务四个部件组成.在服务框架下,调用不同类型服务的服务插件可
数据挖掘又称数据库中知识发现(KDD),是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可解释的模式的非平凡过程,是一种从原始数据中获取隐含信息的工具之一.它的主
该文进行的研究工作主要包括:(1)分析网络管理的特点,确立网络管理系统进一步研究方向;(2)研究移动计算技术,分析移动计算在网络管理系统中的应用形式;(3)设计MobileNMS系统,
移动计算环境中网络通信的非对称性特点使数据广播成为数据发布的重要手段.数据广播可同时满足大量用户的信息获取需求而不出现网络拥塞,满足移动数据库的可伸缩性.数据收集