面向第三代测序数据的序列比对方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:deadhorse
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着第三代测序技术的不断发展,第三代测序数据在基因组组装、结构变异检测、全长转录本识别等领域得到了广泛的应用。序列比对作为第三代测序数据分析工作流程中最基础、最关键的步骤,一直都是当今生物信息学领域最重要的计算机科学问题之一。面对日益增长的海量测序数据,现有第三代测序数据比对工具在比对速度、准确性和敏感性等方面已经无法满足各类分析工作的比对需求,成为了阻碍基因组科学领域进一步发展的主要因素。本文全面总结了现有比对方法和工具的基本思想和主要策略,以全面提升第三代测序数据序列比对的速度、准确性和敏感性等方面为目标,根据序列长度长、错误率高以及包含大型结构变异等数据特点,针对性地开发了多个第三代测序数据序列比对方法,有效解决了现有工作流程中的多个计算瓶颈问题。论文的主要研究内容如下:(1)针对现有比对工具无法有效处理三代测序片段中的结构变异事件的问题,研究基于长近似匹配和骨架修剪的拆分比对方法LAMSA。该方法采用长种子近似匹配的选种策略,可以有效解决传统短种子策略难以处理的基因组重复区域问题,并通过树修剪的方式生成反映各类结构变异事件的比对骨架,进而实现结构变异断点附近的精确拆分比对。该方法能够快速、准确地将第三代测序数据比对到参考基因组上,并且对于测序片段中的结构变异断点具有精确识别能力,可以为下游基因组结构变异相关分析工作提供精准的测序片段比对结果。(2)针对现有图参考基因组比对工具无法有效处理第三代测序数据的问题,研究基于局部单体型索引的图参考基因组比对方法Hi Pan。该方法结合现有图参考基因组构建模式,通过设计基于群体单体型信息的局部单体型路径索引构建方法,实现对于图参考基因组节点内以及节点间序列的高效查询,进而完成测序片段在图参考基因组上的序列比对。该方法能够实现图参考基因组及其索引的高效构建,并且可以将第三代测序数据快速、准确地比对到图参考基因组上,能够为后续变异检测等相关工作提供测序片段在图参考基因组上的精确比对信息。(3)针对现有第三代测序数据局部多序列比对耗时巨大的问题,研究基于单指令多数据的并行带状偏序比对方法ab POA。该方法通过偏序比对的方式来完成多序列比对任务,借鉴在两两序列比对工具中广泛应用的比对带加速策略,将其推广到了序列与图的偏序比对过程当中,并设计基于单指令多数据的并行算法,实现动态规划过程运行速度的进一步提升。该方法能够显著减少偏序比对过程的运行时间,同时提供精确的偏序比对结果,可以为基于测序片段多序列比对的基因组局部精确重构提供速度和准确性支撑。(4)针对现有工具无法有效处理新型串联重复三代测序数据的问题,研究基于种子和链接的串联重复比对方法Tide Hunter。该方法针对新型测序片段中含有原始模板序列多个串联拷贝的数据特点,借鉴传统序列比对方法中‘‘种子和扩展’’的策略思想,将其扩展到串联重复比对这一新型问题中,实现对于串联重复单元的快速检测。该方法能够显著提高对于该新型数据的串联重复比对速度和敏感度,高效检测出其中的重复单元,并准确重构出原始的模板序列,可以为常规三代测序数据比对工作流程提供高质量、低错误率的测序片段。本文围绕第三代测序数据序列比对这一研究课题,从不同层面研究了序列比对工作中的多个重点、难点问题。通过开发多个第三代测序数据比对方法,在运行速度、比对准确性和敏感性等方面实现了对于现有工具的全面提升。其中,前三个方法组成了一套常规三代测序数据序列比对的解决方案,第四个方法针对新型数据实现了对于该解决方案的补充。这些方法切实解决了现有序列比对工作流程中的序列拆分比对、图参考基因组比对和局部多序列比对等多个计算瓶颈问题,为今后的大规模基因组前沿科学研究提供了基础性技术支撑,具有很高的实用价值和理论意义。
其他文献
健康是影响未来经济和社会发展的重大议题,全民健身与全民健康的密切联系,使体育运动成为健康生活的基石。本文基于全民健康理念,以提升大众体育建筑的全民健康服务能力为目标,研究寒地大众体育建筑的设计策略及方法。当代寒地大众体育建筑设计研究存在严重的信息缺失,本文通过梳理寒地大众体育建筑的发展历程,明确大众体育建筑的发展阶段及数量分布。并以哈尔滨、长春、沈阳三个典型寒地城市为例,通过文献资料调查法及对比分
近年来,全球气候变化异常,极端恶劣天气增多,能源危机日益严峻。太阳能作为绿色可再生资源,取之不尽用之不竭。高效的太阳能电池既能缓解能源枯竭的威胁,又避免了传统化石燃料对全球气候环境的破坏。钙钛矿太阳能电池作为光伏领域的新兴产业,在过去发展的十年时间里,实验室研究光电转换效率发展迅速,甚至媲美硅基太阳能电池,有巨大的发展应用前景。本文主要研究优化溶液气相法制备钙钛矿薄膜的工艺,另外对阻碍钙钛矿太阳能
足式机器人的平衡控制是其走向实用化的先决条件,近年来对平衡控制问题的研究目标已从完成确定环境内的动作,过渡到如何在未知、不确定环境内获得对环境扰动具有强鲁棒性的自稳定能力。现有的平衡控制以基于动力学模型的控制器为主,虽然随着机器人本体驱动能力、响应速度等指标的提高取得了相当成功的实验结果,但仍难以从根本上解决对未知、不确定环境的适应问题。针对现有平衡控制器在设计阶段只考虑有限的扰动情况,导致对未知
非均匀环境上入侵种群的传播问题是当前的一个热点话题,不同的环境可能会产生截然不同的影响,如何从数学上来刻画环境的非均匀性对种群传播动力学的影响是一个有趣的数学难题。本文考虑一维周期格点环境,假设奇数格点对种群的生存是不利的,偶数格点是有利的。以此生态背景为前提,推导出一个非均匀环境上具阶段结构的种群模型,然后在不同情形下,研究了该模型的动力学性质。首先,当模型具有单稳定结构时,分析扩散系数对种群传
与传统光电子器件相比,柔性电子器件具有超薄透明、轻质便携、柔性可弯曲等优点。随着柔性电子技术的发展,人们致力于开发多样化、多功能性的柔性器件。将形状记忆聚合物(SMPs)与柔性电子技术相结合,能够丰富柔性电子器件的多功能性,同时也拓宽了形状记忆聚合物的应用领域。本文首先研究了一种兼具高透光性、高耐热性的形状记忆聚酰亚胺薄膜材料(TSMPI),然后以TSMPI作为柔性透明基板,制备了两种透明电极:嵌
并网换流器作为连接分布式发电系统与传统电网接口,在电力系统中发挥重要作用,但也带来新的挑战。并网换流器使用高阶滤波器并具有较高的控制带宽,可能会引发稳定性问题。更为严峻的是,换流器越来越多接入到弱电网中。相比于理想电网,弱电网由于远距离输电线路等原因,具有较高的电网阻抗,并且电网阻抗可能发生大范围变化。在弱电网中,换流器与电网阻抗之间的相互作用可能引发谐振。目前,实现并网换流器系统的稳定运行有以下
钢丝绳多尺度缺陷检测是指不同损伤类型的判别和损伤的截面损失、位置、分布、锈蚀等级等定量指标分析,其目的是为钢丝绳强度的评估提供更准确的量化参数。目前钢丝绳电磁检测技术仍存在局部型、窄宽度等小尺度缺陷定量检测困难和内部、锈蚀等复杂尺度缺陷难以判别的问题,严重制约了钢丝绳无损检测的发展和应用。本文以钢丝绳多尺度缺陷检测的需求为基础,针对现有检测技术中的问题进行深入分析,采用多传感器融合技术,设计多种定
在某些特殊的气候条件下,空气中的过冷却水滴碰撞在输电线路的导线表面后,会冻结形成覆冰,这种现象即为输电线路覆冰。严重的覆冰灾害会引起塔杆倒塌和线路断线等事故,威胁输电线路的安全运行。因此,研究输电线路的覆冰形成机理,实现根据环境和线路参数来预测覆冰的增长速度,并结合融冰时间和融冰电流的计算,制定合理的覆冰防治策略,是降低覆冰对线路危害的重要手段。水滴在输电线路周围受外力作用产生运动轨迹变化,进而影
地球静止轨道(Geostationary Orbit,GEO)卫星具有对地覆盖区域广、星下点轨迹固定等特殊性质,在通信、导航、气象、对地观测、军事预警等民用和军用领域有着广泛应用。然而,失效卫星、火箭上面级、空间碎片等不受控目标占据了大量GEO轨道资源,对在轨航天器的安全运行构成严重威胁。为保证空间资产的安全,空间编目、燃料加注、轨道清理等在轨服务类项目得到了各航天大国的高度重视。由于GEO目标卫