生物序列比对中BWT索引技术及其算法研究

被引量 : 0次 | 上传用户:xiaowangdoc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物DNA序列比对是生物信息学中的核心问题和基础研究,序列比对算法是常用的生物序列分析工具,也是RNA比对和个性化医疗等下游生物信息学研究的第一步。随着新一代高通量测序技术的飞速发展,产生了大规模测序序列,如何实现高精度的快速比对是生物信息学面临的严峻挑战。索引作为序列比对算法中处理大规模基因组和测序序列的重要技术,在绝大多数比对算法中广泛使用,是研究的关键环节和重点。本文对序列比对算法的主流索引技术BWT(Burrows-Wheeler Transform)和找全的序列比对算法进行了深入研究,主要内容和贡献包括:(1)基于双位索引的二阶BWT方法研究本文首先对逐位查找的传统一阶BWT技术进行了研究和分析,发现其存在访存次数较多、计算量较大的缺点,特别是数据规模较大时查找过程耗费时间更加突出。为此,我们设计了双位索引的二阶BWT方法,该方法在一阶BWT的辅助数据结构上实现了一次查找连续的两位字符(双位),显著地减少了序列比对索引算法中的循环遍历和计算次数,将序列比对算法中的索引查找复杂度降低了一半,提高了查找效率。实验结果表明,相比于传统的一阶BWT方法,二阶BWT方法提升了约35%的时间性能。为了进一步减少BWT中SA后缀数组的转换时间,我们又设计了一种编码方法,来加快双位索引串的匹配,实验结果表明改进后的方法能获得额外10%左右的性能提升。(2)BWT和Hash混合的索引技术及序列比对算法研究按照查找模式和应用场景的不同,序列比对问题可以分为两类:找全的比对问题和找最佳的比对问题。本文对找全的序列比对算法进行了分析,结合基于BWT的和基于Hash的两种索引方法的各自优点,提出了一种新的快速混合索引技术,取得了索引查找的时间和空间的较好平衡。在该混合索引的基础上,结合基于鸽巢原理的种子划分方法,给出了一个新的找全的序列比对算法。实验结果表明,相比已有的一些主流序列比对算法,本文算法比原序列比对算法时间减少30%以上且不影响查全率,而空间只增加3%。为了进一步提高速度,我们针对BWT转换阶段跳转过多、cache命中率低的缺点,设计了一种cache有效的分块读取转换方法。实验结果表明改进后的算法获得了额外10%左右的性能提升。
其他文献
目的:回顾帕金森病非运动并发症睡眠障碍的病因和发病机制,帕金森病睡眠障碍的临床评价和基本的治疗策略,以提高临床医生对帕金森病睡眠障碍的认识,改善帕金森病患者的生活质
目的:抗神经节苷脂抗体与免疫介导的神经病的发病有关,通过介绍抗神经节苷脂抗体的致病性和致病机制的研究进展,以了解抗神经节苷脂抗体检测在不同免疫介导的周围神经病临床
菲律宾人普遍性地寻求家族庇护、崇尚家族权威,使得强大的家族观念根深蒂固,人民对家族的忠诚要比对民族和国家的忠诚更强烈。这种历史上因庇护关系形成的家族政治认同,为地
Cochrane系统评价是Cochrane协作网成员在Cochrane协作网统一工作手册的指导下所作的系统评价,是循证医学的临床实践指南,通过收集、汇总和评价原始临床研究结果,得出有关干
随着网络及时的不断发展,信息化已经渗透到人们生活的方方面面。在企业的经营管理中,会计信息化成为企业发展中必须重视的问题。本文对施工企业中会计信息化建设的应用做了相
大规模协同设计模式中,大量具有多样化能力结构的设计者借助开放的网络社区平台自发进行协同产品设计,共享产品创意、信息、技术和成果,是互联网协同工作环境下新兴的设计模
本文介绍了滚筒式再生料沥青混凝土搅拌机的国内外情况,根据生产的工艺流程,提出将控制系统分为相对独立的油石比控制系统和料温控制系统的控制方案。论文分两个部分分别对这两
目的:探讨焦虑和抑郁障碍共病患者与抑郁症和焦虑症患者心理健康状况下降的差异性。方法:选取2003-06/2004-08广州市脑科医院精神科门诊首次就诊的焦虑和抑郁障碍共病患者27