DNA序列比对中基于AVX指令集的BWT算法研究

来源 :东北农业大学 | 被引量 : 1次 | 上传用户:turobc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在生物信息学领域,生物基因的序列比对一直是科学研究的热门问题之一。随着生物学的发展与对物种研究的深入,基因数据日益增多。同时新一代测序技术的出现,测序时间和成本下降、测序通量高使序列数据显著增加,呈指数形式增长趋势,并且每天仍有新的生物基因序列数据被发现和记录,而数据产生的速度远大于数据处理的速度,因此对大规模DNA测序数据的处理亟待更高效的方法。对海量数据进行及时有效的处理、分析,对于揭示其内涵、阐明和理解其所蕴含的生物学意义、得到对人类有用的信息具有重要意义。序列比对作为基因数据研究的基础问题,能够为后续基因组计划等研究提供重要信息,因此提高测序数据的序列比对速度至关重要。本文通过对已有序列比对算法的研究,针对目前基于BWT(Burrows-Wheeler Transform)索引技术的比对软件比对准确率高且内存消耗小,较其他基于哈希表的方法性能优越,但存在访存次数多,时间消耗较大的问题,就如何提高BWT索引技术的序列比对速度进行研究,提出一种应用基于Intel微架构的AVX(Advanced vector Extensions)指令技术,从改进原有算法内部函数运算方式的角度进行单线程并行优化的方法,对BWT算法中计算量大、多次递归调用的函数进行改写,减少函数运算次数及CPU访存次数,提高算法执行效率,实现提高BWT算法序列比对速度、降低算法时间消耗的目的。本文设计并实现了基于AVX指令集优化的BWT序列比对算法,在对BWT算法的代码及实现过程进行深入研究之后,找到适于AVX指令对代码改写的部分。将occ函数结果全部计算出来并存在内存中,在计算时使用AVX指令集的计算方式进行计算,使计算机能够一条指令并行执行多次计算,极大缩短算法运行时间。为验证比对结果的准确性和速度比,本文采用大豆测序数据对算法进行实验。实验结果表明,本文提出的指令改进有效提高了算法的查找效率,加快了序列比对速度。在接近源码比对准确率的同时提高比对速度近50%,使算法时间性能得到显著提升,实现序列比对在算法改写方向的并行优化。本文提出的基于AVX指令集的BWT序列比对算法相比于传统的算法计算过程,能够进行并行计算查找,有效减少函数计算时的循环遍历,减少计算次数与CPU访存次数,降低算法时间复杂度,提高序列比对速度,使得算法的时间性能有所提高。并且算法性能十分稳定,在低误配率下表现良好,对更精确的序列比对算法改进具有实际意义,为基因数据分析提供更高效快速的序列比对方法,为进一步加快对全基因组序列的处理打下基础。
其他文献
脑卒中会造成足下垂患者行走步态异常,能够独立行走是患者提高生活质量和康复训练的重要环节。传统的改善足下垂步态的康复手段,缺乏有效的通讯与控制途径,不能使患者的运动
口语技能是和人交际的基础,好的口语教材又是帮助学生夯实口语技能的基础。近年来对外汉语口语教材吸收了各方面的成果,在课文编写上较以往有了很大的进步。《看图说话(上)》系列教材与《阶梯汉语初级口语Ⅰ》系列教材都是使用广泛的对外汉语教材,本文通过使用调查问卷法、数据统计法、比较研究法、文献法等几种主要研究方法,对这两本教材的编写理念、语言要素、课文、练习等方面进行对比研究,依据对外汉语口语教材编写的基本
近年来,医学成像技术的快速发展使人们能够获得大量高分辨率的医学影像数据,分别来自X射线、CT、超声及MRI等,这些成像技术现已在医学诊断、治疗及术前规划等阶段得到了广泛
薄板具有二维结构的特性,重量轻又能够承受较大的载荷,被广泛应用到航空航天、风力发电和石油化工等领域。为了保证薄板结构的使用安全,对其进行弯曲、振动分析则显得非常重要。因此,本文采用精度高、收敛快的无网格伽辽金法(Element-Free Galerkin Method,EFG)对薄板进行动力分析及拓扑优化的研究。然而,基于EFG法的系数矩阵求解耗时,且在动力分析及拓扑优化的计算过程中需要多次求解系
在本篇论文中,我们主要应用Riccati技术来讨论有关方程解的振动与非振动条件.首先,利用文献[1]中变型了的Pr(?)fer变换,将其稍做一些变更,外加使用Riccati技术,我们得到了二
磁性纳米纤维具有优异的电磁性能、大的比表面积、连续长度、超细直径等独特的物理和化学性质,因此成为人们研究的热点,并被广泛应用到高密度磁记录介质、自旋电子学器件、生
回声测深仪在水文环境监测和水声测绘领域具有十分重要的作用,常应用于水下深度测量,就其应用而言,对于航运、海洋测绘和海洋配套产业开发均具有十分重要的意义。伴随着计算
西尼罗河病毒(WNV)是一种通过蚊子传播的虫媒病毒,携带西尼罗河病毒的蚊子通过叮咬鸟类可以将病毒传播给鸟类,同时携带西尼罗河病毒的鸟类也可以通过蚊子的叮咬将病毒传播给
随着社会经济不断发展,越来越多的城市通过修建地铁来缓解交通压力。盾构法施工以其安全、信息化、机械化及对地面交通影响较小等优点在城市地铁建设中得到了广泛应用。由于地铁盾构施工穿越既有构筑物时,不可避免地会对构筑物造成一定的影响,因此,如何提前预判沉降变形趋势并及时采取有针对性的防护措施已成为地铁盾构施工面临的亟待解决的关键技术问题。因此,本文在风险识别的基础上,采用数值模拟和现场沉降监测等手段,通过
电化学储能/转换装置例如燃料电池因为目前的能源环境危机而备受关注。氧还原反应在燃料电池中起着重要的作用,发生在燃料电池阴极上的氧还原反应存在过电位高、动力学缓慢等