高性能生物序列数据处理算法研究与优化

来源 :山东大学 | 被引量 : 0次 | 上传用户:silas20
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
下一代测序技术(也可称为大规模并行测序)允许人们在低成本条件下以惊人的吞吐量累积获得海量核酸序列,并提供更短的读数。吞吐量的大量增加和序列读数的减小产生的代价是短读的准确性显著低于传统的测序手段,同时使短读序列和参考序列的匹配在计算速度和精准度上产生了巨大挑战,导致数据转换为可用信息的计算时间变得更长;另外,海量数据也使计算机有限的内存资源相形见绌。短读序列映射过程中数据规模巨大,而目前已经引入的各类索引技术无法高效的利用有限的内存资源,内存占用率较高。对此本文提出了一个新颖的索引数据结构—精简(稀疏)哈希索引数据结构,应用于短读序列匹配来缓解此问题。该数据结构是经典Q-gram索引的变种,通过参数设置决定内存使用率,如对于人类参考基因组内存占用可减少至经典哈希的1/k。同时,实现了一种高效的并行构造方法。另外,短读序列映射过程的时间占了基因数据分析总时间的相当大一部分。针对下一代测序技术吞吐量大量增加导致的短读序列匹配计算速度减慢和匹配精度降低的问题,本文基于新提出的精简哈希索引结构设计了两个选种算法一分组选种和可变长度选种,用于过滤策略中以减少校验次数,从算法层面来提升计算速度。在此基础上进一步设计了一个快速高效的短读序列完全匹配器—FEM(Fast and Efficient read Mapper),FEM可以返回在给定编辑距离阈值内短读序列在参考基因组上的所有映射位置。FEM采用了多线程进行数据处理,设计了负载均衡模式以充分利用计算资源,并在算法细节上采用SIMD指令集实现,从体系结构方面进行计算优化。本文实验结果表明FEM是可扩展的,并且在处理速度和内存占用两方面,性能要优于其他目前最前沿的完全匹配器。内存占用方面,精简哈希索引的内存占用率是经典索引的1/k;而处理速度方面,相较于Masai,FEM使用单线程时,要快5倍,而使用多线程能够快两个数量级。还有,FEM 比BitMapper快大约3倍,而和BitMapper2和Hobbes3相比也有快一个数量级的加速比。
其他文献
全球柴油车排放法规日趋严格,对于重型柴油车欧VI排放法规而言,其相对于欧V排放法规,颗粒物(Particulate Matter,PM)排放降低50%,同时增加了对颗粒物数量(Particulate Number,PN)的限值。壁流式柴油机颗粒捕集器(Diesel Particulate Filter,DPF)能够有效降低柴油机的颗粒物排放,也是目前唯一能使颗粒物排放满足柴油车欧VI排放法规的技术
近年来,相对于其他抗菌方法光催化抗菌具有的独特优势,使其受到了很多人的青睐。而钒酸铋(BiVO_4)是一种性能较好的光催化剂,有良好的可见光响应活性和催化性能。本文以钒酸铋(BiVO_4)为主线,通过非金属硼(B)掺杂、贵金属(Ag)负载以及与g-C_3N_4复合等催化剂改性方法来设计合成复合材料,提高催化剂的催化活性。本论文针对以上复合催化剂的性能进行了系统的研究,主要内容如下:1.通过简单的水
煤矿物联网需要部署大量的无线传感器,但是传感器数量的增加会导致网络数据量剧增,传输可靠性下降;同时矿用无线传感器节点还面临着能量受限等问题。研究表明只要降低传感器
在信息技术高速发展的同时,银行业也迅速发展壮大起来,各种高新科技在银行业中得到了广泛应用,极大地提高了银行的工作效率与服务质量。虽然信息技术的突飞猛进为银行业带来
CXCL12是一种广泛存在的趋化因子,缺氧缺血条件下表达会升高,能够通过募集内皮祖细胞(Endothelial progenitor cells,EPCs)归巢到损伤区域等机制促进缺血中风后动物的神经行
在知识经济时代,创新已经成为国家和地区生存和发展的支柱之一。我国把创新投资放在了非常重要的位置,提出了科技强国战略。在实现创新发展中,企业自主创新依然占据核心位置,
双金属纳米催化剂作为一种新型纳米材料,大多具有高催化活性、高选择性、高稳定性和低成本等优点,这些性能决定于它的结构、组分、形态、颗粒大小等因素。合理控制以上因素,
有机硫化物在生命科学、药物化学、材料科学等领域扮演着重要角色。其中α-硫代-β-二羰基化合物、α-硫代酰胺/酯、二芳基硫醚作为有机硫化物的重要组成部分在药物合成、化合物的氧化态调节、药物分子骨架中发挥着关键作用。鉴于上述三类化合物的广泛应用,对其合成研究也是有机硫化学的重点领域。传统方法合成α-硫代羰基化合物往往使用前官能团化的方式,通过α位卤代的羰基化合物与硫醇反应制得,对硫醚类化合物的合成主要
在本论文中通过考察不同配体在钴基催化剂体系中对环氧氯丙烷烷氢酯基化的影响,得到了>99%转化率与>90%选择性的反应条件与催化体系,探索了(S)-4-氯-3-羟基丁酸乙酯与催化剂体系的的分离方式并对反应液中的均相催化剂进行了分离和循环使用。以小试条件为基础,进行了环氧氯丙烷氢酯基化的200L中试实验。1.使用Co_2(CO)_8作为反应的主催化剂,在小试实验中研究了不同配体对(S)-环
NO_2气体传感器可以用来探测生活环境或工业生产中的NO_2含量,给人们的健康生活提供参考。发展低功耗、可在室温环境中使用的NO_2气体传感器是现在的研究热点。本文以ZnO纳米薄膜为载体,研究了不同光强紫外光照射对ZnO纳米薄膜室温NO_2气体传感器性能的影响。最终制备了高灵敏度、回复时间短的ZnO纳米薄膜室温NO_2气体传感器,并对影响气体传感器灵敏度的因素进行了研究。在多种基底上制备了ZnO纳