【摘 要】
:
针对第三代测序数据自身存在相对高错误率的问题,提出一种基于l0x Genomics测序平台的链读(Linked Reads)测序数据对PacBio测序平台的长读数据(long reads)进行纠错的算法。首先运用拼接算法Wtdbg2将人类基因组第三代长读测序数据拼接成重叠链(contigs),将contigs打碎成相同k碱基长度的短读(k-mers)并存储于哈希表中;然后将同一 Barcode的链
论文部分内容阅读
针对第三代测序数据自身存在相对高错误率的问题,提出一种基于l0x Genomics测序平台的链读(Linked Reads)测序数据对PacBio测序平台的长读数据(long reads)进行纠错的算法。首先运用拼接算法Wtdbg2将人类基因组第三代长读测序数据拼接成重叠链(contigs),将contigs打碎成相同k碱基长度的短读(k-mers)并存储于哈希表中;然后将同一 Barcode的链读数据打碎成k值相同的短序k-mers,选取每一个k-mer去遍历哈希表寻找与之相匹配的contig编号及位置信息,这样,可快速地将Linked Reads序列分配到contigs中;再利用比对工具Bowtie 2把Linked Reads序列比对到contigs上;最后,使用超几何分布公式统计每个位置碱基的频率,计算P值并识别错误碱基或者单核酸多态性(SNP)。通过Linked Reads测序数据对来自人类不同细胞的基因组数据Human HG00733、Human NA24385、Human CHM1进行纠错验证,结果表明所提算法能够显著提高基因组装的Scaffold长度,而且组装的基因组具有较高的准确性。我们实验数据集选择人的三代PacBio基因组测序数据和10x Genomics的Linked Reads。Linked Reads数据本身具有一定的技术优势,技术原理方面,在长序列片段中引入barcode序列对DNA进行精确分区,并将长片段分配到不同的油滴微粒中,使用GemCode平台技术对长片段序列进行扩增引入barcode序列及测序接头引物,紧接着将序列打碎成适合测序大小的片段进行测序,相同barcode序列的短序来源于同一条长片段。该技术可与Illumina测序仪进行无缝对接,利用短序列可获得长达100Kb的片段,利用长片段信息结合Illumina组装数据组装的Scaffold N50长度比只用Illumina方法提高十几倍。通过对人的三代测序数据进行纠错,可以提高测序的精度,进一步提高拼接的准确度。该算法的研究对结构变异预测和疾病预测具有重大意义。
其他文献
硒是生物体必需的微量元素,硒缺乏会导致许多疾病,但硒过量也会造成硒中毒。目前,国内许多地区都在大力推进富硒农业开发,但富硒农业的发展是否会导致环境中硒含量的变化,环
在实际生产中非均匀介质是最常见的地质体且开发过程常常伴随流体替换,本文通过岩石物理实验和物理模型数值模拟两种方法针对非均匀介质发生流体替换之后的地震响应及岩石物
裂纹缺陷常常会出现在工程结构中,这种缺陷对结构的动力特性和动力响应的影响是不容忽视的。此外,动力荷载由于受到多种复杂因素影响而具有本质的不确定性,采用随机振动方法对带裂纹结构进行动力行为分析是一种更为合理的做法。本文基于Erdogan基本解提出了线弹性断裂动力学样条虚边界元法,并结合随机振动时域显式法,实现了随机振动下裂纹动态应力强度因子统计矩求解及裂纹动态起始扩展问题可靠度分析。本文研究的主要工
目的:探究胸腔积液联合血清单核细胞趋化因子蛋白1(MCP-1)、可溶性髓系细胞触发受体1(sTREM-1)对急性胰腺炎严重程度及预后的早期评估价值。方法:收集2017年12月—2018年12月
传统化石能源的加速消耗随之带来的是能源的短缺和环境的污染问题,促使世界范围内研究者们的研究重点转移向了开发可再生循环利用的新型清洁能源上。太阳能作为清洁可再生能源逐渐进入了研究者们的视线。利用半导体光催化技术将太阳能转化为化学能被视为解决能源和环境问题最有效的策略之一。高效的光催化剂应具有较宽的可见光吸收范围、较低的光生电子-空穴对的复合率以及较高的光生载流子的分离和迁移率。为此众多研究者们付出了
创新已成为现今城市发展的重要驱动力。如何准确测度和分析城市创新活动的空间分布特征和趋势,对于科学实施创新空间的发展规划具有重要意义。杭州市在我国城市创新格局处于
本文拟研发出与自体骨膜具有相似结构与功能的骨膜材料,以实现损伤骨组织的快速修复。通过模仿骨膜的双层结构及其功能特点,以生物相容性好的丝素蛋白为基材,通过静电纺丝法和旋蒸法,分别制备出具有多孔隙和高强度的内外层分别负载羟基磷灰石及血管内皮生长因子的双层仿骨膜材料,通过调控关键工艺及参数,使其微观结构及力学性能与自体骨膜相似。首先对骨膜材料的形貌特征及结构进行了表征,然后对其体外降解性能、吸水性、力学
病毒模板法作为新兴的纳米材料合成方法,已有二十年的发展历程,合成和分析技术日渐成熟,在目前的研究中备受关注。以病毒模板合成的金属纳米材料具有良好的稳定性、分散性及
氢能作为一种清洁能源,具有取之不尽、用之不竭的特点,是能源技术领域的一大热点。但是由于其本身具有危险性,因此在氢能的生产、储运、利用方面都有一些安全问题需要去解决
分形几何是一个热门的研究学科,它和其他很多学科的研究有广泛的交叉与融合.近年来,分形上的Fourier分析成为了一个研究热点.分形测度的谱性问题是分形上Fourier分析研究的一个基本问题.对于,上给定的Borel概率测度μ和实数d,如果存在离散集A,使得Λ与dΛ都为μ的谱,则称d为μ的谱特征值.在这篇论文中,我们主要研究两类Moran测度的谱特征值问题.全文分为三章:在第一章,主要介绍了分形谱测