基于边合成边测序技术的碱基辨识模型与算法

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：pyh333

【摘要】

：

在第二代DNA测序技术中，以Illumina测序为代表的边合成边测序技术占据了大部份市场份额。在测序过程中，将原始信号翻译为碱基序列的过程被称为碱基辨识。碱基辨识方法的精度决

【作者】

：

王博

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2017年期

【关键词】

：

DNA测序碱基辨识分块处理空间混杂逻辑回归应用软件

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在第二代DNA测序技术中，以Illumina测序为代表的边合成边测序技术占据了大部份市场份额。在测序过程中，将原始信号翻译为碱基序列的过程被称为碱基辨识。碱基辨识方法的精度决定了DNA测序的质量，并对后续的数据分析如序列映射、基因组组装等产生重大影响。本研究对Illumina测序技术的碱基辨识过程从多个角度进行了探讨和改进，并基于这些改进完成了一套完整的碱基辨识软件。　　首先，已有的碱基辨识软件主要估计和纠正原始信号中的相位失相和光谱串色现象。但我们注意到相位失相和光谱串色的程度在不同的测序轮中或不同的分子簇中并不一致。因此，我们按照测序轮数和分子簇在芯片上的位置将数据分块再加以处理。这一分块方法具有以下优势:(1)分块的模型增加了对真实数据的拟合程度;(2)单个模型的复杂度显著降低;(3)不同部分的数据可并行处理。我们将衍生出的算法应用于测试数据，发现分块方法的计算速度和碱基辨识精度都得到提高。　　其次，我们发现在Illumina测序系统中，除了相位失相和光谱串色，临近分子簇间的信号混杂也会导致相当多的错误。这种空间混杂具有特异性和不对称性，因而无法通过图像反卷积方法纠正。我们定量研究了这一空间混杂现象在不同测序系统中的严重程度，为其建模，并基于模型设计估计和纠正算法。我们的算法在给定映射率的条件下可减少约44％到69％的碱基辨识错误。　　然后，碱基辨识软件需要为序列中的每个碱基预测质量值，表示该碱基被正确辨识的概率。质量值的准确程度会对下游的数据分析，如单核甘酸多态性检测和基因组组装等产生影响。已有的碱基辨识软件大多基于模型，或基于查找表方法建立质量值评估的算法。考虑到这些方法的局限性，本研究尝试通过L1正则化的逻辑回归的方法完成对各碱基质量值的评估。结果显示，L1正则化的逻辑回归在一致性、计算速度、区分能力等方面均表现良好。　　最后，我们根据上述研究成果，完成了碱基辨识软件3Dec(可免费用于非商业用途，下载地址:https://github.com/flishwnag/3dec)。与Illumina测序平台的标准流程相比，我们的软件可减少62.1％的碱基辨识错误，并且其速度足以应对日常的测序。

其他文献

K1群中特征元素的整性

本文研究的是基础数学中K1群中特征元素的整性，本文重点讨论的是J.Coates等人在[1]中提出的一个猜想.这个猜想试图揭示非交换Iwasawa理论中定义在K-群中的特征元素的整性和他

学位

p-进李群p-进表示K-群特征元素Iwasawa理论

Sobolev圆盘代数上的乘法算子

本文系统研究了Sobolev圆盘代数R(D)——即由极点在单位闭圆盘D外的有理函数在Sobolev空间W(D)中的闭包构成的函数空间——以及其上的有界线性乘法算子的性质.首先我们研究了

学位

Sobolev空间乘法算子换位子不变子空间

图形的复原和转换

各种各类示意图是自然地理的特色之一，尤其是地球地图、地球运动、大气环境等内容。合理运用各种示意图是进行高效的教与学的重要手段。纵观各类练习和试卷，我们可以发现有一类题型，是对比较熟悉的示意图进行适当的增减和转换，得到的图形常常令人耳目一新，题目的难度随之增大。对于这类题目大部分学生往往比较茫然，不知从何入手，一方面不能正确判别示意图的含义，另一方面不知道图形从何而来，更不知道用什么知识解决问题，往

期刊