基于边合成边测序技术的碱基辨识模型与算法

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:pyh333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在第二代DNA测序技术中,以Illumina测序为代表的边合成边测序技术占据了大部份市场份额。在测序过程中,将原始信号翻译为碱基序列的过程被称为碱基辨识。碱基辨识方法的精度决定了DNA测序的质量,并对后续的数据分析如序列映射、基因组组装等产生重大影响。本研究对Illumina测序技术的碱基辨识过程从多个角度进行了探讨和改进,并基于这些改进完成了一套完整的碱基辨识软件。  首先,已有的碱基辨识软件主要估计和纠正原始信号中的相位失相和光谱串色现象。但我们注意到相位失相和光谱串色的程度在不同的测序轮中或不同的分子簇中并不一致。因此,我们按照测序轮数和分子簇在芯片上的位置将数据分块再加以处理。这一分块方法具有以下优势:(1)分块的模型增加了对真实数据的拟合程度;(2)单个模型的复杂度显著降低;(3)不同部分的数据可并行处理。我们将衍生出的算法应用于测试数据,发现分块方法的计算速度和碱基辨识精度都得到提高。  其次,我们发现在Illumina测序系统中,除了相位失相和光谱串色,临近分子簇间的信号混杂也会导致相当多的错误。这种空间混杂具有特异性和不对称性,因而无法通过图像反卷积方法纠正。我们定量研究了这一空间混杂现象在不同测序系统中的严重程度,为其建模,并基于模型设计估计和纠正算法。我们的算法在给定映射率的条件下可减少约44%到69%的碱基辨识错误。  然后,碱基辨识软件需要为序列中的每个碱基预测质量值,表示该碱基被正确辨识的概率。质量值的准确程度会对下游的数据分析,如单核甘酸多态性检测和基因组组装等产生影响。已有的碱基辨识软件大多基于模型,或基于查找表方法建立质量值评估的算法。考虑到这些方法的局限性,本研究尝试通过L1正则化的逻辑回归的方法完成对各碱基质量值的评估。结果显示,L1正则化的逻辑回归在一致性、计算速度、区分能力等方面均表现良好。  最后,我们根据上述研究成果,完成了碱基辨识软件3Dec(可免费用于非商业用途,下载地址:https://github.com/flishwnag/3dec)。与Illumina测序平台的标准流程相比,我们的软件可减少62.1%的碱基辨识错误,并且其速度足以应对日常的测序。
其他文献
本文研究的是基础数学中K1群中特征元素的整性,本文重点讨论的是J.Coates等人在[1]中提出的一个猜想.这个猜想试图揭示非交换Iwasawa理论中定义在K-群中的特征元素的整性和他
本文系统研究了Sobolev圆盘代数R(D)——即由极点在单位闭圆盘D外的有理函数在Sobolev空间W(D)中的闭包构成的函数空间——以及其上的有界线性乘法算子的性质.首先我们研究了
各种各类示意图是自然地理的特色之一,尤其是地球地图、地球运动、大气环境等内容。合理运用各种示意图是进行高效的教与学的重要手段。纵观各类练习和试卷,我们可以发现有一类题型,是对比较熟悉的示意图进行适当的增减和转换,得到的图形常常令人耳目一新,题目的难度随之增大。对于这类题目大部分学生往往比较茫然,不知从何入手,一方面不能正确判别示意图的含义,另一方面不知道图形从何而来,更不知道用什么知识解决问题,往
语音信号作为一种特殊的信息隐藏载体,在其中进行信息隐藏时必须允分考虑人类的听觉特性。本文以小波变换为基础,提出了一种盲检测的自适应语音信息隐藏算法。通过对小波特性
本文通过对荣华二采区10
本文通过对荣华二采区10
断层封闭性是一个极为复杂的地质问题,它受断层的力学性质、断面承受应力状况、断层剪切带等多种地质条件制约。我们研究油气田断层封闭性,是要揭示这多种制约条件对断层封闭
文章以当前广播电视事业的发展需要为背景,以广播电视编导为例,分析了传统实验教学存在的问题,并对问题进行深入思考,提出了新的实验教学改革思路。由实验教学理念入手,从实
当前,输配气(油)管网中漏失位置与漏失强度的确定是油气储运工程、油气储运理论研究最为热门的课题,同时又是油气田生产中亟待解决的实际问题。国内外许多工程人员和自然科学
  本文研究了编码理论中的两个问题:自对偶置换码的存在性,有限域上线性码的m-重量.全文分为三个部分:前言部分介绍了本文两个主题的研究背景,研究现状并概述了我们的一些研究