论文部分内容阅读
在第二代DNA测序技术中,以Illumina测序为代表的边合成边测序技术占据了大部份市场份额。在测序过程中,将原始信号翻译为碱基序列的过程被称为碱基辨识。碱基辨识方法的精度决定了DNA测序的质量,并对后续的数据分析如序列映射、基因组组装等产生重大影响。本研究对Illumina测序技术的碱基辨识过程从多个角度进行了探讨和改进,并基于这些改进完成了一套完整的碱基辨识软件。 首先,已有的碱基辨识软件主要估计和纠正原始信号中的相位失相和光谱串色现象。但我们注意到相位失相和光谱串色的程度在不同的测序轮中或不同的分子簇中并不一致。因此,我们按照测序轮数和分子簇在芯片上的位置将数据分块再加以处理。这一分块方法具有以下优势:(1)分块的模型增加了对真实数据的拟合程度;(2)单个模型的复杂度显著降低;(3)不同部分的数据可并行处理。我们将衍生出的算法应用于测试数据,发现分块方法的计算速度和碱基辨识精度都得到提高。 其次,我们发现在Illumina测序系统中,除了相位失相和光谱串色,临近分子簇间的信号混杂也会导致相当多的错误。这种空间混杂具有特异性和不对称性,因而无法通过图像反卷积方法纠正。我们定量研究了这一空间混杂现象在不同测序系统中的严重程度,为其建模,并基于模型设计估计和纠正算法。我们的算法在给定映射率的条件下可减少约44%到69%的碱基辨识错误。 然后,碱基辨识软件需要为序列中的每个碱基预测质量值,表示该碱基被正确辨识的概率。质量值的准确程度会对下游的数据分析,如单核甘酸多态性检测和基因组组装等产生影响。已有的碱基辨识软件大多基于模型,或基于查找表方法建立质量值评估的算法。考虑到这些方法的局限性,本研究尝试通过L1正则化的逻辑回归的方法完成对各碱基质量值的评估。结果显示,L1正则化的逻辑回归在一致性、计算速度、区分能力等方面均表现良好。 最后,我们根据上述研究成果,完成了碱基辨识软件3Dec(可免费用于非商业用途,下载地址:https://github.com/flishwnag/3dec)。与Illumina测序平台的标准流程相比,我们的软件可减少62.1%的碱基辨识错误,并且其速度足以应对日常的测序。