论文部分内容阅读
DNA测序技术在生物医学研究和应用中扮演着非常重要的角色。但是与Sanger测序法相比,新一代测序技术依然存在测序误差率较高和读长较短的问题。两核苷酸实时合成测序技术是东南大学生物电子学国家重点实验室提出的一种新型的测序技术,该技术相比目前流行的高通量测序技术具有更低的测序误差率和更长的读长。 但是该测序技术的测序结果不能直接利用,需要进行数据处理和解码。为了将初始的测序数据转换为目标序列,本论文建立了基本的解码模型。我们首先建立了数据处理和数据转换方法,将初始的三组编码序列信息转换为计数矩阵的形式,同时确立并建立了解码目标和目标序列的数学形式。然后基于计数矩阵建立了基本的解码模型,本文采用比对法按照顺序依次对目标序列的每个位点进行解码。随后通过模拟实验证实,发现在不存在实验错误的前提下,基本解码模型能够完全正确的解码出目标序列。 因为在测序过程中系统或多或少会引入测序误差,为了尽可能降低测序误差对重构目标序列的影响,本文建立了具有容错功能的解码模型。首先建立了具有容错功能的基本解码模型,对非多聚体造成的偏差进行修正。本文采用迭代法对含有偏差的计数矩阵进行多轮修正步骤,并采用枚举法对每轮多个可能的修正结果分别进行分析,并通过论证排除错误的修正结果。然后对具有容错功能的基本解码模型进行了拓展。本文采用了容错性更强的筛选模型,用来从多种可能的修正结果中排除错误的解。随后通过模拟实验证实,解码模型不论对非多聚体还是多聚体造成的偏差都具有较好的容错性,但是当含有偏差的编码较密集时解码模型的解码正确率会下降。 为使该测序技术应用于从混合DNA样本中检测SNP,本论文建立了野生型和突变型序列的信号光谱差异模型,并提出了初步的SNP检测方案,设计了相应的算法。为使该技术应用于已知序列的重测序,建立了双核苷酸合成方案的基本设计方法。本文采用贪婪算法针对给定的靶序列设计合成方案,同时设计了相应的算法来实现这种设计方案。