两核苷酸实时合成测序的数据处理及解码算法

来源 :东南大学 | 被引量 : 0次 | 上传用户:liuxpeter
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
DNA测序技术在生物医学研究和应用中扮演着非常重要的角色。但是与Sanger测序法相比,新一代测序技术依然存在测序误差率较高和读长较短的问题。两核苷酸实时合成测序技术是东南大学生物电子学国家重点实验室提出的一种新型的测序技术,该技术相比目前流行的高通量测序技术具有更低的测序误差率和更长的读长。  但是该测序技术的测序结果不能直接利用,需要进行数据处理和解码。为了将初始的测序数据转换为目标序列,本论文建立了基本的解码模型。我们首先建立了数据处理和数据转换方法,将初始的三组编码序列信息转换为计数矩阵的形式,同时确立并建立了解码目标和目标序列的数学形式。然后基于计数矩阵建立了基本的解码模型,本文采用比对法按照顺序依次对目标序列的每个位点进行解码。随后通过模拟实验证实,发现在不存在实验错误的前提下,基本解码模型能够完全正确的解码出目标序列。  因为在测序过程中系统或多或少会引入测序误差,为了尽可能降低测序误差对重构目标序列的影响,本文建立了具有容错功能的解码模型。首先建立了具有容错功能的基本解码模型,对非多聚体造成的偏差进行修正。本文采用迭代法对含有偏差的计数矩阵进行多轮修正步骤,并采用枚举法对每轮多个可能的修正结果分别进行分析,并通过论证排除错误的修正结果。然后对具有容错功能的基本解码模型进行了拓展。本文采用了容错性更强的筛选模型,用来从多种可能的修正结果中排除错误的解。随后通过模拟实验证实,解码模型不论对非多聚体还是多聚体造成的偏差都具有较好的容错性,但是当含有偏差的编码较密集时解码模型的解码正确率会下降。  为使该测序技术应用于从混合DNA样本中检测SNP,本论文建立了野生型和突变型序列的信号光谱差异模型,并提出了初步的SNP检测方案,设计了相应的算法。为使该技术应用于已知序列的重测序,建立了双核苷酸合成方案的基本设计方法。本文采用贪婪算法针对给定的靶序列设计合成方案,同时设计了相应的算法来实现这种设计方案。
其他文献
微通道的尺度效应对流体的对流传热的影响是微流体器件研究的关键科学问题。目前许多的研究结果和传统理论说法不一甚至自相矛盾,归根结底是缺乏高精度高空间分辨率的微尺度
本文用有限元数值方法对CT、SENB、SENT和CCT试样、轴向裂纹管道和环向裂纹管道的C(t)和C*积分,应力重分布时间tred和蠕变裂尖应力分布进行了详细的分析计算,对由加载方式引
蒸汽是钢铁企业生产和生活所必需的能源介质,是除了煤气、电力外,占据第三位的能源介质,其地位不容忽视。蒸汽系统已成为钢铁联合企业能源系统的重要组成部分,不仅涉及蒸汽生
高分辨显微CT是采用X射线成像原理进行高分辨三维成像的一种新型设备,具有非破坏性、非介入式和高分辨率的优点,被广泛应用于小动物活体成像、骨微结构研究、药物开发和古生
近年来,随着人民生活物质水平的提高,心血管疾病已经成为当前人类死亡的主要原因之一,而通过医学影像技术来获得心脏图像,以进行分析、诊断心脏疾病,已经成为重要的临床诊疗手段。
叶轮机械内部流动是极其复杂的湍流流动,对其准确预测一直是CFD所面临的重要课题。本文针对常规数值模拟方法预测离心叶轮“射流-尾迹”现象时产生的假扩散问题,提出使用高精度有限体积算法并结合RNG k-ω模型对这一类复杂流动问题进行求解。数值算法是数值模拟的关键,本文以非交错网格的SIMPLE算法为基础,通过延时修正的方法纳入高精度的对流离散格式,并设计与编制Fortran程序,发展出一套通用的求解程