论文部分内容阅读
随着大规模测序工作的广泛开展和新一代测序技术的大量应用,完成测序的生物序列及相关信息越来越多,如何挖掘生物基因组序列中存在的有用信息是生物信息学研究人员需要面对的一个关键问题。基因测序实验获得巨大数目的碱基仅仅是获得基因组序列的子序列集合,绝大多数高等生物的基因组序列无法一次性获取,因此需要利用计算机算法和相应软件来指导基因组序列拼接(Assembly Genome Sequence),并运用生物信息方法对拼接后的基因组中的有效信息进行挖掘,本文针对测序数据纠错、基因组装配及基因家族鉴定出三类算法,主要工作概述如下:1.出了一种改进的IKNN(Improved KNN)算法,以第二代测序的短片段对应的样本集和第三代测序的长片段对应的测试集为输入,设置最优的K值将短片段比对到长片段上,通过组装匹配上的短片段完成对长片段的纠错。第二代测序技术作为现阶段主要的生产化平台,主要优点是能产生高通量和高准确率的测序数据,但其产生的测序序列reads长度较短;目前逐步发展起来的的第三代测序技术,产生的测序数据reads长度较长,但是第三代测序技术产生的测序数据准确率低(约为86%),设计算法及软件对这些长reads进行纠错是第三代测序数据处理的必要操作。IKNN算法根据与待分类样本相近邻的K个样本类别来对拟分类样本进行分类,不仅可以完成对第三代测序数据的纠错,基于该算法还能设计出一种混合纠错拼接算法,最终获得高效率、高准确率的目标基因组序列。2.出了一种基于二三代数据混合组装的LSA(Long reads and Short reads Assembly)算法。第二代测序技术产生了大量的测序数据,对此研发了许多基因组拼接软件,是目前较成熟的获得完整基因组的方式。但是由于大部分基因组具有重复片段多,杂合度高,产生分支多等特点,当组装基因组的过程中遇到以上一种或几种情况时,为了后续正确路径的选择以装配高精度的基因组序列设计了LSA算法。LSA算法原理为在进行组装高准确率的第二代测序序列的过程中,借助三代数据长序列用于指导装配路径,这样不仅能为出现分支选择路径,而且能避免由于没有路径指导无法继续组装的问题。本文利用该方法成功组装出林木植物中的枣树叶绿体、盐芥和簸箕柳线粒体基因组(NCBI登录号为:KU351660,KT988071,NC029317.1),并进一步分析了这三种植物细胞器基因组的结构及功能,为未来植物细胞器研究供了重要的参考。3.出了一种基于HMM算法的转录因子家族鉴定算法,设计出一套基于功能分析的通用流程。转录因子家族主要用于调节细胞代谢和植物发育,他们通过编码获得的产物具有重要的作用。运用该算法与功能分析流程挖掘出15个簸箕柳WOX基因家族成员,这些成员在茎和根顶端分生区干细胞的维持、侧生器官的发育、花器官的形成和胚发育等方面担当重任;对簸箕柳WOX基因家族进一步的序列分析、染色体定位、结构和模体定位、系统发育学分析、表达谱分析等功能分析,有利于揭示基因物种分化,演化历史和基因功能,为研究转录因子在植物抵抗不良环境的影响和生长发育中的作用奠定基础。