林木基因组大数据分析及应用

来源 :南京林业大学 | 被引量 : 0次 | 上传用户:i369731392
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大规模测序工作的广泛开展和新一代测序技术的大量应用,完成测序的生物序列及相关信息越来越多,如何挖掘生物基因组序列中存在的有用信息是生物信息学研究人员需要面对的一个关键问题。基因测序实验获得巨大数目的碱基仅仅是获得基因组序列的子序列集合,绝大多数高等生物的基因组序列无法一次性获取,因此需要利用计算机算法和相应软件来指导基因组序列拼接(Assembly Genome Sequence),并运用生物信息方法对拼接后的基因组中的有效信息进行挖掘,本文针对测序数据纠错、基因组装配及基因家族鉴定出三类算法,主要工作概述如下:1.出了一种改进的IKNN(Improved KNN)算法,以第二代测序的短片段对应的样本集和第三代测序的长片段对应的测试集为输入,设置最优的K值将短片段比对到长片段上,通过组装匹配上的短片段完成对长片段的纠错。第二代测序技术作为现阶段主要的生产化平台,主要优点是能产生高通量和高准确率的测序数据,但其产生的测序序列reads长度较短;目前逐步发展起来的的第三代测序技术,产生的测序数据reads长度较长,但是第三代测序技术产生的测序数据准确率低(约为86%),设计算法及软件对这些长reads进行纠错是第三代测序数据处理的必要操作。IKNN算法根据与待分类样本相近邻的K个样本类别来对拟分类样本进行分类,不仅可以完成对第三代测序数据的纠错,基于该算法还能设计出一种混合纠错拼接算法,最终获得高效率、高准确率的目标基因组序列。2.出了一种基于二三代数据混合组装的LSA(Long reads and Short reads Assembly)算法。第二代测序技术产生了大量的测序数据,对此研发了许多基因组拼接软件,是目前较成熟的获得完整基因组的方式。但是由于大部分基因组具有重复片段多,杂合度高,产生分支多等特点,当组装基因组的过程中遇到以上一种或几种情况时,为了后续正确路径的选择以装配高精度的基因组序列设计了LSA算法。LSA算法原理为在进行组装高准确率的第二代测序序列的过程中,借助三代数据长序列用于指导装配路径,这样不仅能为出现分支选择路径,而且能避免由于没有路径指导无法继续组装的问题。本文利用该方法成功组装出林木植物中的枣树叶绿体、盐芥和簸箕柳线粒体基因组(NCBI登录号为:KU351660,KT988071,NC029317.1),并进一步分析了这三种植物细胞器基因组的结构及功能,为未来植物细胞器研究供了重要的参考。3.出了一种基于HMM算法的转录因子家族鉴定算法,设计出一套基于功能分析的通用流程。转录因子家族主要用于调节细胞代谢和植物发育,他们通过编码获得的产物具有重要的作用。运用该算法与功能分析流程挖掘出15个簸箕柳WOX基因家族成员,这些成员在茎和根顶端分生区干细胞的维持、侧生器官的发育、花器官的形成和胚发育等方面担当重任;对簸箕柳WOX基因家族进一步的序列分析、染色体定位、结构和模体定位、系统发育学分析、表达谱分析等功能分析,有利于揭示基因物种分化,演化历史和基因功能,为研究转录因子在植物抵抗不良环境的影响和生长发育中的作用奠定基础。
其他文献
知识产权法的公共领域是不受知识产权保护的思想和表达的总和,是创造性活动的基础和源泉。公共领域的产生与公共利益与私人利益两种主张的对抗有着密切的联系,代表着社会公众
1秸秆加工处理方式秸秆切碎。秸秆中含有高达80%以上的中性洗涤纤维素,而含有达50%以上的酸性纤维素,加上纤维素的木质化程度很高,一层厚厚的硅酸盐镶嵌在细胞壁外围,使秸秆
运用文献资料、逻辑归纳、实地考察等方法,对纳西族打跳从概念、动作及音乐、功能与价值、传承与保护对策等方面的研究进行了概括与分析。得出:纳西族打跳与纳西族原始生态文
对于在国内最新开展互联网金融业务并形成一定规模的证券公司来说,互联网已经成为客户交易股票、买卖产品、获取资讯的重要形式。由于互联网金融操作简单便捷,随时随地都可以
应用于反刍动物的尿素是一种非常有用的饲料添加剂,这是因为反刍动物有其独特的消化器官一瘤胃。瘤胃内生活着许多原虫、真菌和细菌等瘤胃微生物,而瘤胃细菌就可以利用尿素分解
慢性结肠炎属临床常见的一种慢性非特异性炎症性疾病,因结肠功能紊乱导致反复发作和迁延难愈的腹痛,以及腹泻与便秘交替发作,同时伴有腹胀、肠鸣、里急后重、甚至黏液或脓血
<正>科学的方法是做好一切工作的重要保证。方法得当,事半功倍;方法不当,事倍功半。落实中央关于进一步加强和改进街道社区党建工作的要求,不断开创街道社区党建工作新局面,