基于转录组和蛋白组的全基因组组装算法开发

来源 :上海海洋大学 | 被引量 : 0次 | 上传用户:q51525779
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
背景:  目前仍有大量的基因组装配结果是不完整的。本研究统计了NCBI数据库中动植物的基因组scaffold N50,其中只有37%的物种的装配是相对较完整的。提高基因组结构完整性是基因组装配的主要目标。低质量的装配甚至是一些高质量的装配中仍有某些基因区域是不完整的。因此,需要一种新的组装方法来提高基因组完整性。识别基因是用于下游功能研究和进化分析基因组测序项目的主要目标。虽然大片段插入文库或长单分子reads提升了基因组的N50,但是这些方法很难提升基因结构的完整性。所以需要开发一种新的组装方法来恢复基因区域。基因组被广泛转录为信使RNA和非编码RNA,编码RNA翻译成蛋白质。这些普遍存在的转录组和蛋白序列能够被利用到基因组组装和转录区域补全中。  结果:  本研究开发了2种全基因组组装算法。第一种算法是利用(同源)蛋白序列组装基因的方法——PEP_scaffolder,该流程旨在恢复蛋白质编码基因结构。利用人类Swiss-Prot蛋白做测试,当MPI大于0.9,MLC大于0.9,MIL大于150kb时,N50趋近于饱和。使用这组最优参数,利用人类Swiss-Prot蛋白和TrEMBL蛋白分别指导组装,最终scaffold N50分别为171,032bp和168,047bp,分别提升了15%和13%。利用人类Swiss-Prot蛋白和TrEMBL蛋白共同指导组装,基因组序列数量从36,437条减少到30,550条,N50提升16.8%,准确度达到96.7%。连接错误修正过后,N50依然有16.1%的提升,装配结果的全覆盖蛋白的比例为96.8%,接近于hg38全基因组装配结果的99.8%。利用啮齿动物Swiss-Prot蛋白,哺乳动物Swiss-Prot蛋白,啮齿动物TrEMBL蛋白和哺乳动物TrEMBL蛋白分别组装人contigs,N50分别提升6.84%,3.61%,10.84%和20.84%,准确度达到了90.82%。为测试用于组装的蛋白质的数据量对N50提升率的影响,将人、啮齿动物、哺乳动物的蛋白序列合并来组装人contigs,得到N50和修正N50分别为182,433bp和176,257bp,分别提升22.7%和18.5%。分别使用SWiPS、ESPRIT和PEP_scaffolder组装果蝇contigs,结果PEP_scaffolder产生了最多的连接,数量为4,191个,具有最高的准确度,准确率为99.6%,并且耗时最短,用时仅27分钟。  第二种算法是利用转录组双端序列组装基因的方法——P_RNA_scaffolder,利用人大脑组织RNA-seq组装人contigs测试软件的效能和准确度。当MLC大于0.9、MIL超过150kb时,N50大小接近于饱和且组装准确度保持较高水平。利用大脑组织不同数据量的RNA-seq组装得到的结果显示,随着测序深度的增加,N50大小得到提升但仍未饱和。利用更多的来自不同组织的转录组序列作为指导进行组装,结果显示,随着测序广度的增加N50大小得到提升但未饱和。将P_RNA_scaffolder参数设置为前期测试得到的最优参数,并使用之前提到的所有组织样本的RNA-seq进行组装,N50大小达到279.9kb,提升了88.2%,同时准确度达到了96.2%,其修正的N50大小也有76.3%的提升。统计全覆盖蛋白比例, contigs为82.8%,P_RNA_scaffolder为97.4%,hg38版本人类全基因组为99.8%。全覆盖的circRNAs的比例在P_RNA_scaffolder的组装结果中达到了95.5%,接近于hg38版本基因组的96.2%。用P_RNA_scaffolder和现存的其他算法组装人contigs。P_RNA_scaffolder产生了最多的连接,数量为6,996个,准确率可达到97.74%,且耗时最短,仅用时226分钟。  最后,本研究将L_RNA_scaffolder、P_RNA_scaffolder、PEP_scaffolder整合成一个新的组装软件——Gene_scaffolder。利用不同测序平台的数据测试Gene_scaffolder中L_RNA_scaffolder模块的组装性能,结果显示L_RNA_scaffolder能够很好的利用PacBio和其他测序平台数据进行组装。经过优化, L_RNA_scaffolder利用EST、mRNA和refmRNA共同组装人contigs的耗时从最初的4,432分钟缩短到966分钟。Gene_scaffolder利用人类的蛋白质和转录组数据(包括长单端转录组和双端转录组)组装人contigs。最终组装结果准确度达到了95.72%,N50提升了91.69%。  结论:  PEP_scaffolder是一款高效、快速、准确的组装软件,能够有效提高完整基因的比例。PEP_scaffolder具有高准确度且明显快于其他两种算法。组装后全覆盖基因的比例接近于已完成装配的全基因组。  P_RNA_scaffolder软件能够快速准确地利用双端转录组序列组装基因组。相较于其他软件,它能利用最少的时间产生最多的连接并保持最高的准确度。组装后全覆盖的蛋白质编码基因和非编码基因的比例得到了提升并接近于完整基因组的水平。  整合后的Gene_scaffolder软件能够很好的利用转录组数据和蛋白质数据组装全基因组,在保证组装准确性的前提下有效提高了程序的运行效率、测序平台的适应度和用户的易用性。
其他文献
中图分类号:G807 文献标识:A 文章编号:1009-9328(2016)12-000-01  摘 要 校企合作是体育高职院校发展的必然趋势,如何更加深入、科学、有效地开展校企合作是摆在各大体育职业院校前的棘手任务。但纵观当下校企合作在体育高职院校开展的现状,定位不明确、开展不深入等成为主要问题,这不仅无法实现体育院校的进步,更无法带动企业发展。本文就体育高职院校如何开展校企合作这一问题提出了建
中图分类号:G807 文献标识:A 文章编号:1009-9328(2016)12-000-01  摘 要 体育具有健身功能、教育功能、激励功能、导向功能等,能够促进人的发展,增强人的体质。随着体育事业的发展,学校体育和体育文化受到社会各界的普遍关注。本文从学校体育与体育文化的关系入手,着重分析了湖湘体育文化在湖南学校体育中的传承,并积极探索了在学校体育中传承体育文化的途径。  关键词 学校体育 体
中图分类号:G807 文献标识:A 文章编号:1009-9328(2016)12-000-01  摘 要 体育课的课前准备是上好一堂体育课的基础,同时也是考验体育教师对教材的理解、学情的分析、教案准备、教学教法的使用、课的流程环节、教材搭配、场地器材的考虑和准备以及技术运用等全面的思考。要高效的完成教学任务,提高教学质量和学生的兴趣,做好课前准备显得尤为重要。  关键词 体育课 课前准备 内容 策
中图分类号:G807 文献标识:A 文章编号:1009-9328(2016)12-000-01  摘 要 随着高职体育改革的推进和发展,传统的单一模式化教学逐渐被多元化教学所取代。因此越来越多的优秀民族传统项目进入到高职课堂,推进了文化的传播,并且弘扬了中国传统文化。通过国家体育总局的大力推广,舞龙运动如雨后春笋般进入高职课堂,文章通过对高职舞龙课开展的现状进行调查研究,并提出相关建议。  关键词
中图分类号:G807 文献标识:A 文章编号:1009-9328(2016)12-000-01  摘 要 随着网络信息技术的快速发展,为现代的教学带来了很大的变化。在体育项目的教学中,应用多媒体技术是顺应当前时代的需要,同时也是实现现代化教学的必经之路。本文首先说明了在高效足球技术课中应用多媒体技术的必要性,然后总结了应用多媒体技术的优势,最后提出了几个应用多媒体技术进行教学的问题,以期为高校足球
中图分类号:G807 文献标识:A 文章编号:1009-9328(2016)12-000-01  摘 要 由于传统体育教学中存在的相关问题影响着体育课堂的教学效率,所以,在新教育改革目标发展下,利用新的教学模式,能够保证体育课堂教学效率的积极提升。在本文中,针对体育教改中存在的问题,并利用相关的创新性教学模式促进体育教学的合理化。  关键词 体育教改 自主创新 实践  在新课程改革背景下,传统的教
中图分类号:G886 文献标识:A 文章编号:1009-9328(2016)12-000-01  摘 要 跆拳道“内外兼修”的神圣宗旨是跆拳道练习者首要认知条件,它既是一种搏斗技术,更与培养自身素质有着紧密的联系。在促进跆拳道学员健身锻炼的同时,更重要的是注意自身礼仪规范,二者缺一不可,起着相辅相成的作用。大学生的精神文明建设与跆拳道的礼仪教育是紧紧联系在一起的,提高大学生的礼仪修养和文明意识,养
中图分类号:G807 文献标识:A 文章编号:1009-9328(2016)12-000-01  摘 要 本文从校外教育实践基地的建设入手,对应用型体育人才培养模式进行了研究与思考,认为要建立与校外教育实践基地相匹配的应用型体育专业人才培养模式,必须满足社会对于体育人才的要求,不断地调整体育专业知识体系,增加实践的环节和学时,掌握时代节奏,多增设新兴体育项目,学生才能适应社会的需要。  关键词 校