论文部分内容阅读
背景: 目前仍有大量的基因组装配结果是不完整的。本研究统计了NCBI数据库中动植物的基因组scaffold N50,其中只有37%的物种的装配是相对较完整的。提高基因组结构完整性是基因组装配的主要目标。低质量的装配甚至是一些高质量的装配中仍有某些基因区域是不完整的。因此,需要一种新的组装方法来提高基因组完整性。识别基因是用于下游功能研究和进化分析基因组测序项目的主要目标。虽然大片段插入文库或长单分子reads提升了基因组的N50,但是这些方法很难提升基因结构的完整性。所以需要开发一种新的组装方法来恢复基因区域。基因组被广泛转录为信使RNA和非编码RNA,编码RNA翻译成蛋白质。这些普遍存在的转录组和蛋白序列能够被利用到基因组组装和转录区域补全中。 结果: 本研究开发了2种全基因组组装算法。第一种算法是利用(同源)蛋白序列组装基因的方法——PEP_scaffolder,该流程旨在恢复蛋白质编码基因结构。利用人类Swiss-Prot蛋白做测试,当MPI大于0.9,MLC大于0.9,MIL大于150kb时,N50趋近于饱和。使用这组最优参数,利用人类Swiss-Prot蛋白和TrEMBL蛋白分别指导组装,最终scaffold N50分别为171,032bp和168,047bp,分别提升了15%和13%。利用人类Swiss-Prot蛋白和TrEMBL蛋白共同指导组装,基因组序列数量从36,437条减少到30,550条,N50提升16.8%,准确度达到96.7%。连接错误修正过后,N50依然有16.1%的提升,装配结果的全覆盖蛋白的比例为96.8%,接近于hg38全基因组装配结果的99.8%。利用啮齿动物Swiss-Prot蛋白,哺乳动物Swiss-Prot蛋白,啮齿动物TrEMBL蛋白和哺乳动物TrEMBL蛋白分别组装人contigs,N50分别提升6.84%,3.61%,10.84%和20.84%,准确度达到了90.82%。为测试用于组装的蛋白质的数据量对N50提升率的影响,将人、啮齿动物、哺乳动物的蛋白序列合并来组装人contigs,得到N50和修正N50分别为182,433bp和176,257bp,分别提升22.7%和18.5%。分别使用SWiPS、ESPRIT和PEP_scaffolder组装果蝇contigs,结果PEP_scaffolder产生了最多的连接,数量为4,191个,具有最高的准确度,准确率为99.6%,并且耗时最短,用时仅27分钟。 第二种算法是利用转录组双端序列组装基因的方法——P_RNA_scaffolder,利用人大脑组织RNA-seq组装人contigs测试软件的效能和准确度。当MLC大于0.9、MIL超过150kb时,N50大小接近于饱和且组装准确度保持较高水平。利用大脑组织不同数据量的RNA-seq组装得到的结果显示,随着测序深度的增加,N50大小得到提升但仍未饱和。利用更多的来自不同组织的转录组序列作为指导进行组装,结果显示,随着测序广度的增加N50大小得到提升但未饱和。将P_RNA_scaffolder参数设置为前期测试得到的最优参数,并使用之前提到的所有组织样本的RNA-seq进行组装,N50大小达到279.9kb,提升了88.2%,同时准确度达到了96.2%,其修正的N50大小也有76.3%的提升。统计全覆盖蛋白比例, contigs为82.8%,P_RNA_scaffolder为97.4%,hg38版本人类全基因组为99.8%。全覆盖的circRNAs的比例在P_RNA_scaffolder的组装结果中达到了95.5%,接近于hg38版本基因组的96.2%。用P_RNA_scaffolder和现存的其他算法组装人contigs。P_RNA_scaffolder产生了最多的连接,数量为6,996个,准确率可达到97.74%,且耗时最短,仅用时226分钟。 最后,本研究将L_RNA_scaffolder、P_RNA_scaffolder、PEP_scaffolder整合成一个新的组装软件——Gene_scaffolder。利用不同测序平台的数据测试Gene_scaffolder中L_RNA_scaffolder模块的组装性能,结果显示L_RNA_scaffolder能够很好的利用PacBio和其他测序平台数据进行组装。经过优化, L_RNA_scaffolder利用EST、mRNA和refmRNA共同组装人contigs的耗时从最初的4,432分钟缩短到966分钟。Gene_scaffolder利用人类的蛋白质和转录组数据(包括长单端转录组和双端转录组)组装人contigs。最终组装结果准确度达到了95.72%,N50提升了91.69%。 结论: PEP_scaffolder是一款高效、快速、准确的组装软件,能够有效提高完整基因的比例。PEP_scaffolder具有高准确度且明显快于其他两种算法。组装后全覆盖基因的比例接近于已完成装配的全基因组。 P_RNA_scaffolder软件能够快速准确地利用双端转录组序列组装基因组。相较于其他软件,它能利用最少的时间产生最多的连接并保持最高的准确度。组装后全覆盖的蛋白质编码基因和非编码基因的比例得到了提升并接近于完整基因组的水平。 整合后的Gene_scaffolder软件能够很好的利用转录组数据和蛋白质数据组装全基因组,在保证组装准确性的前提下有效提高了程序的运行效率、测序平台的适应度和用户的易用性。