论文部分内容阅读
随着高通量测序技术的发展,发现基因组中普遍存在重复基因现象。基因重复在导致基因数量增大的同时,也为基因突变和正向选择提供原材料,进而为生物体进化提供可能。所以,了解重复基因的生物学意义和进化机制显得尤为重要。目前,对真核基因组中的重复基因研究较多,而对原核基因组中的重复基因、尤其是对多拷贝基因研究鲜有报道。因此,本课题首先对原核生物基因组中重复基因进行了深入统计分析。在此基础上,首次对原核生物基因组中多拷贝基因及其功能进行了系统研究,为今后原核生物进化研究及基因组分析提供可靠的数据和理论基础。另外,基因注释是基因组研究的重要课题,在许多基因注释算法中都采用了蛋白质编码基因序列作为训练集。而许多算法中没有考虑由于重复基因和多拷贝基因的存在导致蛋白质编码基因序列相似性冗余问题。数据集冗余是机器学习中影响预测效率的关键因素之一,序列相似性去冗余已被广泛应用于蛋白质序列相关预测问题中。因此,在对原核生物基因组中重复基因和多拷贝基因研究基础上,本文以两种具有广泛应用的基因重注释算法为例,进一步分析了相似性蛋白质编码基因序列对基因重注释结果的影响,为今后原核生物基因组蛋白质编码基因注释提供可靠的理论基础。论文主要工作包括:1.首先构建了由RefSeq数据库中下载的98个具有不同G+C含量原核生物基因组组成的数据集,运用CD-HIT软件对各基因组中重复程度≥80%的基因序列进行了相似性分析和去冗余,然后对各基因组中序列相似性等于100%的多拷贝基因进行了统计分析,结果表明在原核生物基因组中重复基因和多拷贝基因普遍存在,重复基因所占比例0~16.49%,多拷贝基因在各基因组中所占比例0~15.93%。对功能已知的多拷贝基因的COG分析表明,近87%的多拷贝基因的COG分类属于“L”,具体的功能分析发现有71.4%的多拷贝基因与编码转座酶相关,说明原核生物中的多拷贝基因的生物功能与环境适应相关。2.为了研究相似性基因序列对基因注释结果的影响,以Z-curve算法和RPGM算法为例对相似性序列去冗余前、后的预测准确性、过注释基因预测个数和预测结果可靠性进行了深入对比分析。结果表明,去冗余前、后预测准确性和预测个数及其可靠性具有差别。为了研究序列去冗余程度与基因注释结果之间的关系,对两种算法中各基因组中蛋白质编码序列冗余程度与去冗余前后预测效率评价参数的变化程度进行了相关性分析,结果发现两者之间呈现不同程度负相关。因此,本文的分析结果表明蛋白质编码基因序列冗余对基因注释问题的影响是不可忽视的。