原核基因组基因序列相似分析及其对基因预测结果的影响

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:liu_shuangde
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量测序技术的发展,发现基因组中普遍存在重复基因现象。基因重复在导致基因数量增大的同时,也为基因突变和正向选择提供原材料,进而为生物体进化提供可能。所以,了解重复基因的生物学意义和进化机制显得尤为重要。目前,对真核基因组中的重复基因研究较多,而对原核基因组中的重复基因、尤其是对多拷贝基因研究鲜有报道。因此,本课题首先对原核生物基因组中重复基因进行了深入统计分析。在此基础上,首次对原核生物基因组中多拷贝基因及其功能进行了系统研究,为今后原核生物进化研究及基因组分析提供可靠的数据和理论基础。另外,基因注释是基因组研究的重要课题,在许多基因注释算法中都采用了蛋白质编码基因序列作为训练集。而许多算法中没有考虑由于重复基因和多拷贝基因的存在导致蛋白质编码基因序列相似性冗余问题。数据集冗余是机器学习中影响预测效率的关键因素之一,序列相似性去冗余已被广泛应用于蛋白质序列相关预测问题中。因此,在对原核生物基因组中重复基因和多拷贝基因研究基础上,本文以两种具有广泛应用的基因重注释算法为例,进一步分析了相似性蛋白质编码基因序列对基因重注释结果的影响,为今后原核生物基因组蛋白质编码基因注释提供可靠的理论基础。论文主要工作包括:1.首先构建了由RefSeq数据库中下载的98个具有不同G+C含量原核生物基因组组成的数据集,运用CD-HIT软件对各基因组中重复程度≥80%的基因序列进行了相似性分析和去冗余,然后对各基因组中序列相似性等于100%的多拷贝基因进行了统计分析,结果表明在原核生物基因组中重复基因和多拷贝基因普遍存在,重复基因所占比例0~16.49%,多拷贝基因在各基因组中所占比例0~15.93%。对功能已知的多拷贝基因的COG分析表明,近87%的多拷贝基因的COG分类属于“L”,具体的功能分析发现有71.4%的多拷贝基因与编码转座酶相关,说明原核生物中的多拷贝基因的生物功能与环境适应相关。2.为了研究相似性基因序列对基因注释结果的影响,以Z-curve算法和RPGM算法为例对相似性序列去冗余前、后的预测准确性、过注释基因预测个数和预测结果可靠性进行了深入对比分析。结果表明,去冗余前、后预测准确性和预测个数及其可靠性具有差别。为了研究序列去冗余程度与基因注释结果之间的关系,对两种算法中各基因组中蛋白质编码序列冗余程度与去冗余前后预测效率评价参数的变化程度进行了相关性分析,结果发现两者之间呈现不同程度负相关。因此,本文的分析结果表明蛋白质编码基因序列冗余对基因注释问题的影响是不可忽视的。
其他文献
目的探讨D-二聚体联合胱抑素C(Cys-C)和肌酐(Cr)检测在肾病综合征患者血栓形成中的临床预测价值。方法选取肾病综合征患者62例和同期健康体检者80例作为对照组,空腹采集血液,
细石器研究是裴文中教授对中国史前考古学的重要贡献之一.从20世纪40年代起,他为细石器文化的命名、分期和起源的探讨奠定了初步的基础.近50年来,随着考古资料的不断积累,人
春季万物复苏,细菌和病毒也开始大量滋生,鸡只容易发病,给养殖户带来经济损失。本文介绍春季鸡群几种常见病的注意事项,以预防鸡群发病,帮助养殖户减少经济损失。
作物遗传资源是生物多样性的重要组成部分,是一个国家最有战略意义的宝贵财富。作物遗传资源多样性保护和可持续利用问题已列为联合国《生物多样性公约》的主要内容。文章从
目的:从水通道蛋白角度研究蚕沙的"化湿"作用。方法:SD大鼠,随机分为5组,即正常组、模型组、蚕沙低、中、高剂量组。采用"外湿侵体+正气耗损+过食肥甘"的方法,建立"湿阻中焦"
选用脱脂米糠提取水溶性多糖,进行羧甲基化修饰,期望通过改性处理提高其功能活性。将米糠多糖与单氯乙酸(MCA)在碱性条件下进行反应,将得到的终产物利用傅里叶红外光谱检测,其证明
各国为了保护劳动者在生产工作中的工伤事故,大多都采取了工伤保险制度来保障劳动者以及家属的基本生活。工伤事故责任是一种责任侵权,或是雇主对员工的责任侵权或是第三人对
服务功能链的服务性能取决于功能的部署位置和数据传输路径的选择。针对资源有限的网络中的服务功能链部署问题,该文设计了一种基于最长有效功能序列(LEFS)的服务功能链部署
多囊卵巢综合征(PCOS)是一种生殖功能障碍与糖代谢异常并存的内分泌紊乱综合征,其主要特征为持续性无排卵、雄激素过多和胰岛素抵抗,近年来,PCOS的发病率呈现逐年上升的趋势,已
随着世界经济一体化进程的加快,世界各国在经济领域的竞争越来越体现为企业技术创新能力的竞争.我国企业目前的技术创新水平并不高,大多数企业产品的国际竞争力也不强,针对这