论文部分内容阅读
结核病每年都对全世界人民的身体健康造成严重的危害,其中结核分枝杆菌(Mycobacterium tuberculosis)是结核病的病原菌。虽然关于结核分枝杆菌基因组学研究取得了很大的进展,在基因组公共数据库中已有结核分枝杆菌全基因组的注释信息,但随着时间的推移,越来越多新的基因功能信息被添加进数据库,这其中就可能包含当初对结核分枝杆菌进行注释时未被使用的具有序列相似性的基因。在基因组分析时,这些新添加的基因功能信息可能为一些假想的基因提供功能转移来源。同时一些原始注释中未包含的基因也可能通过与新添加的基因功能信息进行相似性比对而被发现。本文将针对以上问题,以最新的基因组公共数据库为标准,通过基因相似性比对以及基于从头预测的方法发现新基因等方法,对结核分枝杆菌基因组信息进行重新注释研究。本研究的方法可为其他物种的基因组重注释工作提供参考。本研究的主要内容为:1.以Z曲线理论方法为基础,从原始基因注释中筛选出从属于功能已知的蛋白质编码基因(第一类基因)作为正样本,并用第一类基因的随机洗牌序列生成负样本。以正负样本为训练集,通过基于五重交叉验证的Fisher模型确定假设基因(第二类基因)中非编码的部分,即原注释中错误注释的基因。2.使用Prodigal和Zcurve两款基因预测软件对结核分枝杆菌基因组进行基因预测,将基因预测结果与原始基因组注释进行对比,挑选出重叠率低的候选新基因进行Blast序列比对,应用设定的筛选参数挑选出满足条件的新基因,并为新基因添加具体的功能注释信息。3.在基因重注释过程中,需要研究人员进行手动筛选,当有大量的基因组需要重注释,尤其是从Blast结果中筛选出满足条件的新基因时,将会是一个非常繁重的工作。因此本研究还使用PHP开发了一套能够自动进行基因组重注释的Web工具,在实现重注释工具化减少人工手动筛选工作量的同时,也能大大提高基因重注释的效率。