论文部分内容阅读
在获得了海量的实验数据后,生物信息学目前面临的下一项艰巨任务就是尽可能快速地从这些数据中提取有意义的信息,提供给生物学家们思考分析以及进一步探究其表达的生物学含义。解决方法之一就是建立针对海量数据的高性能生物信息自动分析web平台。在以上任务中,预测蛋白质功能是具有重要意义的一步。基因本体(GO)是一套具有动态形式的控制词汇,其结构为有向无环图。基因本体精确定义了蛋白质的功能以及功能间的关系,被广泛应用于蛋白质功能注释研究中。本文通过以下三种方法对蛋白质GO功能进行了预测:(1)基于blast比对程序(blastp、psi-blast)的同源搜索,提取结果中的SwissProt关键词,并将关键词映射到GO;(2)基于InterProScan的蛋白质模体、家族和结构域搜索对蛋白质功能进行预测;(3)基于一款实现了支持向量机的软件GOKey,对蛋白质序列特征和理化特性进行比较分类,并预测蛋白质功能。涉及到的数据库及程序资源包括UniProt、RefSeq、InterPro、Ensembl。现已将Ensembl蛋白质数据库中的Novel蛋白质全部注释,并提供网页查询。为实现Linux集群环境下的自动注释平台,完成了blast程序,InterProScan,GOKey及其比对数据库在Linux集群上的安装与自动更新,并提供了这些工具及计算结果数据库的网页接口。为充分利用集群的并行计算能力,该网页接口实现了对提交任务的划分。经测试表明,集群的并行计算能力能够大大缩短各种注释方法的计算时间,为生物学家提供了更加快速的信息获取方式。