论文部分内容阅读
随着人类基因组测序工作的完成,功能基因组的全面展开,后基因组的时代已经到来。而阐明基因组所表达的真正执行生命活动的全部蛋白质的表达规律和生物功能,即蛋白质组的研究,成为我们研究的重要目标,因为蛋白质才是生命活动的真正执行者。蛋白质控制和调节细胞中的诸多功能,而从基因组编码蛋白的相互作用水平诠释基因组功能,是后基因组时代的一个重要任务。生物信息学的概念自上个世纪末被提出来后,随着实验科学技术的进步和互联网的发展,生物信息学成了当代生物研究中不可或缺的一个环节,利用生物信息方法开发的软件和和数据库资源成了当代生物学家进行科学研究时不可缺少的部分。而进行规模化验证蛋白质之间的相互作用,是后基因组时代生物信息学需要解决的一个重要课题,一个完全自动并且可靠的蛋白相互作用预测系统需要被建立。本文介绍了目前计算方法在蛋白质相互作用研究中的研究现状;总结归纳了机器学习方法在目前生物信息学的应用,并对支撑向量机(SVM)算法的基本原理做了阐述;在此基础上我们开发了一种基于支撑向量机算法的蛋白质相互作用预测方法,该方法从蛋白质的一级结构出发,根据蛋白质序列信息构造特征向量,用支撑向量机算法对特征向量进行分类,预测两个蛋白质的相互作用。交叉验证测试的结果表明,我们的方法在酵母基因组中预测的准确率、精确度、敏感性及相关系数分别达到:72.46%、70.00%、78.64%及0.45。最后对我们方法的适用性和特点做了相关的探讨,对该预测系统的进一步开发做了些讨论。研究表明,本文方法不仅是对现存的“湿”的实验方法的一种补充,而且对蛋白质间的相互作用预测非常实用和有效。最后根据我们的方法,我们开发了一种便于蛋白相互作用预测的工具,Web服务见http://www.ddib.net/DIDWeb/tools.jsp?type=SVMppip。