论文部分内容阅读
后基因组时代的主要目标之一是要阐明生物大分子间的相互作用机制。而蛋白质相互作用是所有生命活动发生的基础,是细胞进行一切代谢活动的必要条件。对蛋白质相互作用进行研究不仅有助于揭示生命活动的本质,而且对疾病发生机制的了解及有效药物的开发均起到推动性的作用。生物信息技术的迅猛发展为深入了解蛋白质相互作用机理提供了有效途径。针对目前蛋白质相互作用的研究现状,本文选择了其中的几个热点问题进行了研究。首先,选取暂时型蛋白质相互作用界面(不包含抗原-抗体类型)作为研究对象,对界面残基和表面其他残基的多种属性进行了统计分析。发现除了目前已广泛认可的序列谱和溶剂可及表面积这两种属性之外,温度因子也能有效地反映相互作用界面与非界面之间的差异。进而联合上述三种属性,并利用支持向量机识别暂时型蛋白质相互作用位点。交叉验证和独立测试的结果表明温度因子在预测过程中发挥着重要作用,而且这三种属性间的互补性有利于提高预测精度。其次,在前期的工作基础之上,试图把我们的方法运用于抗原-抗体类型复合物中相互作用位点的识别,因而扩增了原数据集。通过对更新后的数据集进行测试,发现温度因子不仅可以用于识别酶-抑制剂类型和其他类型复合物中的相互作用位点,同时也是预测抗原-抗体类型复合物中这些关键位点的有效特征。此外,在原有算法中添加了后处理程序,用于降低支持向量机预测结果中的假阳性数目,从而使预测效果得到进一步改善。再次,对一个具有代表性的B细胞构象表位数据集进行了统计分析,发现除了广泛使用的溶剂可及性特征之外,表位残基和非表位残基的温度因子存在显著差异。基于此,联合上述这两种结构属性,并运用Logistic回归模型识别B细胞构象表位。测试结果表明温度因子和溶剂可及性均是预测构象表位的有效特征,且利用这两种属性间的互补性可以使预测精度明显提高。最后,选取了五种目前使用较广的序列特征提取方式,即氨基酸组成、氨基酸组成平方根、伪氨基酸组成、氨基酸理化属性组成以及结构域组成,并联合支持向量机对蛋白质相互作用关系进行了预测。测试结果表明利用氨基酸理化属性组成和结构域组成这两种特征能更准确地判别蛋白质间相互作用关系,而采用不同的机器学习算法也将直接影响最终的预测效果。