论文部分内容阅读
后基因组时代,作为复杂网络的生物网络,受到广泛的关注。为全面理解蛋白质之间是如何通过相互作用来完成生命活动,必须分析蛋白质相互作用(Protein-ProteinInteraction, PPI)网络的特性,并通过这些特性挖掘蛋白质复合物(又称模块)以及预测未知蛋白质的功能。2006年Gavin等人发现蛋白质复合物通常由核心(core)和外围(attachment)蛋白质组成。近几年,针对查找core-attchment结构的复合物,出现了许多新的算法。本文主要对该类算法进行了研究,首先对CoAch(COre-AttaCHment)方法进行了改进。根据PPI网络特性改进了外围蛋白质(attachment)的加入规则,同时对整个算法进行了优化。接着将随机游走思想应用到查找core-attachment结构的复合物中,主要利用随机游走查找核心蛋白质。通过在PPI网络中应用,发现我们改进后的算法与其他的模块挖掘算法相比较,在预测蛋白质复合物准确性方面具有很大优势。最后,对复杂网络划分算法中的谱聚类算法进行了研究。传统的谱聚类方法必须预先确定聚类个数,而且对于大规模数据时间复杂度过高。因此,我们改进了传统聚类算法,在算法中加入了数据预处理步骤,同时将模块性Q(Modularity)函数引入算法作为衡量网络划分质量的标准。实验表明改进后的算法对网络的划分准确性较高,并且能够在较低时间复杂度内处理规模较大的复杂网络数据。总之,文中所研究的三个算法,尽管仍有许多需要改进的地方,但是它们都不同程度提高了原有算法的性能,而且与已有同类算法相比较具有自己的应用优势。