论文部分内容阅读
蛋白质复合物的检测对于研究细胞组成和细胞功能具有重要的意义。高通量实验技术的出现产生的许多大规模的蛋白质相互作用网络数据,这为我们研究蛋白质相互作用网络的拓扑结构检测蛋白质复合物带来了一个契机。然而,由于当前实验方法的缺陷和生物体的复杂性,蛋白质相互作用网络中存在着大量的假阳性和假阴性,这为准确地检测蛋白质复合物带来了一些困难。近几年,出现了很多检测蛋白质复合物的方法,蛋白质复合物通常都被检测为蛋白质相互作用网络中一个稠密的子图。本文提出了一个基于两级路径相似性的蛋白质复合物检测算法TLP(Two LevelPaths)。两级路径相似性即为,两簇蛋白质之间存在直接相连路径的概率和仅通过一个公共邻居节点相连路径的概率。用两级路径概率作为蛋白质对之间的初始相似性,再利用层次聚类算法贪婪合并具有当前最大相似性的两组蛋白质且合并后的蛋白质子图密度满足给定的阈值,合并蛋白质簇之后重新计算其与周围相邻接的蛋白质簇的两级路径相似性。直到图中当前没有符合合并条件的蛋白质簇为止,当前的蛋白质簇即为检测的蛋白质复合物。我们以标准蛋白质复合物数据库为参照,使用现有的和本文提出的评价指标,将TLP算法和其他六种算法进行比较分析。在三种不同规模和性质的酵母蛋白质相互作用网络上进行实验,我们的TLP算法都有着最好的表现,我们算法识别出来的蛋白质复合物和标准库有着很高的匹配率,可以作为进一步生物研究的参考。