论文部分内容阅读
在后基因组时代,随着人类基因组测序工作的完成,蛋白质组学已经成为生命科学中的核心研究内容。庞大数量的蛋白质之间的相互作用构成了生命活动的基础。然而单个蛋白质很难发挥特定的生物功能,生命活动中的生物功能一般是通过多个蛋白质共同相互作用而完成的。近年来,飞速发展的高通量技术产生了大量的蛋白质相互作用网络数据。一般认为相互作用的蛋白质具有相同或者相似的生物功能,因此如何从蛋白质互作网络中挖掘出具有特定生物功能的蛋白质模块已经成为当前生物信息学领域中的研究热点。由于人类目前已经发现的蛋白质相互作用数据数量比较少,并且在这些少量互作数据中还存在一些错误的相互作用(假阳性),这些噪声信息使得直接从稀疏的蛋白质互作网络中检测功能模块具有了一定的局限性。因此,完全基于网络拓扑结构的功能模块发现算法检测到的功能模块准确率比较低。然而比较幸运的是人类已经获得了一些少量的经人工审核过的高质量的蛋白质复合体数据。于是,研究设计融合蛋白质互作数据和蛋白质复合体数据的功能模块检测算法是必要的。目前大多数功能模块发现算法都是无监督的,因此本文的主要研究内容是分析蛋白质拓扑模块与功能模块之间的关系,以及设计新的将蛋白质复合体数据作为先验信息的半监督功能模块检测算法。本文的几个主要研究工作描述如下:(1)由于功能模块与拓扑模块之间的关联关系尚未明确,本文系统地分析了蛋白质拓扑模块与功能模块之间的关联关系。我们首先使用五种非重叠模块发现算法和两种重叠模块发现算法从人类蛋白质互作网络中检测蛋白质拓扑模块,然后分析了这些拓扑模块的物理特性,最后使用基因本体富集分析、基因本体同质性、生物通路同质性、蛋白质模块间的症状相似性四个方面对蛋白质拓扑模块进行了生物功能分析。实验结果表明,蛋白质拓扑模块在生物功能上存在多样性的问题,因此在检测高同质性的蛋白质模块时应该考虑融合其它生物信息。(2)针对人类蛋白质互作数据较少并且存在噪声,蛋白质拓扑模块在生物功能上存在多样性的问题,本文提出一种基于三因式非负矩阵分解的成对约束(Pairwise Constrained Non-negative Matrix Tri-Factorization,PCNMTF)功能模块检测算法。该算法从目前已知的可靠的蛋白质复合体数据中抽取先验信息,然后使用这些先验信息来指导蛋白质模块隶属度矩阵的学习过程;同时还设计了一种使用蛋白质模块间关系进行重叠蛋白质功能模块检测的方法。实验结果证实,将蛋白质复合体数据作为先验信息可以提高蛋白质功能模块的检测精度。(3)针对先验信息一般只用来约束蛋白质模块隶属度矩阵,而很少用来约束蛋白质模块间关系矩阵的问题。提出一种基于三因式非负矩阵分解半监督的功能模块检测算法(Semi-Supervised protein functional module detection algorithm based on NMTF,SSNMTF),该算法可以使用先验信息同时指导蛋白质模块隶属度矩阵和功能模块间关系矩阵的学习过程;同时设计了一种无参的基于蛋白质模块隶属度矩阵的重叠蛋白质功能模块检测算法。实验结果表明,使用先验信息同时指导蛋白质模块隶属度矩阵和蛋白质模块间关系矩阵的学习过程,可以提高先验信息的使用效率。(4)针对must-link先验信息主要是通过图正则项进行约束,而忽略了对应的蛋白质在模块中的位置关系这一问题,本文提出了一种基于向量内积相似性的半监督功能模块检测算法(Semi-Supervised protein function-al module detection algorithm based on NMTF with Inner Product,NMTFIP)。在PCNMTF和SSNMTF两个算法中,must-link这一先验信息主要是用来最小化相应的蛋白质对之间的模块隶属度向量之间的距离,然而由于没有考虑到蛋白质在模块中的重要程度,这可能会导致错误的模块检测结果。NMTFIP通过最大化两个蛋白质对应的模块隶属向量之间相似性的方式对must-link进行约束,该方法能够充分合理地使用先验信息去指导蛋白质功能模块检测的过程,从而获得更加准确的蛋白质功能模块。