论文部分内容阅读
近年来复杂网络研究的蓬勃发展引起了其它领域科学家们的广泛关注,越来越多的科学家开始使用复杂网络方法来思考和分析问题。目前复杂网络理论已被逐步推广到社会科学、生命科学、信息科学、计算机科学、系统科学等研究领域。社团挖掘是复杂网络研究的一个重要课题,在过去十年已经得到了快速的发展。但是已有的方法大多数都存在一定的局限性,这使得当其它领域的研究者将它们应用于自己的研究领域中时,很难得到理想的结果。 本文研究了两个方面的问题:复杂网络中社团挖掘的一般性方法及其在蛋白质模块预测中的应用。本文首先提出了两种不同类型的社团挖掘方法:点社团方法(Network Topology Algorithm)NTA和边社团方法(Edge Label Propagation Algorithm)ELPA。然后应用这两种方法在蛋白质网络中分别预测了蛋白质功能模块和蛋白质复合物。最后在大量不同类型的复杂网络中,检验了上述两种方法的社团划分质量以及它们预测蛋白质模块的性能。实验中我们的方法都取得了较好的结果,特别是在蛋白质模块的预测中表现更加出色。下面介绍本文的主要工作和创新点,包括以下几个方面: (1)提出了一种新颖的点社团发现方法:NTA。本文量化定义了两种社团结构:强社团和弱社团,并定义了社团的成员属性和重叠成员属性,然后在此基础上提出了NTA算法。NTA是一种启发式方法,它仅依据网络拓扑属性来检测社团结构,适用于绝大多数的网络拓扑构型,具有较强的通用性,特别是在生物网络中具有良好的适用性。NTA还具有稳定鲁棒等特点,它以无监督的方式从大规模网络中检测社团结构,克服了已有算法存在的大部分缺陷,是一种简单高效的社团发现方法。 (2)提出了一种高效的边社团发现方法:ELPA。ELPA是一种基于边标签动态传播的聚类方法。不同于(Label Propagation Algorithm)LPA方法的点标签更新规则:“从众规则”,本文提出了一种全新的边标签更新规则:“三角形法则”。相对于“点”而言,“边”兼有了点和边的属性,具有发现重叠社团的天然优势。ELPA利用了这种优势,具有简单、高效和快速等特点。它不但避免了已有的动态标签传播方法存在的缺陷,而且克服了已有边社团方法存在的问题。通过在大量不同类型的网络中的检验分析,结果发现在绝大多数网络拓扑构型中,ELPA均表现出了良好的性能,是一种通用性较强的边社团发现方法。 (3)提出了一种基于蛋白质网络的系统化整合分析方法。已有的关于蛋白质网络的研究都是在某种单一层次的蛋白质模块上进行分析,比如蛋白质拓扑模块,功能模块以及疾病模块等。单一层次的分析方法虽然可以深入的研究特定蛋白质模块的性质和功能,但是无法发现系统水平上的涌现现象。本文首次将不同层次的蛋白质网络和模块整合起来执行多层次、系统化的分析。通过整合分析,本文发现了许多仅依靠单一层次分析无法获取的,系统水平上有意义的蛋白质模块,充分体现了系统化分析的优势。这种系统水平上的发现对将来疾病的预防,诊断和治疗具有积极的意义。 (4)基于本文提出的两种社团发现方法,在大规模蛋白质网络中预测了蛋白质功能模块和复合物。通过与已有的蛋白质模块预测方法的比较分析,结果发现这两种方法预测的蛋白质模块的质量比其它方法都有较为明显的提高。此外,它们不但可以发现稠密的,较大规模的蛋白质模块,还可以发现其它方法不易发现的小规模的和稀疏的蛋白质模块。这说明它们都可以从蛋白质网络中有效的揭示蛋白质功能模块和复合物。