论文部分内容阅读
现实世界中有许多事物都可以被视为复杂网络,如社会交际圈、论文的引用关系、生物之间的联系、航空线路等。社团是复杂网络中一个最典型的特征结构,社团之间的相互联系决定了复杂网络的构成。通过对复杂网络中社团的研究,可以探索出复杂网络潜在的规律,同时,可以从复杂网络的内部构造中进一步了解网络的性质。社团检测是理解复杂网络的重要方法,可以为现实生活中的很多复杂问题提供解决思路。因此,研究社团检测算法不仅在学术上具有重要的理论意义,而且在实际生活中具有重要的现实意义。目前许多社团检测算法都可以识别复杂网络中的社团结构,本文对已有的社团检测算法进行了深入的研究,发现了算法中的一些问题与不足,如参数难以确定、时间复杂度过高、检测精度较低等。针对这些算法中存在的缺点,提出了两个无需输入任何参数的社团检测方法。第一个是基于PageRank的核心顶点扩张社团检测算法(CEPR)。CEPR关注的是如何检测到尽可能准确的、高质量的社团结构,以改善一些社团检测算法检测精度不高的问题。该算法将相似的顶点分配到同一个社团后,再利用PageRank算法发现复杂网络中的核心顶点并进一步划分为核心社团,然后把剩余未标记的顶点按照度的大小加入到核心社团中,最后通过社团间的合并形成稳定的社团结构。实验部分在九个包含不同结构、不同规模的网络数据集上,与四个算法进行了比较。而且,还利用三种常用评价指标对CEPR进行了全面的评价,展示了该算法的有效性。实验结果表明,CEPR整体上比对比算法更优,能更准确地检测出社团结构。第二个是基于局部密度的核心顶点扩张社团检测算法(CELD)。CELD注重的是如何从复杂网络中快速地获取准确的、合理的社团结构,以克服一些社团检测算法时间复杂度较高的缺点。CELD定义了一个选择核心顶点的局部密度公式,即顶点的局部密度与其邻居的个数成正比,与邻居点到该点间的距离和成反比。该算法先将相似的顶点放到一个社团中,接着根据局部密度对顶点进行排序并将密度较大的顶点视为核心顶点,然后将剩余的顶点分配到核心社团,最后通过合并社团得到合理的社团结构。本文在实验部分与四个社团检测算法在六个有真实社团结构、三个无真实社团结构的大网络数据集上进行了比较显示,同时通过三种评价指标对该算法进行了评价。实验结果显示,CELD拥有较低的时间复杂度,并且结果大多数情况下优于对比算法。两个算法都可以在无需任何输入参数的条件下,得到更准确的社团结构。其中,CEPR算法能够合理的选择核心顶点,而CELD算法能够在较低的时间复杂度下更高效地工作。