论文部分内容阅读
复杂网络图计算是当今数据挖掘领域最重要的研究课题之一。揭示复杂网络图中高密度子图结构对分析复杂网络的拓扑结构、发现其中隐含的模式、以及预测网络进一步的行为和功能都具有十分重要的理论意义,在生物网、社交网和信息网等复杂网络关系分析中有着广泛应用。本文提出两种揭示复杂网络图中高密度子图的方法,第一种为基于图分割的k-边连通子图计算方法(MSK),该方法首先根据节点间紧密程度计算节点序列L。在计算序列过程中,应用节点合并策略,将满足k-边连通性的节点合并成为超级节点;应用提前分割策略,使得每发现值小于k的割,删除割中的边,将子图提前分割,提高算法时间效率。通过迭代执行上述步骤,直到图中只剩下孤立节点,任意节点之间都不存在连边,此时每一个超级节点对应原图中的一个k-边连通子图,算法结束。进一步给出近似算法PMSK,忽略因应用提前分割策略而导致的节点之间k-边连通性的变化,进一步提高计算的时间效率。第二种方法为基于同步动力学模型的聚类方法(SYN)。首先,按照网络中节点之间邻居相似度关系对节点进行排序,此时,每一个节点对象使用唯一的一维坐标值表示,达到网络矢量化。然后,在同步过程中,基于局部邻域,实现局部同步子图发现。在节点同步的邻域半径不断扩大的过程中,得到很多子图划分,结合模块度函数,选择最佳聚类结果,因此子图划分更加符合高密度子图内部结构相对紧密、子图之间结构相对稀疏的性质。本文方法不依赖于任何数据分布假设,可以自动检测任意形状、任意大小和数量的子图。在大量人工数据集和真实数据集上的实验结果表明:k-边连通子图计算方法MSK计算结果精准且时间效率较高,而算法PMSK在近似算法中,时间效率有了进一步的提高;基于同步动力学模型的聚类方法SYN准确率较同类算法有所提高,且能有效选择出最稳定的子图,能够很好的应用于实际网络数据分析系统中。