论文部分内容阅读
近年来,随着社会网络、通信网络、生物网络等在各领域应用的快速发展,其产生的图模型数据更是呈现出快速增长的态势。图作为一种数据结构具有本身其特有的表示方法和信息,一个图模型可能包含几百到几百万的顶点,而这些顶点及其连接的边构成的关联信息在不同领域中都具有不同的意义,随着数据规模的不断增长,如何有效的对这些信息进行综合分析并从中获取有用的信息进行应用,是非常必要的,也是本文研究的主要的方向。聚类分析作为机器学习的一个重要工具目前已经被广泛应用于文本挖掘、生物信息学、模式识别等领域的科学研究,随着图模型数据的广泛应用,图聚类也成为了一类较为重要的聚类分析方法,图聚类是图数据分析的有效技术之一。在构造节点的相似矩阵时经常采用距离作为评价标准,而节点间存在多条等长路径及k短路径,这些路径间的关系都会对节点间相似性产生影响,因此综合考虑节点间的距离关系有助于更好的衡量节点间的相似性。针对这一问题,本文提出一个基于前k短路径的图聚类算法(DRGC),该算法参照谱聚类算法的思想,使用前k短路径模型构造相似矩阵,利用多层自动编码器代替谱聚类算法中的特征分解实现对数据的重构,并且可以大大减少特征分解所用时间,最后利用非参数贝叶斯模型进行聚类,因狄利克雷过程具有很好的聚类性质并且可以实现对数据的自动划分,因此该算法可以在不预先指定聚类数目的情况下得到数据集的正确合理划分。为了克服单一聚类算法对数据集敏感的问题,本文提出了一个基于多数投票的聚类集成算法,该算法利用前k短路径的图聚类算法、k均值算法、谱聚类算法作为基聚类算法,以模块度最高的一组聚类结果的标签作为基准标签,,分析与其他聚类结果的标签之间的关系,并通过计算对其进行统一,最后通过投票计算出数据集最终的聚类划分结果。最后,本文对所提出的两个算法进行了仿真实验,实验证明,本文所提出的算法具有良好的聚类性质,可以得到较为准确的聚类划分结果。