论文部分内容阅读
随着科学技术的发展,人们能够收集到的网络数据类型也日渐丰富。除了网络节点之间的拓扑结构信息,其本身的属性信息也越来越多地被获取到,这种网络被称为属性网络。传统的社团挖掘算法往往只利用了网络的拓扑结构,而没有考虑节点的属性信息。因此,如何将节点的拓扑和属性信息进行有机地融合,以帮助对社团结构进行挖掘,是近年来的一个重要研究问题。在网络数据中,节点属性与拓扑的一致性假设指的是具有相似属性的节点之间更倾向形成拓扑连边,它是一座将节点属性以及拓扑结构这两类数据进行融合的桥梁。基于该假设,有效地使用这两类数据往往能够对社团挖掘任务达到互补的效果。然而,由于节点属性中存在大量的噪声,直接利用它们度量节点之间属性的相似性,往往会导致相似性不准确。特征选择作为一个常用的数据挖掘手段,可以很好地避免无关属性造成的影响。然而,在网络拓扑结构中,节点之间的连边大部分集中于相同社团内,这种拓扑结构上的局部性导致了一致性假设应该也具有局部性,即在不同的社团内,节点之间连边的形成受到不同属性的影响,这种特征往往无法通过特征选择反映。因此,本文基于网络拓扑结构与节点属性一致性假设的局部性,提出在进行社团挖掘的时候,仅仅利用与每个社团形成相关的属性信息。总观全文,本文的主要工作内容以及创新点如下:第一、在基于谱的方法对社团进行挖掘时,相似性矩阵的构造是算法中极为关键的一步。为了避免与社团形成无关属性对度量节点之间相似性的影响,本文提出了一种属性子空间的谱聚类方法。该方法在属性子空间下度量节点之间属性相似性并受到一致性假设的启发,进一步利用节点拓扑相似性和属性相似性之间的一致性关系对子空间进行搜索。通过迭代地基于该属性相似性,利用谱聚类对节点进行社团划分以及对相关属性的搜索,不断提升对这些相关属性搜索的准确度以及社团挖掘的质量。第二、传统随机块模型只考虑了节点之间的拓扑结构,为了进一步将其用于对属性网络的挖掘中,本文基于一致性假设的局部性,新提出了一个生成模型,该模型在传统随机块模型中进一步加入了与社团形成相关属性对连边的影响。同时,本文还提出将该模型拟合于一个综合融合拓扑结构和属性两方面信息的隐网络,从而有效地避免求解概率模型过程中被广泛采用的负采样策略。与传统随机块模型相比,该模型能够更细致地对节点层次的连边情况进行建模,并有效地探索与每个社团形成相关的属性。第三、经典的随机游走算法仅仅考虑网络的拓扑结构,为了能够将其很好地应用于属性网络中,本文提出了一种综合利用节点属性以及网络拓扑结构的随机游走方法。其中,基于节点的社交纽带结构,本文通过聚合的方法有效地得到了每个节点中与社团形成相关的属性,并将其和网络拓扑信息有机地融合到了一个二部图中。通过在该二部图上进行随机游走,不同节点将会自动展现出具有社团区分性的转移概率分布。相比于传统的基于随机游走进行社团挖掘的算法,该方法在保留较低复杂度特点的同时,能够挖掘出质量更好的社团结构。