论文部分内容阅读
在我们真实的世界里存在着大量的复杂网络。节点代表研究对象,节点间存在着各式各样的联系即边。以微博、Twitter为代表的社会媒体平台中的社会网络就是真实社会中复杂网络结构的一种。社会网络拥有复杂网络的各种共性特征,包括小世界效应、无标度特性、群组结构等等。本论文将要研究的对象主要就是网络中的群组结构。网络中的群组结构即将其中的节点划分为多个群组。假如节点属于相同群组的话,则它们间的关联就比较紧密。假如节点属于不同的群组的话,则它们间的关联就比较稀疏。有关群组探测方面的相关问题及算法研究有着重要的理论研究意义和实际的应用前景,近些年来受到各个领域的研究人员的广泛关注。社会媒体近年的大量涌现使得社会网络的规模越来越庞大,网络中的关系也变的日趋复杂,给群组探测算法带来挑战。群组探测方面的算法比较经典的有Fast-Newman算法、GN算法、Kernighan-Lin算法、LFK算法、CPM算法等等,本文主要对谱聚类算法在群组探测的应用等方面进行了相关研究。本文做的具体工作如下:1)由于传统NJW谱聚类会受到尺度参数的影响。所以针对这个问题本文在谱聚类算法的研究基础上,对其引入基于引力的相似性度量方法并结合Floyd-Warshall算法。从而消除了尺度参数的影响,并且也达到了比较好的聚类效果。2)谱聚类一般通过K-means算法对特征向量完成聚类操作,所以对初始聚类中心的选择比较敏感。针对这个问题,本文提出一个新的初始中心选择方法进而提高了谱聚类算法的稳定性。3)本文将上面提出基于引力度量与初始中心优化的谱聚类算法(简称GMIK-SC算法)运用到非重叠群组探测中。在三个真实的网络数据集上比较研究,进而测试群组划分效果。4)本文将基于引力的度量方法与基于FCM的谱聚类结合,提出基于引力度量与FCM的谱聚类算法(简称GMF-SC算法),并将其运用到重叠群组探测中。在两个真实网络上比较研究,并测试了GMF-SC算法的群组划分效果。5)针对社会媒体中的新浪微博,本文基于改进群组探测算法设计了面向微博用户的群组探测方法框架,对本文的成果做了进一步的验证。