论文部分内容阅读
随着在线社交网络平台的涌现,网络用户之间的链接关系越来越丰富,群组探测作为链接挖掘的重要技术,越来越多的研究者将群组探测作为研究的重要方向。现有的群组探测算法主要考虑用户之间的链接关系、与用户相关的文本信息等;但是考虑位置信息的并不多。由于移动终端及Global Positioning System(GPS)技术的广泛应用,社交平台中包含丰富的位置信息,如何结合位置信息和链接关系进行群组探测,有着非常重要的实际意义。在真实的社会中,一个用户往往是属于多个群体的,这样的群组是交叉重叠的。同样,社会网络中也存在着交叉重叠的群组,因此结合位置信息进行重叠群组探测算法研究是具有重要的理论和实际应用价值的。为了探测出重叠的群组,采用链接群组的方法将群组定义成了边的集合,进而以边为基本单位进行群组划分。由于边与边可以共享一个节点,因此当共享节点的边属于不同的群组时,那么这个节点就会被划分到多个群组之中,从而得到重叠的群组结构。结合K-means算法和边划分的思想,提出基于边均值距离的可重叠群组探测算法。利用边的相似度对边进行划分,而边的相似度是基于组成边的节点的相似度进行计算的。计算节点的相似度时,综合考虑了节点的链接关系以及位置信息等因素;并且,算法中可以自动的对不同因素的权重进行调整,从而达到更好的效果。由于用户节点的数量庞大,随着边的增加,计算以及使用边的相似度时,算法的效率会大大的降低。为了克服这一难题,提出了Hadoop平台下基于边均值距离的并行重叠群组探测算法;从而提高算法的效率,并使得算法具有可扩展性。在真实的数据集上进行实验,利用模块度等指标对群组划分结果进行评价,与K派系算法及K-means算法进行对比分析,实验表明基于边均值距离的重叠群组探测算法要优于K派系和K均值算法。并使用加速比等指标对单机程序以及并行化程序进行对比分析,实验表明提出的并行化算法具有良好的可扩展性。