论文部分内容阅读
随着互联网的飞速发展,信息呈现出爆炸式的增长,出现了各种各样的信息网络,如:学术网络、社交性网络(e.g.Facebook)等。在对信息网络的研究中,社区发现问题受到了研究者的广泛关注。一些研究者通过构建同构信息网络来发现社区结构,如构建作者合著网络来发现作者合著社区。但同构信息网络只包含单一实体和单一实体间关系,无法很好地反映网络的拓扑信息与网络实体的语义信息,会导致发现的社区结果准确率不高。异构信息网络包含多种实体和实体关系,其主要问题是面临大规模和异构性导致的社区发现的复杂性挑战。针对该问题,一些研究者通过构建多路网络进行社区发现,这种方法可以解决网络大规模和异构性带来的社区发现复杂性挑战,但只能发现单一种类节点的社区结构。另有一些研究者提出基于概率模型、矩阵分解的社区发现算法,虽能很好地契合网络异构性的要求,但由于空间、时间复杂度较高,无法满足网络大规模的要求。另一方面,重叠社区是真实网络的一个显著特征,即网络中的一个节点可能属于多个社区,这就要求社区发现算法能够有效发现网络中的重叠社区结构。在发现异构信息网络的社区结构后,如何描述社区的特征,从而更好地展示和分析社区也是一个重要问题。因此,对大规模异构信息网络重叠社区发现算法与社区特征进行研究是有必要的。为了准确、高效地发现大规模异构信息网络的重叠社区,本文首先提出了一种基于邻居节点影响力传播标签的重叠社区发现算法,该算法具有线性时间复杂度,适用于大规模同构信息网络。在此基础上,针对异构信息网络的大规模性和异构性特点,本文将上述同构信息网络社区发现算法引入到异构信息网络中,结合网络拓扑信息与语义信息,提出了基于多路网络抽取和种子社区的异构网络重叠社区发现算法。该算法适用于任意形态的异构信息网络,并能针对用户不同的研究需求,选定不同的中心节点类型,从而得到不同的社区划分结果。最后,本文针对异构学术网络,通过引入社区论文关键词分布、论文时间分布、作者领域词分布、社区间引用强度等描述方法,展示和分析了异构学术网络的社区特征。在实验验证部分,本文首先基于真实网络和LFR基准网络,使用重叠模块度、归一化互信息(Normalized Mutual Information, NMI)和F-score三个指标,对提出的基于邻居节点影响力传播标签的重叠社区发现算法进行了性能评估。实验结果表明,算法具有较高的准确性和稳定性,且具有线性时间复杂度,能够适用于大规模同构信息网络。之后,基于构建的真实异构学术网络,通过社区内论文关键词相关性、论文主题相似性、作者相关性等指标对基于多路网络和种子社区的重叠社区发现算法进行了性能评估。实验结果表明,本文提出的基于多路网络抽取与种子社区的社区发现算法有效提高了大规模异构信息网络社区发现的准确度,且具有线性时间复杂度,时间开销较低。同时,本文引入的社区特征描述方法有效标识与展现了异构学术网络的社区特征。