论文部分内容阅读
社区发现作为数据挖掘领域的研究重点之一,在多年研究过程中不断发展进步,其研究内容却多以同质信息网络为基础。随着Web 2.0的日趋成熟和Web 3.0概念的提出,网络信息量不断膨胀,其包含的各类数据也正以海量的规模快速增长并长期积累。为了能够高效、准确地在纷杂的网络中挖掘信息,基于异质信息网络的社区发现研究于近年来不断发展并逐渐占据了该领域的主导地位。由于异质信息网络的复杂和多样,其理论概念和相关技术仍亟待完善,如何在异质信息网络中准确地发现社区结构是一个具有重要意义的课题。标签传播算法是社区发现领域的经典算法之一,本文基于异质信息网络中丰富的语义信息对传统的标签传播算法加以改进,设计了基于混合相似性的标签传播算法Sem-COPRA。该方法首先通过LDA主题模型对异质信息网络中具有语义信息的类型节点进行建模,得到其k维隐性语义空间上的语义信息分布向量;通过语义共享方法迭代地向不具有语义信息的类型节点共享语义信息,从而得到整个网络的语义分布向量。随后本文提出了基于节点间的语义相似性以及拓扑结构相似性的混合相似度概念,并以此对网络数据进行预处理并生成加权网络。在该加权网络上,以COPRA算法为基础、根据混合相似度重新定义了标签的从属系数;通过引入节点语义重要性的概念来进一步限制标签传播过程中节点标签的更新顺序,以降低由随机选择带来的不稳定性;并通过语义重要性阈值对标签选择过程进行优化。本文在DBLP和微博等真实数据集上进行实验,将Sem-COPRA和其他若干主流的社区发现算法的社区划分结果进行比较和分析。实验结果表明,Sem-COPRA算法能够适用于各类异质信息网络,具有一定的普适性;并在异质信息网络中能够得到稳定的社区划分结果,和其他社区发现算法相比具有更准确的社区发现结果。