论文部分内容阅读
作为数据挖掘中一个正在蓬勃发展的研究领域,复杂网络分析正引起越来越多研究人员的关注。社区发现是复杂网络研究中一项十分重要的基础性工作,它可以为复杂网络的分析与研究提供中观尺度的视角,这为研究人员研究复杂网络带来了巨大的便利。传统社区发现技术的研究工作大多以复杂网络中的同质网络作为研究对象,假定网络中的所有实体是同种类型的,这确为社区发现工作带来了方便,但这种假设背离了网络的真实情形,真实网络中,不论结点抑或是边,它们的类型都可以是多种多样的,这就对研究过程中针对现实网络的抽象方式提出了新的要求,异质网络这一概念也就应运而生了,它对网络中不同类型的边和结点加以区分,以更加贴近实际的方式描述了网络的结构与组成。同时,社区的重叠现象广泛存在于真实网络中,由此也激发了一个新的研究方向,即针对复杂网络的重叠社区发现技术研究,重叠社区结构更准确地描述了网络中真实的中观结构信息,因此,复杂网络重叠社区发现具有更加突出的现实意义。本文以异质网络为研究对象,试图寻找一种能够有效发现存在于异质网络中的重叠社区结构的方法,为此,本文完成了如下主要工作:第一,介绍并分析了复杂网络和社区结构的基本概念与特点,对使用较为广泛的三类异质网络社区发现技术进行了简单介绍。异质网络以其特有的性质为针对异质网络的社区发现技术的研究带来了巨大挑战。第二,通过对重叠社区结构性质和常用异质网络社区发现技术的分析,确定了本课题的研究思路。第三,结合机器学习领域中的半监督学习方法,设计并实现了一种将多维异质网络转化为同质网络的数学模型。该模型对原始多维异质网络各维度重新进行组合,使用组合后的关系作为与其对应的同质网络的关系,这里,为达到区别对待网络中各维度的目的,模型采用了为不同重要性的维度分配不同权重的方式,模型的核心任务就是确定此权重向量(系数向量)。第四,在综合对比分析当前主要的重叠社区发现算法的基础上,结合信息论的相关知识,给出了一种基于信息扩散的社区定义,并进一步借鉴信息传播理论与标签传播算法的主要思想,从单个结点对关于某种主题的信息的掌握程度出发,提出了一种复杂网络重叠社区发现算法。算法以结点实际接受了的信息量作为衡量标准判断该结点是否会加入到由该主题所代表的社区中。第五,基于实际数据集分别对本文所提出的网络转换模型和重叠社区发现算法进行了实验测试及分析,利用Matlab完成了网络转化模型的测试实验,利用Java语言和UCINet工具实现了社区发现算法部分的测试及结果可视化。在通过实验验证了网络转换模型和社区发现算法的有效性的基础上,以DBLP数据集作为测试对象构建多维异质网络,而后设计并实现了将网络转换模型同社区发现算法的集成实验,并对实验结果进行了分析。