论文部分内容阅读
信息技术的迅猛发展使人类社会迅速步入了网络时代,在各个领域中涌现出大量的网络结构,如Internet网络、WWW网络、电力网络、生物网络、社会网络、经济网络等。这些错综复杂的网络结构可以用复杂网络(Complex Network)来表示,复杂网络中的节点表示系统中的元素,而网络中的边表示元素之间的关系。复杂网络研究不同领域的网络结构之间的共性问题以及处理这些问题的普适方法。社会网络(Social Network)中的节点表示社会中的个体,网络中的边表示个体之间的交互关系。社会网络主要包括传统的线下社会网络以及社会媒体中的在线社会网络。社团结构通常是指网络中连接紧密的子图结构,是对网络结构的压缩表示。社团分析相关问题吸引了来自社会学、计算机科学和物理学等诸多领域研究者的关注,社团结构作为复杂网络的中观特征成为了其他研究的基础。本文主要研究社会网络中社团结构的挖掘和社团结构的演化模型。社会媒体的涌现使在线社会网络中出现了与传统社会网络中不同的特征,传统的社团发现算法面临着新的挑战。在线社会网络往往具有网络规模大、网络连接复杂、信息内容丰富以及随时间不断变化等特征。在社会媒体中,用户根据兴趣、朋友或系统推荐建立社交关系,这大大降低了交友成本,方便了信息在用户间的传播,使用户更容易发现与自己志趣相投的人,从而使社会网络的规模变得越来越大。社会媒体中连接关系不再是简单的朋友关系,还包括关注、粉丝以及收听等关系。网络中连接类型的多样性使网络中连接关系变得更加复杂。社会网络中除了用户之间的连接关系,还包括丰富的用户属性信息以及用户生成的内容,如用户发布的状态、分享的图片以及发表的评论等。网络中丰富的特征信息,促使网络分析算法进一步发展。除此以外,社会网络的结构不是静止不变的,而是随时间不断地发生变化,用户复杂的时间演化行为促使网络结构和社团结构随之发生变化。综上所述,如何从日益复杂的社会网络中挖掘出社团结构以及分析动态网络中的演化模型成为了研究热点。本论文从理论与工程两方面对社团结构及其演化模型进行了研究和实践,研究问题主要包括:在理论方面,研究高效准确的重叠社团结构发现算法,分析社团间重叠结构的实际意义;充分利用网络中丰富的内容信息来挖掘社团结构,分析内容信息对社团结构形成的作用;社团演化与网络的动态变化息息相关,社团演化既体现了网络微观层面节点的高度动态性,又体现了网络在宏观层面的稳定性,通过分析社团演化的特征和规律来预测社团演化的趋势;在工程方面,海量的社会网络数据对网络分析算法的性能提出了挑战,针对网络挖掘算法中多迭代的特点,研发面向大规模数据的复杂网络分析系统。本文的创新点主要体现在以下4个方面:1.提出了一种基于话题模型的重叠社团发现算法——BLP算法(Latent Dirichlet Allocation-Based Link Partition).LBLP算法中提出了一种可调参数的划分策略,解决了社团间的边被误划分到社团的问题,从而提高了重叠社团发现算法的准确性。该策略不仅可以准确地检测出社团间的边,还可以通过调节参数来控制社团的重叠程度。在大量人工标准测试网络和真实网络中进行了实验,验证了该算法的准确性和可靠性。2.鉴于真实社会网络中包含多种内容信息,提出了一种基于特征融合的重叠社团发现算法——LBLP-FI(LBLP-Feature Integration)。LBLP-FI算法同时考虑网络拓扑和网络内容信息,将网络中边的拓扑结构与边的文本内容融合起来作为边的特征,用于挖掘网络中的重叠社团结构。并提出了线性LBLP-FI-V和非线性LBLP-FI-W两种不同的融合策略。通过分析社团内的内容信息,可以挖掘出社团结构的“语义”信息,从而发现社团结构的形成机理。为了处理大规模的网络数据,本研究还将算法扩展到MapReduce并行开发模型上,实现了算法的并行化。实验结果表明我们提出的算法能够有效的挖掘出网络中的重叠社团结构,并且平衡了准确性和运行效率两方面性能。3.提出了一种演化聚类的社团演化分析方法。该方法考虑到在真实的动态网络中,每个时刻的社团结构不仅与当前时刻的网络结构有关,还受上一时刻的社团结构的影响,提出了基于演化聚类的社团演化分析方法。将每个时刻的静态网络构建成节点-节点的相似性矩阵,添加时间维度从而构建了节点-节点-时间的相似性张量。通过对相似性张量进行分解,从而保证了社团结构在演化过程中的连续性,挖掘出网络中的潜在演化规律。在张量分解的基础上提出了两个评价指标:社团结构凝聚度和社团演化活跃度,用以分析网络中社团结构随时间的演化信息。通过在人工标准测试网络与实际网络中的对比实验,验证了算法的可靠性和准确性。4.研发了一个基于云工作流的数据分析系统S-PDM (Saas Paral-lel Data Mining System), S-PDM系统实现了丰富的并行社会数据分析算法,充分利用分布式的计算能力和存储空间,以工作流程的方式为用户提供数据分析服务。S-PDM系统还提出了一种基于改进的链式工作流解析方法,能够将云事务流进行动态融合,提高了系统的性能。总体而言,本论文从理论和工程两个方面,分别对社会网络中社团结构以及动态网络中社团的演化进行了理论研究和实际实现。