社会网络中社团发现及网络演化分析

来源 :北京邮电大学 | 被引量 : 21次 | 上传用户:fox542
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的迅猛发展使人类社会迅速步入了网络时代,在各个领域中涌现出大量的网络结构,如Internet网络、WWW网络、电力网络、生物网络、社会网络、经济网络等。这些错综复杂的网络结构可以用复杂网络(Complex Network)来表示,复杂网络中的节点表示系统中的元素,而网络中的边表示元素之间的关系。复杂网络研究不同领域的网络结构之间的共性问题以及处理这些问题的普适方法。社会网络(Social Network)中的节点表示社会中的个体,网络中的边表示个体之间的交互关系。社会网络主要包括传统的线下社会网络以及社会媒体中的在线社会网络。社团结构通常是指网络中连接紧密的子图结构,是对网络结构的压缩表示。社团分析相关问题吸引了来自社会学、计算机科学和物理学等诸多领域研究者的关注,社团结构作为复杂网络的中观特征成为了其他研究的基础。本文主要研究社会网络中社团结构的挖掘和社团结构的演化模型。社会媒体的涌现使在线社会网络中出现了与传统社会网络中不同的特征,传统的社团发现算法面临着新的挑战。在线社会网络往往具有网络规模大、网络连接复杂、信息内容丰富以及随时间不断变化等特征。在社会媒体中,用户根据兴趣、朋友或系统推荐建立社交关系,这大大降低了交友成本,方便了信息在用户间的传播,使用户更容易发现与自己志趣相投的人,从而使社会网络的规模变得越来越大。社会媒体中连接关系不再是简单的朋友关系,还包括关注、粉丝以及收听等关系。网络中连接类型的多样性使网络中连接关系变得更加复杂。社会网络中除了用户之间的连接关系,还包括丰富的用户属性信息以及用户生成的内容,如用户发布的状态、分享的图片以及发表的评论等。网络中丰富的特征信息,促使网络分析算法进一步发展。除此以外,社会网络的结构不是静止不变的,而是随时间不断地发生变化,用户复杂的时间演化行为促使网络结构和社团结构随之发生变化。综上所述,如何从日益复杂的社会网络中挖掘出社团结构以及分析动态网络中的演化模型成为了研究热点。本论文从理论与工程两方面对社团结构及其演化模型进行了研究和实践,研究问题主要包括:在理论方面,研究高效准确的重叠社团结构发现算法,分析社团间重叠结构的实际意义;充分利用网络中丰富的内容信息来挖掘社团结构,分析内容信息对社团结构形成的作用;社团演化与网络的动态变化息息相关,社团演化既体现了网络微观层面节点的高度动态性,又体现了网络在宏观层面的稳定性,通过分析社团演化的特征和规律来预测社团演化的趋势;在工程方面,海量的社会网络数据对网络分析算法的性能提出了挑战,针对网络挖掘算法中多迭代的特点,研发面向大规模数据的复杂网络分析系统。本文的创新点主要体现在以下4个方面:1.提出了一种基于话题模型的重叠社团发现算法——BLP算法(Latent Dirichlet Allocation-Based Link Partition).LBLP算法中提出了一种可调参数的划分策略,解决了社团间的边被误划分到社团的问题,从而提高了重叠社团发现算法的准确性。该策略不仅可以准确地检测出社团间的边,还可以通过调节参数来控制社团的重叠程度。在大量人工标准测试网络和真实网络中进行了实验,验证了该算法的准确性和可靠性。2.鉴于真实社会网络中包含多种内容信息,提出了一种基于特征融合的重叠社团发现算法——LBLP-FI(LBLP-Feature Integration)。LBLP-FI算法同时考虑网络拓扑和网络内容信息,将网络中边的拓扑结构与边的文本内容融合起来作为边的特征,用于挖掘网络中的重叠社团结构。并提出了线性LBLP-FI-V和非线性LBLP-FI-W两种不同的融合策略。通过分析社团内的内容信息,可以挖掘出社团结构的“语义”信息,从而发现社团结构的形成机理。为了处理大规模的网络数据,本研究还将算法扩展到MapReduce并行开发模型上,实现了算法的并行化。实验结果表明我们提出的算法能够有效的挖掘出网络中的重叠社团结构,并且平衡了准确性和运行效率两方面性能。3.提出了一种演化聚类的社团演化分析方法。该方法考虑到在真实的动态网络中,每个时刻的社团结构不仅与当前时刻的网络结构有关,还受上一时刻的社团结构的影响,提出了基于演化聚类的社团演化分析方法。将每个时刻的静态网络构建成节点-节点的相似性矩阵,添加时间维度从而构建了节点-节点-时间的相似性张量。通过对相似性张量进行分解,从而保证了社团结构在演化过程中的连续性,挖掘出网络中的潜在演化规律。在张量分解的基础上提出了两个评价指标:社团结构凝聚度和社团演化活跃度,用以分析网络中社团结构随时间的演化信息。通过在人工标准测试网络与实际网络中的对比实验,验证了算法的可靠性和准确性。4.研发了一个基于云工作流的数据分析系统S-PDM (Saas Paral-lel Data Mining System), S-PDM系统实现了丰富的并行社会数据分析算法,充分利用分布式的计算能力和存储空间,以工作流程的方式为用户提供数据分析服务。S-PDM系统还提出了一种基于改进的链式工作流解析方法,能够将云事务流进行动态融合,提高了系统的性能。总体而言,本论文从理论和工程两个方面,分别对社会网络中社团结构以及动态网络中社团的演化进行了理论研究和实际实现。
其他文献
林隙是森林中由自然或人为小规模干扰形成的,是森林演替和循环中必不可少而又经常发生的现象,为森林的更新提供了有利的微环境.本文通过对林隙尺度、特征和森林微环境变化等
钛硅分子筛TS-1在催化有机氧化方面有着优越的催化性能,因能有效地减少氧化过程复杂的工艺流程和环境污染的问题而被广泛地应用于烯烃的环氧化、芳烃的羟基化反应、醇胺的氧
中国传统肖像画的写生法与西方肖像写生法有着很大的区别。西方主要是对人物精心描绘,尽量地惟妙惟肖。但中国传统肖像画却是主张默记心识.通过暗中观察的方法,了解对象的外形、
在实际生产生活中,三相异步电动机正反转应用非常广泛。文章详细地介绍了三相异步电动机正反转控制的三种设计方法,并归纳了三种控制方法的优缺点,在实际的生产生活中有一定
文章将具有财务背景的独立董事分为实务型和研究型,选择2014年深圳主板A股数据为样本,通过构建多元logistic回归模型进行实证分析,探究这两类财务独董对上市公司信息披露质量
在我国,逮捕制度主要指的是犯罪嫌疑人在审查之前被羁押的制度。它主要可以使刑事诉讼工作顺利开展,但是如果逮捕制度出现问题,很可能影响犯罪嫌疑人的权益受损。因此,刑事诉
笔者通过对草图大师软件辅助环境艺术设计的现状分析,总结出当前人们越来越重视草图大师软件的应用。草图大师软件迅速改变了以往视觉艺术的计算机辅助环境艺术设计的绘图局
分析性复核是获得审计证据的重要组成部分,它的主要特征有:在审计中的广泛使用;更好的节省审计的成本;更客观的获得审计证据。分析性复核在应用时应注意的问题主要包括:注册
对一台多联机进行了35个工况的制冷性能试验,获得了该多联机的全工况制冷运行性能。应用GB/T 17758—2010《单元式空气调节机》规定的建筑冷负荷模型、制冷运行时间模型和实