论文部分内容阅读
近年来,随着网络技术的快速发展,加上移动互联网的快速普及与应用,越来越多的人通过社交网络与他人交流沟通。由于人们对知识的需求快速增长,各种网络知识社区的也蓬勃兴起,成为了众多用户进行知识创造与交流的主要平台。随着用户的不断增加,社区用户数量以及用户分享、交互等网络行为产生的数据急剧的增长,因此,社区发现、用户识别等社交网络分析面临着数据量大、网络复杂性高等问题,严重制约了大规模社交网络分析的发展。同时,社交网络的便利性使得信息的产生与传播时间大大减少,对社区信息传播的监控与引导造成了极大的困难。因此,如何识别出社区中的关键用户,进而掌握社区中知识的流向,成为了亟待解决的问题。本文针对传统方法难以处理大规模网络数据的问题,采用Python与Spark技术相结合,利用GraphX框架对传统算法进行改进与并行化处理,设计模型框架,利用集群优势处理海量的数据。本文主要工作如下:(1)提出了一种基于节点重要性的社区发现算法。首先,考虑不同节点的传播能力以及对目标节点的影响程度存在差异,利用PageRank算法计算各个节点的重要性。其次,由于节点的邻节点集合中存在部分对节点链接不紧密或相互作用不大的节点,提出了基于节点共同邻节点数量的节点亲密度度量,利用节点之间的亲密度对目标节点的邻节点进行过滤。最后,通过节点重要性对标签选择策略进行改进,避免出现标签“震荡”现象。(2)构建了关键用户识别模型与方法。本文以CSDN社区用户作为研究对象,对用户交互行为与发布的文本特征进行了研究分析,在K核分解方法的基础上,考虑相邻用户节点的影响力贡献差异,定义网络边的潜在影响力与边的影响因子,综合考虑用户知识贡献者与传播者双重身份,构建关键用户挖掘模型与排序方法。(3)基于Python与Spark大数据处理技术,对相关算法进行并行化处理,提升算法的计算效率。最后,对本文的研究成果进行总结,并对未来的研究提出了展望与未来研究方向。