论文部分内容阅读
现实世界的大量复杂系统都可用复杂网络进行建模分析,而社区发现是复杂网络分析中的热门问题。社区发现能够帮助挖掘复杂系统内部个体间的聚集结构,分析个体与个体间的关联,掌握复杂系统的发展规律,发现复杂系统的隐藏功能等等,具有重要的研究价值和意义。社区发现算法中的标签传播算法由于其思想简单和实际复杂度低,而受到广泛关注。然而该算法对于标签的随机更新,导致了算法稳定性差和准确率低的情况,为了解决以上问题,本文主要做了如下几个方面工作:(1)本文对现有的标签传播算法进行了总结和分析,提出了一种改进的标签传播算法(Link Label Propagation Algorithm,简称LLPA),该算法分为三个部分,第一个部分为将原始网络图转换成边图,边图保留了原始网络图的所有的拓扑网络结构;第二部分是利用改进的标签传播模型来对边图进行非重叠社区划分,首先,计算节点的重要性程度并按照降序排列,然后利用节点的排序结果找出网络的极大团,作为初始的社区核心,在标签的初始化阶段,每一个初始社区都会被赋予一个唯一的标签;第三部分是将边图重新还原成原始的网络结构图,通过遍历第二部分划分出的社区,将社区里的每个节点恢复成原始网络中对应的两个节点,使非重叠的社区发现变成重叠的社区发现。最后,分析了该算法的复杂度和扩展性,同时通过人工网络和真实世界网络的实验和对比证明了该算法的性能得到了提升。(2)本文实现了基于社区发现微博用户行为分析系统的系统原型,系统采用了 Spark框架、Kafka中间件、分布式存储及OLAP框架等先进技术,使该系统在可扩展性和容错性方面有着明显的优势。该系统的主要功能为用户行为分析和用户影响力分析,其中在用户行为分析部分,使用本文提出的改进的标签传播算法进行兴趣社区划分。