基于标签传播算法的社区发现新算法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:vito23
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网近年来的飞速发展,造就了一批以社交为主的网站,其中国外的Facebook,Twitter,Google+,国内的QQ空间,豆瓣,人人等最为流行。这些社交网站每天都会有大量的用户使用,并且产生大量的分享数据,建立新的朋友关系等。对于这些数据来说,具有很高的利用价值,比如网络营销,舆情分析等。因此对这些数据的处理方式尤为重要,其中社区发现是研究热点。本文主要是针对目前常用的社区发现算法进行改进。最常用的标签传播算法LPA的思想是在初始情况下,网络中的每个节点都被初始化为唯一的标签,在迭代更新每个节点的标签时,节点是根据其邻居节点中标签个数最多的作为更新标签,如果标签个数最多的标签并不是唯一的,那么随机从中选择一个标签来更新当前节点,最终达到收敛或者震荡,该算法停止。由于该算法的思想和实现过程导致该算法有一些缺点,例如不稳定性,发现的社区要么是巨型社区,要么就是无意义的小型社区,分布极其不均匀并且对网络的结构比较敏感,二分网络情况下会发生循环震荡。针对上述LPA算法的一系列缺点,本文提出了LAAPA(label-attribute&attenuation progagation algorithm),基于标签属性和衰减因素的社区发现算法。该算法引人了传播衰减因子和节点属性,其中传播衰减因子顾名思义就是节点标签的传播距离是有限的,并且随着距离的增加节点标签的影响力逐渐降低,更新标签的权重也随之减少;节点属性是指在社交网络中节点之间的关系并不仅仅是关注与被关注这种简单的传统上的“边”,为了与实际情况更加吻合本文提出了节点属性,具体是指将节点的其他属性比如豆瓣网中用户加入的“小组”作为节点的属性,节点之间的相同属性将会反映到节点之间的边上,使用权值来表示。在算法迭代中,节点更新标签时,将考虑邻居节点的标签传播距离,节点之间边的权值,节点的度等因素。本文通过两组标准数据对提出的LAAPA算法和LPA算法进行比较,在社区大小,模块度等方面LAAPA算法发现的社区比LPA算法效果好。在使用Scrapy抓取的豆瓣网数据中,经过清洗格式化后验证了该数据符合社交网络的特性,“小世界”,节点中心性等。利用两种社区发现算法进行社区发现,进行对比,结果也是LAAPA算法发现的社区质量比LPA算法质量高,并且稳定,社区分布均匀,没有巨型社区的出现。
其他文献
随着数据库技术的成熟和数据应用的普及,人类积累的数据量正在以指数速度增长。当数据量极度增长时,如果没有有效的方法,由计算机及信息技术来提取有用信息和知识,人们也会感到面
自“信息高速公路”提出以来,网络在全世界以惊人的速度发展着。Internet将全世界联系起来,LAN、WAN等局域网技术使局域网内资源、信息得以传播和共享。视频会议系统正是在这
当今Internet技术的飞速发展和网络主机数量的大量增加给网络带宽和服务器带来巨大的挑战。从网络技术的发展来看,网络带宽的增长远高于处理器速度和内存访问速度的增长,所以
基因拷贝数是指某一种基因或某一段DNA序列在某一生物基因组中的个数。基因拷贝数变异是指和参考基因组相比,DNA片段在1Kb至1Mb范围内的缺失或增加的一种结构变异现象。基因
鱼的年龄知识是鱼类资源评估和管理的一个重要考核指标,传统年龄估计方法就是鱼类科学家根据耳石内钙化形成的结构来判断鱼的年龄,但由于耳石的形成、发育受许多因素的影响,
随着网络技术的发展和持续完善,为使用户获得更好的用户体验,诸多个性化推荐系统不断涌现。协同过滤技术是传统个性化推荐系统中发展较为完善、应用较为广泛的一种推荐技术,
Blog是一种基于RSS技术的信息交互平台,它是一种作者与读者以日志风格进行交互的中介,是一种崭新的信息传播和交互方式。与传统的网络信息相比,Blog具有动态性、交互性以及共
数字视频质量评估在视频压缩、处理以及视频通信领域中起着十分重要的作用。可见,视频质量评价的研究不仅有重要的理论价值,而且有广泛的应用需求。本文介绍了视频质量评价的定
IMS(IP Multimedia Subsystem)是3GPP提出的支持IP多媒体业务的子系统。它的显著特点是采用了SIP(Session Initiation Protocol)体系,通信与接入方式无关,可以具备多种媒体业
元搜索引擎是基于搜索引擎基础之上的搜索引擎,它可以同时检索多个成员搜索引擎,对成员搜索引擎返回的结果信息进行融合、再加工后二次陈列给用户,解决了用户跨搜索引擎检索的问