大规模社交网络中社区挖掘算法研究

来源 :深圳大学 | 被引量 : 0次 | 上传用户:godzerovwx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从图数据中挖掘出互相连接紧密的社区结构是一项具有重大商业价值和社会效益的前沿技术。近年来,随着图数据规模的不断扩大,社区挖掘的复杂性越来越高,这就迫切需要提出一些面向海量图数据的社区挖掘算法加以支持。本论文深入分析了面向大规模图数据的社区挖掘技术所面临的挑战,提出了一种基于MapReduce结构聚类(Structural Clustering Algorithm for Networks)的社区挖掘算法MRSCAN以及一种基于k-core-truss的社区子图模型。具体地,本文的工作主要包括以下2部分内容:(1)提出基于MRSCAN的社区挖掘算法。SCAN是一种知名的基于密度的图聚类算法。不同于一般的聚类算法,该算法不仅能够很好地找到图中的聚类结构,而且还能发现图中的桥接节点和离群节点,在现实应用背景中有着重要的意义。然而,随着图数据规模越来越大,传统的SCAN算法(复杂度为O(m1.5),m为图中边的条数)很难处理大规模的图数据。例如,在具有超过数百万个节点和边的大规模图数据环境中使用传统SCAN算法进行处理基本不可行。为此,本文提出的第一个基于MapReduce的算法MRSCAN来解决SCAN算法的可扩展性问题。首先,MRSCAN分布式地计算图节点之间的结构相似性以及求出核心节点;然后,提出对核心节点维度扩展的概念,将图中的点是否为核心进行维度扩展,使得每个节点在合并聚类时能够被识别是否为核心节点;最后,提出两种分布式合并聚类的算法,通过观察提出一般的合并聚类算法,再利用最小化核心编号对其进行算法层面的优化。在多个真实的网络数据集上进行大规模测试,实验结果验证了MRSCAN算法的有效性和可扩展性。(2)提出了一种新的社区子图模型:k-core-truss。该模型能够很好地解决现有的k-core、k-truss模型所存在的缺陷。基于该模型,给定社交图数据中一个或多个查询用户,实现在大规模的社交数据中快速的查找出该查询用户所在社交圈子的算法,并进一步扩展到在社交图谱中查找代表紧密关系的凝聚子图。在多个真实的大规模图数据集上分别进行实验测试,实验结果验证了上述模型与算法的正确性、有效性与可扩展性。
其他文献
目的分析高危孕产妇急诊剖宫产术护理干预中碘伏宫腔擦拭预防术后切口感染的临床效果。方法64例实施急诊剖宫产术的高危孕产妇,采用双盲法分为干预组与参照组,各32例。参照组
该文结合福建省惠安地区农村生猪散养户的现状,针对非洲猪瘟的防控措施,提出若干建议,以期为非洲猪瘟防控工作提供参考。
<正>扶贫更"扶智",全力以赴做到"在上学路上,一个都不能少。这是中建二局发起的"中建先锋成长计划"提出的响亮口号。扶贫先"扶智"习近平总书记强调:注重扶贫同扶志、扶智相结
期刊
运用微型可编程控制器在双电源供电和电机的起动控制作用,克服了传统控制回路设计方式所存在的元件数量多、接线复杂、通用性差等缺点,避免了因机械联锁卡住而烧坏接触器的情
目的:对在临床医学检验工作中进行血液细胞检验质量控制的方案进行探讨。方法:选择42名志愿者作为研究对象,以数个影响血液细胞检验质量的因素作为切入点,对比、分析血液样本
作为储备粮种,稻谷的储藏安全关系国计民生。本文针对霉菌这一严重影响稻谷储藏安全性的重要危险因素,在模拟条件和实仓环境下探究霉菌的生长、演替规律及霉菌生长对稻谷品质
2002年4月,江苏省科技对各项科技计划顺利启动。随着科技计划管理方式的转变,2002年度各项科技计划受到了前所未有的广泛关注。为了让广大读者能够及时了解各项科技计划的进
文字是商品包装上必不可少的要素,在兼具功能价值的同时还承载着伦理规范的导向意义,是商家在市场竞争中重要的策略方式。但过度的使用或不规范的使用,都将导致文字功能与伦
目的了解痴呆老人愉悦性活动参与性及照顾者心理状况的现状;分析痴呆老人愉悦性活动的影响因素;探讨照顾者心理状况对痴呆老人愉悦性活动参与性的影响;为提高痴呆老人愉悦性
不确定性存在于生活的各个方面,主要分为随机不确定性和认知不确定性,处理随机不确定性的理论和方法已经发展很完善了,主要以概率论为主,而认知不确定性仍然处于发展的阶段,