位置社会网络中重叠群组探测算法研究及并行化实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:mugua220
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着在线社交网络平台的涌现,网络用户之间的链接关系越来越丰富,群组探测作为链接挖掘的重要技术,越来越多的研究者将群组探测作为研究的重要方向。现有的群组探测算法主要考虑用户之间的链接关系、与用户相关的文本信息等;但是考虑位置信息的并不多。由于移动终端及Global Positioning System(GPS)技术的广泛应用,社交平台中包含丰富的位置信息,如何结合位置信息和链接关系进行群组探测,有着非常重要的实际意义。在真实的社会中,一个用户往往是属于多个群体的,这样的群组是交叉重叠的。同样,社会网络中也存在着交叉重叠的群组,因此结合位置信息进行重叠群组探测算法研究是具有重要的理论和实际应用价值的。为了探测出重叠的群组,采用链接群组的方法将群组定义成了边的集合,进而以边为基本单位进行群组划分。由于边与边可以共享一个节点,因此当共享节点的边属于不同的群组时,那么这个节点就会被划分到多个群组之中,从而得到重叠的群组结构。结合K-means算法和边划分的思想,提出基于边均值距离的可重叠群组探测算法。利用边的相似度对边进行划分,而边的相似度是基于组成边的节点的相似度进行计算的。计算节点的相似度时,综合考虑了节点的链接关系以及位置信息等因素;并且,算法中可以自动的对不同因素的权重进行调整,从而达到更好的效果。由于用户节点的数量庞大,随着边的增加,计算以及使用边的相似度时,算法的效率会大大的降低。为了克服这一难题,提出了Hadoop平台下基于边均值距离的并行重叠群组探测算法;从而提高算法的效率,并使得算法具有可扩展性。在真实的数据集上进行实验,利用模块度等指标对群组划分结果进行评价,与K派系算法及K-means算法进行对比分析,实验表明基于边均值距离的重叠群组探测算法要优于K派系和K均值算法。并使用加速比等指标对单机程序以及并行化程序进行对比分析,实验表明提出的并行化算法具有良好的可扩展性。
其他文献
随着家庭智能网络的兴起,家庭用户的数据存储和共享变得越来越重要。现有的网络附连存储(NAS)产品主要是为企业用户设计的,它们存在能耗大、价格高、专业性操作强等不足。就
试题库系统是指将大量的试题存储在计算机中,然后根据所需要试题的难度、题型等条件从试题库中随机抽题来满足考试要求的系统。试题库系统的开发不仅可以减轻教师繁重而又重复
Ontology最早是一个哲学的范畴,后来随着人工智能的发展,被人工智能界赋予了新的定义。在语义Web中,Ontology具有非常重要的地位,是解决语义层次上Web信息共享和交换的基础。
随着全球信息化的发展,各个组织、政府、企业等机构的信息网络越来越复杂,对内网的安全需求也越来越高,研究机构内网的安全机制已成为日益紧迫的课题。密码技术是解决网络安
随着不断增长的分布式多媒体应用的需求,以及Internet上商业化应用的飞速发展,对网络的服务质量(QoS:Quality of Service)提出了更高的要求,高效的QoS支持变的越来越重要,IETF提出
WiMAX和MPLS是当前网络通信领域的两大热点技术,也是国内外专家学者争相研究的对象。WiMAX作为当前优秀的宽带无线接入(BWA)技术之一,被IEEE标准化组织认定为无线城域网的主
在学分制高校中,选课是学校教学管理的不可缺少的重要一环。选课的顺利实施,对于学校的决策者和管理者以及学生来说都至关重要,所以高校选课系统应该能够高效、顺利地解决学分制
生物学和医学的迅速发展以及基因芯片的逐步实用化都使得同时比较和研究大量基因的特性成为可能,随之产生了海量的基因数据。通过分析这些数据可以获得对人类有益的有关生物结
随着计算机辅助设计技术以及计算机网络技术的显著进步,基于网络的协同装配设计已经成为了计算机辅助设计技术的一个重要的研究方向。本文就协同装配设计中的模型简化问题开
在程序测试中,测试数据生成是发现满足某种测试准则的数据,而在多种测试准则中,分支覆盖准则是最有效的,但是在运用分支覆盖准则的过程中,如果程序控制流图的分支数大于10,在