基于CFSFDP算法的复杂网络聚类

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:gauxten01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:针对复杂网络的特殊性质导致社区挖掘质量较低的问题,提出一种相似度度量方法代替传统的欧氏距离,从而将密度聚类CFSFDP(clustering bvfast search andfind of density peaks)算法应用到复杂网络聚类中去。首先,利用Pade逼近方法计算复杂网络的拉普拉斯算子矩阵指数;接着,归一化核心矩阵得到相似度矩阵,并求倒数得出复杂网络各节点间距离;最后,借鉴CFSFDP算法思想,将节点自身邻域密度、与其他邻域密度较高节点的距离结合作为判断依据,得出聚类中心并剔除噪声点,再将其余节点与距离最近的聚类中心划分为一类。在人工模拟数据和真实数据集上的实验结果表明:所提算法聚类准确率较高,以超几何定律为最佳匹配标准的已知组与实验组的随机重叠概率较高,算法可用于挖掘高质量的复杂网络社区。
  关键词:复杂网络;社区挖掘;密度聚类;CFSFDP算法;相似度
  中图分类号:TP301 文献标识码:A
  文章编号:1009-3044(2019)33-0278-04
  1概述
  现实世界中的许多复杂系统均可以转化成复杂网络,比如自然界中的生物系统,群体生态系统,人类社会中的经济系统等州。在实际中,大部分的网络都具有一定的社区结构,即这些复杂网络可以自然的分成一些节点组,同一节点组内的节点连接紧密,相互作用较强,不同节点组间的节点连接稀疏,相互作用较弱。网络的这种拓扑特性被称为社区结构,相应地,每个节点组被称为一个社区。社区结构体现了网络中连边关系的局部聚集特性,同样体现了网络中连边的分布不均匀性。网络中同一社区内的节点通常是功能相似或者性质相似,因此社区结构与网络的功能结构和组织密切相关,通常对应着不同的功能单位。例如:万维网是通过超链接连接网页从而形成的一个个社区,由于超链接的紧密连接,每一个社区的内容都有着相近的话题。随着社会的发展,复杂网络成为越来越普遍的现象,因而如何将纷繁庞杂的网络高效聚类,划分为有现實意义的社区,成了当前多学科研究的重要问题,对研究人类社会与自然界有着至关重要的作用。
  聚类算法根据元素相似性划分类别,有很多种不同的策略。K-means和K-medoids算法以到达聚类中心的最小距离定义目标函数,但是由于数据点始终被分到距离最近的聚类中心,这些方法无法检测到非球星的簇。在基于分布的算法中,准确性取决于实验概率表示数据的能力。基于密度的DB-SCAN算法能够发现任意形状的簇并识别噪声点,但是选择的密度阈值可能是非平凡的,均值平移聚类方法可避免这样的缺点,但是计算成本较高且只适用于一组坐标定义的数据。
  本文提出了一种新型的基于密度聚类算法的复杂网络聚类算法,定义相似度矩阵求解节点间距离代替传统欧氏距离,从而将密度聚类方法应用到复杂网络聚类分析中,首先分析网络对应的相似度矩阵,确定距离、密度,进而引用CFSFDP算法确定社区划分。CFSFDP算法与K-medoids算法类似,他仅仅基于数据点之间的距离,与DBSCAN和均值平移算法一样,能够直观地确定聚类数,发现非球型簇,并识别噪声点。另外,CFSFDP算法不需要将数据嵌入进向量空间。本文基于此算法,可有效将复杂网络聚类。
  2基于CFSFDP的复杂网络聚类算法
  3实验结果分析
  3.1模拟数据
  为检验算法的准确性、实用性与一般性,人工模拟生成10000个包含30个节点的随机网络样本,并进行编号。设节点1-10为第1类,节点11-20为第II类,节点21-30为噪声点。同一类内节点之间有边相连的概率为P1=80%,每个噪声点与任意类有边相连的概率P2=20%,对10000个网络样本进行聚类,聚类结果如图2所示:
  分类错误的节点出现的频率如图3所示,聚类精度为98.031%。
  3.2在ZacharyKarateClub数据集上的测试
  Zachary Katie Club网络㈣是通过对一个美国大学空手道俱乐部进行观测而构建出的一个社会网络,网络包含34个节点和78条边,其中节点表示俱乐部中的成员,而边表示成员之间存在的友谊关系。测试结果如图4所示,其中不同颜色的节点代表已知的划分类,不同形状的节点代表实验组测试结果,在本数据集上的聚类准确率达到100%。
  3.3在Dolphin Social Network数据集上的测试
  Dolphin数据集是D.Lusseau等人使用长达7年的时间观察新西兰Doubtful Sound海峡62只海豚群体的交流情况而得到的海豚社会关系网络。这个网络具有62个节点,159条边。节点表示海豚,而边表示海豚间的频繁接触。
  聚类结果如图5所示,准确率为88.710%,有7个处于边缘的点划分错误,但是存在一定的节点本身歧义性的干扰。
  3.4在American CoHege Football数据集上的测试
  College Football网络是Newman根据美国大学生足球联赛而创建的一个复杂的社会网络。该网络包含115个节点和616条边,其中网络中的结点代表足球队,两个结点之间的边表示两只球队之间进行过一场比赛。参赛的115支大学生代表队被分为12个联盟,比赛的流程是联盟内部的球队先进行小组赛,然后再是联盟之间球队的比赛。这表明联盟内部的球队之间进行的比赛次数多于联盟之间的球队之间进行的比赛的次数。
  联盟即可表示为该网络的真实社区结构,测试结果如图6所示,准确率为92.174%。
  12个类的log(Pol)值如图7所示,除了第六类大于-17.00之外,其余类的聚类结果与已知结果的匹配度都较好。
  4算法评价
  本文基于CFsFDP算法对复杂网络进行聚类,利用相似度度量代替传统的欧式距离,从而将传统的cFSFDP算法运用到网络聚类中去。
  虽然复杂网络具有小世界性,网络间的平均路径长较小,但是本算法可以很好地确定邻域半径。另外,本文算法不仅剔除了噪声点,还减少了聚类结果的局限性,能确定任意形状和维度的类,具有很强的现实意义。利用真实数据集进行分析比对时,可以证实本文算法有效性较强,划分的复杂网络有较好的准确性,较符合当今研究需求。
  算法的缺点是对参数较敏感,不同的参数会导致不同的聚类结果,需要观察对比,选择最优结果。此外,因为密度聚类的特性,当空间密度分布极度不均匀时,聚类结果较差。
其他文献
摘要:为提高烟草生产质量,基于统计过程控制技术,对烟草生产过程进行优化,以提高卷烟质量。对烟草生产特点进行分析、对制丝、卷包生产数据进行分析,设计数据模型。对数据采集频率进行分析,设计分析模型。采用统计分析和反复迭代相结合方式,对生产过程进行优化。该研究已在某一烟草企业应用实施,验证了该研究的合理性和有效性。  关键词:迭代;统计分析;统计过程控制  中图分类号:TP319 文献标识码:A  文章
摘要:本文介绍了大数据技术在电信用户信息分析中的使用,阐述了电信大数据可视化的重要意义;分析和讨论了电信用户信息大数据分析的可视化研究方法,研究电信用户大数据的行为结果进行分析预测,进而对其结果进行可视化展示,尝试讨论大数据分析可视化技术的个性化趋势。  关键词:电信用户信息;大数据;Spark;SpringMVC;可视化  中图分类号:TP39 文献标识码:A  文章编号:1009-3044(2
随着计算机网络以及便携式智能设备的发展,人们已不满足于传统的人机交互形式,交互形式逐渐从传统界面、键盘鼠标等输入输出设备慢慢发展屏幕触摸、姿势追踪、生物及动作的识别。体感技术作为人机交互的一种新形势,深受科技开发公司喜爱。以旋转功能为例,介绍如何利用Intel RealSense SDK以及Unity 3d引擎实现展示系统通过手势控制来实现旋转、缩放、移动等交互功能,这是该文将要介绍的重点内容。
摘要:现阶段,我国已然步入大数据时代,在信息技术十分发达的今天,很多先进技术被应用于城市基础建设过程中,包括图书馆的建设。随着技术突飞猛进的发展,智能图书馆的建设可以满足广大阅读爱好者,也可以适用于高校图书馆的建设,促进图书馆管理平台的逐步完善,解决传统管理存在的弊端,为客户或学生提供个性化的阅读服务。本文首先对大数据技术和智能图书馆进行了概念阐述,分析了大数据背景下智能图书馆建设存在的问题,提出
摘要:为响应国家节能减排的号召,烟草企业需要在能源管控上入手,实现能源消耗的降低,同时保证生产的效率。本文利用统计技术,结合传统的能源管理,为烟草企业设计并开发了能源管理模块,可以集成在企业的MES中。通过在企业的部署应用验证,实现了能源消耗的减少,同时降低了产品的生产成本,具有一定的应用价值和意义。  关键词:能源管控;统计技术;数据采集;烟草;节能  中图分类号:TP3 文献标识码:A  文章
AutoCAD可以在模型空间或布局空间里进行打印。本文对布局空间打印的输出、参数设置进行了介绍并比较了模型空间与布局空间打印的优缺点;模型空间打印方便快捷,但是如果打印出图在同幅面的纸张上而且打印图幅线的情况下,比例不够准确,布局空间打印可以通过设置参数,确保图形比例正确。
摘要:针对隐形牙套矫治技术开发了一套虚拟牙齿矫正仿真系统,利用Vc 和OpenGL作为开发平台,实现了模型导入显示、交互操作、面片拾取、牙齿分割和矫正路径规划等功能,生成的三维牙颌组织模型帮助医生模拟牙齿矫正的过程,并且直观地向患者展示手术治疗的效果。  关键词:仿真系统;牙齿矫正;交互式操作;拾取面片;分割  中图分类号:TP39 文献标识码:A  文章编号:1009-3044(201 913
摘要:以工业透平齿轮箱为监控对象,使用移动跨平台开发工具APICloud,开发出透平齿轮箱状态监控平台移动端app,实现对齿轮箱振动、温度、压力、流量等信号的监测和预警。该文介绍了该监控移动端系统的总体框架设计、系统功能实现和系统的操作流程,实现了齿轮箱出厂后的状态追踪,确定齿轮箱保养和再制造的最佳时机,达到节约成本提高效率的目的。  关键词:APICloud;齿轮箱;状态监控;移动端app  中
摘要:互联网技术和数字化技术在各行各业中的应用较为广泛,在现代图书馆管理工作中运用数字化技术有助于提高图书馆管理效率,可以为读者提供高质量的阅读各类服务,包括图书推荐服务等等。数据挖掘技术是一种高效的出具整合和处理技术,可以实现对各类数据的分类处理,从海量信息中筛选出有价值的信息,从而为图书馆管理平台的建设服务。图书馆的服务质量与图书阅读推荐息息相关,向读者提供个性化的推荐服务是图书馆的工作之一,
摘要:在整个建筑领域中,总图的设计是整个场地设计中的重要组成部分,在对总图设计时,要注重兼顾竖向设计图的作用,其与总平面是相互依赖、不可分割的关系,竖向设计的好坏将会直接影响到后面的一系列工作,甚至是整体的经济效益,所以其作用不可忽视。本文主要从煤矿总图进行竖向设计的意义、总图在竖向设计时需要遵循的原则、煤矿总图设计的几项基本内容、煤矿总图竖向设计的要点等几个方面展开研究,并通过此些内容来探讨煤矿