基于属性扩展图的K-means聚类算法的研究

来源 :中北大学 | 被引量 : 0次 | 上传用户:zhqimin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社团结构是社会网络普遍存在的拓扑特性之一,发现社会网络中的社团结构是复杂网络研究的基础性问题。聚类算法是发现社团结构的一种重要的方法。聚类分析技术在过去的许多年中得到了广泛的研究,其中K-means聚类算法是众多聚类算法中比较经典的一个。K-means聚类算法由于思想简单、时间复杂度小而被广泛的进行了研究与运用,尤其在对大规模数据进行挖掘中,K-means聚类算法具有高效性及可伸缩性。  真实网络中,除了数据之间存在的拓扑结构以外,其数据本身存在着各种特殊属性。现存的许多聚类算法仅仅依靠数据间的拓扑结构进行聚类,而很大程度的忽略了数据所具有的特有属性在聚类分析中的作用。本文在分析聚类算法中节点的拓扑结构及特有属性的作用之后,对K-means聚类算法进行改进,提出了一种新的聚类算法-SAK聚类算法。本文的主要研究成果如下:  (1)将真实网络用图的模型表示,并根据现实网络的实用性,将节点的属性特性作为节点添加到图中,并根据节点与属性的关系添加相应的边,从而构成属性扩展图。在属性扩展图的基础上,使用随机行走模型对节点的结构及属性相似性进行统一的测量。  (2)提出了一种自动更新权重值的方法,在聚类算法不断迭代的过程中,节点边的权重会随之发生变化,随着权重的改变节点间的相似度也会随之改变,这样,不同的属性将会在聚类算法中起到不同的作用。这种改变将会使节点间相似度的测量更加趋于实际,趋于准确。  (3)提出基于属性扩展图的K-means聚类算法(SAK),该算法改变K-means算法随机选取初始聚类中心的方法,采用密度函数的方法进行初始聚类中心的选取。并运用两个真实的社会网络对本文所提出的SAK聚类算法进行了验证。
其他文献
目前,随着半导体工艺不断发展,电子系统也具有更高的集成度,而处理器的性能也有了较大的提高。高性能处理器低功耗、高性能的特点给处理器的可靠性带来了负面效应,带来了频发的硬
如今互联网庞大的规模、复杂异质的管理体系使得诸如IPv6、安全路由、PIM-SM等技术难以大规模部署和应用,从而导致互联网在技术创新上面临僵化境地。T. Anderson等人提出的网
随着Internet的快速发展,互联网上的信息越来越丰富,面对爆炸性增长的信息,我们需要采取新的技术手段来管理和挖掘互联网信息。一个好的系统平台是提供优良的信息挖掘服务的基础
心脏电生理建模和仿真有助于人类掌握心脏组织中电传导规律和心脏疾病的发病机制及预防方法,已被成功应用到科学研究、疾病诊断和预防、药物研发等领域。随着心脏几何数据的
随着互联网技术的不断发展,出现了各式各样具有很多丰富功能的网站,人们对网络的需求也不只满足与以往的看新闻,查资料,越来越多的人喜欢在网络中记录自己日常的生活,用简短的状态
空间数据查询问题在地理信息系统、基于位置的服务等相关领域都有着广泛的应用价值。最近邻查询是其中的一种基本问题,通过计算数据点到给定查询点的距离,返回使该距离达到最
无线传感器网络中的许多应用都需要实时通信,但是由于无线传感器网络的动态性和不可靠性,导致端到端之间的延迟是不确定的,这给实时路由的设计提出了严峻的挑战。特别是在周围环
数字半调技术广泛应用于二值设备的图像输出,当需要存储和传输大量半调图像时会占用相当大的存储空间和带宽资源,因此有必要研究半调图像的压缩算法。目前半调图像压缩算法大多
近几年来生物信息学主要关注了DNA序列上的数据特点,利用DNA序列中的碱基信息去探索序列中的功能区,挖掘序列中可能含有功能信息的潜在位点,探索隐藏在碱基下的遗传信息。本文目
近年来,随着科学的发展和技术的进步,视频编码技术获得了爆炸式的发展。现有的视频编码标准H.26x/AVC可以完成对大规模视频的实时传输和存储,这使得远距离视频传输,视频电话,视频