基于图模型的高效聚类算法研究

来源 :北京交通大学 | 被引量 : 5次 | 上传用户:sxf_520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着社会网络、通信网络、生物网络等在各领域应用的快速发展,其产生的图模型数据更是呈现出快速增长的态势。图作为一种数据结构具有本身其特有的表示方法和信息,一个图模型可能包含几百到几百万的顶点,而这些顶点及其连接的边构成的关联信息在不同领域中都具有不同的意义,随着数据规模的不断增长,如何有效的对这些信息进行综合分析并从中获取有用的信息进行应用,是非常必要的,也是本文研究的主要的方向。聚类分析作为机器学习的一个重要工具目前已经被广泛应用于文本挖掘、生物信息学、模式识别等领域的科学研究,随着图模型数据的广泛应用,图聚类也成为了一类较为重要的聚类分析方法,图聚类是图数据分析的有效技术之一。在构造节点的相似矩阵时经常采用距离作为评价标准,而节点间存在多条等长路径及k短路径,这些路径间的关系都会对节点间相似性产生影响,因此综合考虑节点间的距离关系有助于更好的衡量节点间的相似性。针对这一问题,本文提出一个基于前k短路径的图聚类算法(DRGC),该算法参照谱聚类算法的思想,使用前k短路径模型构造相似矩阵,利用多层自动编码器代替谱聚类算法中的特征分解实现对数据的重构,并且可以大大减少特征分解所用时间,最后利用非参数贝叶斯模型进行聚类,因狄利克雷过程具有很好的聚类性质并且可以实现对数据的自动划分,因此该算法可以在不预先指定聚类数目的情况下得到数据集的正确合理划分。为了克服单一聚类算法对数据集敏感的问题,本文提出了一个基于多数投票的聚类集成算法,该算法利用前k短路径的图聚类算法、k均值算法、谱聚类算法作为基聚类算法,以模块度最高的一组聚类结果的标签作为基准标签,,分析与其他聚类结果的标签之间的关系,并通过计算对其进行统一,最后通过投票计算出数据集最终的聚类划分结果。最后,本文对所提出的两个算法进行了仿真实验,实验证明,本文所提出的算法具有良好的聚类性质,可以得到较为准确的聚类划分结果。
其他文献
无线自组织网是近年来随着无线通信技术的飞速发展而出现的一种新型网络,网络中所有节点可以任意移动,网络拓扑结构动态变化,节点间以多跳协作的方式进行通讯。作为无需基础
下一代互联网为用户带来了丰富多彩的用户体验,但同时庞大的网络流量也给网络管理人员及服务提供商带来了巨大的挑战。流量监测是保障网络可控性的基础。目前传输速率为10Gbp
专利的技术方案信息是专利信息的重要组成部分,是专利作者创新精髓,是专利保护的主要对象。然而技术方案信息是以自由文本的形式存在,因此如何将技术方案信息转化为计算机可处理
流媒体点播(Video-on-Demand)系统的应用随着宽带技术的日益成熟而得到越来越多的关注。系统的结构也由最初的C/S架构转为现在流行的P2P(Peer-to-Peer)模式,因为P2P模式可以更
随着信息技术的飞速发展,人们从信息匮乏时代过渡到了信息过载时代,用户很难从海量的数据中找到自己感兴趣或对自己有价值的信息。推荐系统是应对信息过载问题的一个有效的解
随着互联网服务提供商提供的服务越来越多,互联网结构也变得越来越复杂,网络测量在互联网管理和服务质量保证方面扮演着重要的角色。由于互联网管理范围非常宽广,对作为运营
本文研究卷积神经网络在入脸-背景二分类识别、手写数字识别、多类图像分类识别和景物标记中的应用。本文采用具有不同特征抽取过滤层的卷积神经网络与其他优化模型相结合的
随着软件系统复杂度的不断增加,对软件需求的抽象变得越来越困难。在一个复杂的软件系统中,需要对用户场景进行充分描述,并对系统结构进行形式化建模。在软件工程中,构件可以
随着Internet的迅速发展和不断普及,越来越多的人开始关注信息安全领域。可信计算(Trusted Computing)作为信息安全领域中最为热点的问题,直接关系着软件或系统是否能够正常
流量监测对网络管理和分析具有重要的意义,它为网络优化、故障发现、异常预警、流量特征提取、流量建模等提供了必不可少的依据。当今的网络环境规模大、结构复杂、主干速度高