社交网络中基于概率的可伸缩聚类算法研究

来源 :山东建筑大学 | 被引量 : 0次 | 上传用户:z28419800
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络作为一个新兴事物正被越来越多的人所接受,其发展到今天已经与我们的生活息息相关。过去几年里,人们只是把“社交化”加在媒体、游戏等前面进行大肆宣传,所以现在我们需要真正了解它的意义,并考虑把它应用到未来商业及媒体领域中另外,社交网络正影响着人们的行为方式,没有什么比影响人们决策以及最终行为方式更重要的事情了。所以,面对海量的社交网络数据,对数据所形成的用户规律进行挖掘聚类,井理解消费者、更好地满足消费者具有重要的现实意义。从计算机科学的角度来说,社交网络是一张图,其中结点是网络中的个人或参与者,边是参与者之间的关系。所以,对社交网络的聚类问题使转化为对图的聚类问题。目前有很多图聚类技术,如图分割技术PageRank Clustering,图重叠聚类技术CPM等。但是,上述算法无论图中结点是否有用,均对整个图的所有结点进行聚类,导致较大的资源消耗。在现实中,某些应用如社交网络中的个别弱结点,对整个社交网络的分析影响并不大,可以视为无用。社交网络仅需要那些强连接,也就是说,我们只需对社交网络的聚类结果进行概率保证即可。所以,对整个图进行聚类的算法,其效率相对低卜。相反,返回图中最紧密聚类的算法,则相对更加快捷和实用。对聚类问题的改进本质上是对速度和精度进行权衡。2010年国际超大型数据库会议中,Kathy Macropol教授提出了将位置敏感哈希算法(LSH)应用于图聚类技术的TopGC算法。TopGC能够针对大型数据集进行聚类运算,具有良好的可扩展性。本文改进TopGC图聚类技术,提出概率化的图聚类算法PGC,它能够对大型有向/无向未加权图进行快速地聚类。该算法基于概率与推断技术,对于其他算法受内存限制而不能聚类的大型实际社交网络图数据,PGC可以较好地完成聚类。与TopGC相比,PGC返回的每个聚类中结点个数总是多于TopGC,且得分与TopGC基本相等。PGC通过比较图中各结点邻居集的相似度来实现聚类。为了实现可扩展性,PGC首先将社交网络图的邻按矩阵采用改进后Minhash算法进行降维,得到图的签名矩阵;然后利用位置LSH来进行哈希比较,将每个结点根据其邻居集哈希至相应的哈希桶;最后利用统计推断验证技术,对每个哈希桶中的结点进行校验,修剪掉相应的孤立点和噪声。全文共分为5章。第1章为绪论,介绍了本文研究的背景、意义等内容;第2章为基本介绍和知识准备;第3章阐述了PGC的详细步骤,本文针对TopGC技术做了两处修改,一是改进了常规的Minhash算法,二是提出了使用贝叶斯统计推断的方式进行概率验证;第4章通过实验验证并分析了PGC各参数变化时间对聚类结果的影响,并证明了PGC的正确性,可扩展性和鲁棒性;第5章为总结展望。总之,对于大型真实的社交网络图进行聚类,PGC是一个有效的解决方案。
其他文献
图像是机器视觉系统的重要视觉信息。然而,图像采集和成像系统不可避免的存在模糊、运动变形和噪声等降质和退化过程,不但影响了人们对图像的视觉感受,而且大大降低了图像中
无线传感器网络WSN是由大量传感器节点以自组织方式构成的网络,网络安全性问题是制约无线传感器网络发展的重要难题,是国内外学者广泛关注的研究方向。其中密钥管理是WSN安全
最近十多年,农作物病害、虫灾越来越严重,其病害种类越来越多、规模越来越大,因此而造成了大幅度的农业减产。伴随着计算机技术的发展,特别是人工智能技术、图像处理技术在各领域
近年来,随着因特网的快速发展,Web网页的数量也呈现出急剧增长的趋势,海量的网页中通常蕴含着丰富的企业竞争情报,如何从海量的网页中挖掘企业所需的竞争情报成为人们研究的热点
闪存首先由东芝公司于1984年提出,此后因特尔公司和日立公司相继推出其产品。闪存由于性能更好、体积小、抗震以及低功耗等优良特点已广泛应用于移动设备和嵌入式设备,随着其容
红我国加入WTO以后,国内的航运需求增长很快。为了保证航运的正常进行,航运企业每天都要处理大量的信息,传统的凭个人经验决策的方法已不能满足现代航运业发展的需求,实现船
相似性连接是数据挖掘分析领域的基础操作,在数据清洗、生物信息学和信息集成等众多领域有着广泛的应用意义。相似性连接处理的数据类型一般包括字符串、集合、向量和图等类
随着计算机技术的不断发展和集成化趋势日益明显,企业的信息平台结构逐渐从客户/服务器方式向语义Web的方向发展。使用本体的概念来表达产品数据信息已经得到了验证并且产品
三维扫描技术被广泛使用在逆向工程、文物保护、工业生产、刑事侦查、三维传真等领域。点云数据就是指由扫描得到的以点的形式记录的数据,每一个点对应一个三维坐标。三维扫
随着现代移动通信网络的发展进入了一个新阶段,移动通信网络除了满足用户的数据高速传输外,还需要未来的网络具有灵活性、适应性等特性。无线自组织网络(AdHoc)是一种自创造、