社交网络中基于概率的可伸缩聚类算法研究

来源 :山东建筑大学 | 被引量 : 0次 | 上传用户：z28419800

【摘要】

：

社交网络作为一个新兴事物正被越来越多的人所接受,其发展到今天已经与我们的生活息息相关。过去几年里,人们只是把“社交化”加在媒体、游戏等前面进行大肆宣传,所以现在我

【作者】

：

宋传超

【机构】

：

山东建筑大学

【出处】

：

山东建筑大学

【发表日期】

：

2013年期

【关键词】

：

社交网络图聚类降维位置敏感哈希算法统计推断

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

社交网络作为一个新兴事物正被越来越多的人所接受,其发展到今天已经与我们的生活息息相关。过去几年里,人们只是把“社交化”加在媒体、游戏等前面进行大肆宣传,所以现在我们需要真正了解它的意义,并考虑把它应用到未来商业及媒体领域中另外,社交网络正影响着人们的行为方式,没有什么比影响人们决策以及最终行为方式更重要的事情了。所以,面对海量的社交网络数据,对数据所形成的用户规律进行挖掘聚类,井理解消费者、更好地满足消费者具有重要的现实意义。从计算机科学的角度来说,社交网络是一张图,其中结点是网络中的个人或参与者,边是参与者之间的关系。所以,对社交网络的聚类问题使转化为对图的聚类问题。目前有很多图聚类技术,如图分割技术PageRank Clustering,图重叠聚类技术CPM等。但是,上述算法无论图中结点是否有用,均对整个图的所有结点进行聚类，导致较大的资源消耗。在现实中,某些应用如社交网络中的个别弱结点,对整个社交网络的分析影响并不大,可以视为无用。社交网络仅需要那些强连接,也就是说,我们只需对社交网络的聚类结果进行概率保证即可。所以,对整个图进行聚类的算法,其效率相对低卜。相反,返回图中最紧密聚类的算法,则相对更加快捷和实用。对聚类问题的改进本质上是对速度和精度进行权衡。2010年国际超大型数据库会议中,Kathy Macropol教授提出了将位置敏感哈希算法(LSH)应用于图聚类技术的TopGC算法。TopGC能够针对大型数据集进行聚类运算,具有良好的可扩展性。本文改进TopGC图聚类技术,提出概率化的图聚类算法PGC,它能够对大型有向/无向未加权图进行快速地聚类。该算法基于概率与推断技术,对于其他算法受内存限制而不能聚类的大型实际社交网络图数据,PGC可以较好地完成聚类。与TopGC相比,PGC返回的每个聚类中结点个数总是多于TopGC,且得分与TopGC基本相等。PGC通过比较图中各结点邻居集的相似度来实现聚类。为了实现可扩展性,PGC首先将社交网络图的邻按矩阵采用改进后Minhash算法进行降维,得到图的签名矩阵;然后利用位置LSH来进行哈希比较,将每个结点根据其邻居集哈希至相应的哈希桶;最后利用统计推断验证技术,对每个哈希桶中的结点进行校验,修剪掉相应的孤立点和噪声。全文共分为5章。第1章为绪论,介绍了本文研究的背景、意义等内容;第2章为基本介绍和知识准备;第3章阐述了PGC的详细步骤,本文针对TopGC技术做了两处修改,一是改进了常规的Minhash算法,二是提出了使用贝叶斯统计推断的方式进行概率验证;第4章通过实验验证并分析了PGC各参数变化时间对聚类结果的影响,并证明了PGC的正确性,可扩展性和鲁棒性;第5章为总结展望。总之,对于大型真实的社交网络图进行聚类,PGC是一个有效的解决方案。

其他文献

降质图像的变分贝叶斯超分辨与分层自适应分割算法

图像是机器视觉系统的重要视觉信息。然而,图像采集和成像系统不可避免的存在模糊、运动变形和噪声等降质和退化过程,不但影响了人们对图像的视觉感受,而且大大降低了图像中

学位

降质图像超分辨率重建预处理多层次分割应用系统

异构传感网络的密钥协商机制研究

无线传感器网络WSN是由大量传感器节点以自组织方式构成的网络,网络安全性问题是制约无线传感器网络发展的重要难题,是国内外学者广泛关注的研究方向。其中密钥管理是WSN安全

学位

无线传感器网络异构传感器网络密钥管理机制椭圆曲线加密算法网格分簇路由驱动

扁豆病斑叶片图像分割研究

最近十多年，农作物病害、虫灾越来越严重，其病害种类越来越多、规模越来越大，因此而造成了大幅度的农业减产。伴随着计算机技术的发展，特别是人工智能技术、图像处理技术在各领域

学位

扁豆病斑叶片图像剥离分割彩色梯度模糊C聚类

企业外部商业关系抽取研究

近年来，随着因特网的快速发展，Web网页的数量也呈现出急剧增长的趋势，海量的网页中通常蕴含着丰富的企业竞争情报，如何从海量的网页中挖掘企业所需的竞争情报成为人们研究的热点

学位

企业商业关系抽取句子时态特征简单模式生成算法Web网页

面向闪存存储系统的缓冲区管理与存储管理研究

闪存首先由东芝公司于1984年提出，此后因特尔公司和日立公司相继推出其产品。闪存由于性能更好、体积小、抗震以及低功耗等优良特点已广泛应用于移动设备和嵌入式设备，随着其容

学位

闪存缓冲区算法存储管理空间利用率地址映射映射方式

基于SSI的船舶机务管理信息系统的设计与实现

红我国加入WTO以后,国内的航运需求增长很快。为了保证航运的正常进行,航运企业每天都要处理大量的信息,传统的凭个人经验决策的方法已不能满足现代航运业发展的需求,实现船

学位

船舶机务管理系统J2EEMVCStruts2SpringiBATIS

分布并行字符串相似性连接方法研究与应用

相似性连接是数据挖掘分析领域的基础操作,在数据清洗、生物信息学和信息集成等众多领域有着广泛的应用意义。相似性连接处理的数据类型一般包括字符串、集合、向量和图等类

学位

字符串相似连接编辑距离分布式计算Spark

面向STEP的产品信息本体可视分析研究与实现

随着计算机技术的不断发展和集成化趋势日益明显,企业的信息平台结构逐渐从客户/服务器方式向语义Web的方向发展。使用本体的概念来表达产品数据信息已经得到了验证并且产品

学位

语义可视STEPOWLHSM本体

基于密度聚类和投票判别的三维数据去噪方法

三维扫描技术被广泛使用在逆向工程、文物保护、工业生产、刑事侦查、三维传真等领域。点云数据就是指由扫描得到的以点的形式记录的数据,每一个点对应一个三维坐标。三维扫

学位

点云数据异常点检测基于密度聚类投票判别算法

基于NS2的NODV路由协议的改进研究

随着现代移动通信网络的发展进入了一个新阶段，移动通信网络除了满足用户的数据高速传输外，还需要未来的网络具有灵活性、适应性等特性。无线自组织网络(AdHoc)是一种自创造、

学位

Ad Hoc网络AODV路由协议拥塞跳数服务质量技术改进

社交网络中基于概率的可伸缩聚类算法研究

与本文相关的学术论文