在线社交网络数据挖掘

来源 :清华大学 | 被引量 : 0次 | 上传用户:husong724
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,以微博客为代表的在线社交网络发展迅猛,层出不穷的社交网络深入人们生活的方方面面,针对在线社交网络的挖掘和分析也已经成为学术界的研究热点。本文主要研究构建高效稳定的社交网络数据收集架构,以及对收集到的数据进行可视化分析和数据挖掘。首先,本文设计并实现了一种Master-Slave结构的在线社交网络数据收集架构。该架构同时利用多台计算机,具有易部署、方便扩展和稳定性高的特点,有效地克服了社交网络数据接口调用的限制。系统自从部署以来已经稳定运行近两年,累计收集到新浪微博1.6亿条用户资料,69亿条用户关系,2,000名核心用户约1,000万条微博,以及连续2年的每日热点话题数据。并在此基础上,开发了底层读写类、图数据处理和文本数据处理等接口。其次,本文提出了一种新的社交网络结构可视化方法,并对新浪微博的数据进行了可视化分析。针对大规模社交网络结构可视化问题,本文提出了一种基于关注者交集比例和谱聚类的新型可视化方法,该方法利用幂律网络的特点,将用户分为核心用户和普通用户并设计了不同的可视化算法,从而能够在保持网络结构信息的前提下,对数以亿计的用户和数以十亿计的关系进行可视化。然后利用新浪微博的数据对微博用户地理位置分布、微博普及率与社会发展指标的关系、地区之间的连接关系以及微博网络结构进行了可视化分析。最后,本文提出了一种新的网络结构平衡性度量方法,并对比挖掘了新浪微博和Twitter两大社交网络的网络结构。本文提出了一种新的能够度量用户关系和整个社交网络平衡性的方法,边平衡度。然后对比分析了新浪微博和Twitter的度分布、微博活跃度分布、度与微博数相关性、平均路径长度以及用户排序等基本网络结构特征。另外重点挖掘了两者在关注倾向上的差异,从朋友关系的同质性、关注关系分布、网络同配性和边平衡度四个方面进行了对比分析,结果表明,新浪微博用户关注倾向的等级层次性比Twitter用户更加明显,这是用户文化背景的差异在社交网络中的表现。本文设计和实现的在线社交网络数据收集架构具有实际工程意义,而针对社交网络的可视化分析和数据挖掘揭示了其结构特征、与现实生活的差异和联系、以及用户的文化和地域背景对其在社交网络上行为的影响,具有重要的科研价值。
其他文献
基于直升机"地面共振"临界状态条件,研究了球柔性旋翼采用液压阻尼器和液弹阻尼器的需用阻尼,并基于相关试验数据对AC313型直升机旋翼安装两种阻尼器的阻尼器载荷进行了对比
公平与效率始终是行政程序法追求的价值, 对两者的不同选择表现为行政程序法不同的目标模式。我国在依法行政的背景下, 行政程序立法应选择什么样的目标模式? 作者通过公平与
为了更为全面地了解王国维的思想和行为,从其所受的教育、个人性情、人生际遇和所处清末民初的时代局势等方面进行深入分析,可以清楚地看到王国维走向保守主义的原因:所受教
城市个性是一种差异,差异产生鲜明的文化,文化形成特色,特色创造吸引力。城市建设的个性化源于政治、经济和文化的长期发展而形成,如北京的官气、西安的古气、上海的洋气、广
利用矿山日处理 150 t原矿的选矿厂 ,以小型试验研究为依据 ,进行了浮选分离汞锑中降铬工艺的工业试验研究。经连续运转 ,最终获得了稳定的汞锑分离工业生产指标。本次工业试
每个国家都有自己的历史背景、风俗习惯、民族特征,其中英国人以高贵和实用著称。这种精神在近两百年的英国下午茶文化中体现得尤为明显。一杯味道浓郁、颜色深沉的英国红茶
2014年6月22日,中国与哈萨克斯坦、吉尔吉斯斯坦联合申报的"丝绸之路:长安——天山廊道的路网"顺利通过评审,成功列入世界遗产名录.消息传来,无不令人拊髀雀跃.这项遗产中"敦
图书资料员的信息素养水平对图书信息资源的开发与利用产生极大影响。图书资料员的信息素养由信息意识、信息道德、信息知识和信息能力等四个基本要素组成。目前探讨培养图书
<正> 自沉殉清 离开“南斋”的罗振玉和王国维,仍然“奉诏”而动。 1925年2月,王国维奉溥仪之诏,接受了清华学校国学研究院教授之聘。早在1924年秋,清华大学拟参照宋元以来的
目的:探讨可来福接头在PICC置管中的应用效果与护理方法。方法:将我院2013年10月~2014年2月收治的60例PICC置管的肿瘤患者随机分为观察组和对照组,对照组采用常规肝素帽接头,