聊天室社会网络挖掘研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:lianxirenll520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着工nternet的飞速发展,网络在线聊天已经迅速发展成为最普遍的网络交流方式之一。在线聊天具有的开放性(无需注册)、实时性、多话题交错等特点在使聊天室给用户提供了极大的方便的同时,也使得聊天室可能被恶意用户利用来达到他们的特殊目的。因此,对聊天室进行监控已经成为一个非常重要的现实需求。社会网络挖掘旨在挖掘出聊天室中多用户之间的交流关系,是聊天室监控的一个研究重点。其难点在于聊天数据中没有能直接反映用户间交流关系的信息,因此只能根据其它信息进行间接挖掘。 本文首先对Paul Mutton的启发式规则挖掘方法进行改进,提出了基于改进规则的社会网络挖掘方法。该方法修正了Paul Mutton提出的Direct Addressing ofUsers规则,并提出了间隔响应规则来进一步补充Paul Mutton的方法的不足。实验显示,该方法能够有效的提高社会网络挖掘的准确性。 无论是Paul Mutton的方法还是我们的基于改进规则的方法,都没有使用聊天数据中的一个重要特征——内容特征。因此,本文借鉴文本挖掘中的聚类技术,提出了基于内容相似性的社会网络挖掘方法。实验表明,该方法也能有效的挖掘出聊天室中的社会网络。 为了进一步提高社会网络挖掘的准确性,本文结合基于改进规则的方法和基于内容相似性的方法,提出了结合内容相似性和时序信息的社会网络挖掘方法。该方法的基本思想是通过充分利用聊天数据中的各种特征信息来提高社会网络挖掘的性能。本文提出了两种结合方法:一种是简单的两层式结合方法,该方法首先使用改进的启发式规则初步推断出聊天室的社会网络,然后使用基于内容相似性的相似用户聚类技术来进一步补充并最终挖掘出准确的社会网络:一种是基于AdaBoost算法的结合方法,该方法使用AdaBoost算法来训练多个弱分类器,然后综合各个分类器的结果来判定用户之间是否存在交流关系。与前两种方法相比,结合内容相似性和时序信息的方法在挖掘性能上有明显提高。 最后,本文采用Spring Embedder force模型来绘制挖掘出的社会网络,实现了社会网络的可视化,能够有效的帮助分析员了解聊天室中的社会网络结构,用户之间的交流关系,信息在聊天室中的传播情况等重要信息。
其他文献
电子政务作为国家信息化战略的重要组成部分,其安全保障事关国家安全和社会稳定。随着当前电子政务建设的深入,如何保证电子政务系统的信息安全,实现电子政务中业务处理的安全性
随着Internet的飞速发展,网络聊天室以其操作简单、方便快捷、私密性好等优点已经迅速发展成为最普遍的网络交流方式之一。它在为用户带来便利的同时,也为一些别有用心的人进行
下一代互联网的标准网络层协议采用IPv6已成定局,基于IP网络的存储集群是构造高性价比海量存储系统的基本手段。随着IPv6的发展与推广,研究基于IPv6的存储集群能推动网络存储
图象分割的目的是将原始图象划分为一系列有意义的区域或提取图象中感兴趣的区域(region of interest,ROI)。目前主要的分割算法划分为依赖边界的分割与依赖区域的分割,本文讨
便携式多媒体导航播放器(Portable Multimedia Navigator)已逐渐成为数码影音领域中便携式设备市场的主流。它结合了PMP(Portable Multimedia Player)的便携式娱乐音视频播放
基于智能体的电子商务是电子商务发展的必然趋势,基于智能体的电子商务自动协商研究是基于智能体的电子商务关键技术之一。在电子商务协商领域的研究中,网上拍卖以其特有的公开
在许多印刷和出版的应用中,基于对版权的保护和认证,需要将某些特征信息隐藏在半色调图像中。因此,对于半色调图像数字水印技术的研究就有着重要的意义。半色调图像数字水印
当前动态水印是数字水印领域一个重要的研究方向,其中包括音频、视频和图像等多种载体类别,由于它们算法实现都比较相似,冗余信息量非常大,非常有利于水印的加载,在市场运用中获得
CPU芯片应用验证是CPU设计过程中保证其可靠性的重要环节。随着芯片规模不断扩大,复杂度不断提高,验证成为现代化芯片设计中的一个重要瓶颈。本课题旨在设计SM8260应用验证硬件
随着互联网的迅猛发展,3G牌照即将发放,无线通信产品将为人们提供速率高达兆字节/秒的宽带多媒体业务,移动智能设备将变成集语音、图像、数据传输等诸多应用于一体的通信终端,这