论文部分内容阅读
随着工nternet的飞速发展,网络在线聊天已经迅速发展成为最普遍的网络交流方式之一。在线聊天具有的开放性(无需注册)、实时性、多话题交错等特点在使聊天室给用户提供了极大的方便的同时,也使得聊天室可能被恶意用户利用来达到他们的特殊目的。因此,对聊天室进行监控已经成为一个非常重要的现实需求。社会网络挖掘旨在挖掘出聊天室中多用户之间的交流关系,是聊天室监控的一个研究重点。其难点在于聊天数据中没有能直接反映用户间交流关系的信息,因此只能根据其它信息进行间接挖掘。
本文首先对Paul Mutton的启发式规则挖掘方法进行改进,提出了基于改进规则的社会网络挖掘方法。该方法修正了Paul Mutton提出的Direct Addressing ofUsers规则,并提出了间隔响应规则来进一步补充Paul Mutton的方法的不足。实验显示,该方法能够有效的提高社会网络挖掘的准确性。
无论是Paul Mutton的方法还是我们的基于改进规则的方法,都没有使用聊天数据中的一个重要特征——内容特征。因此,本文借鉴文本挖掘中的聚类技术,提出了基于内容相似性的社会网络挖掘方法。实验表明,该方法也能有效的挖掘出聊天室中的社会网络。
为了进一步提高社会网络挖掘的准确性,本文结合基于改进规则的方法和基于内容相似性的方法,提出了结合内容相似性和时序信息的社会网络挖掘方法。该方法的基本思想是通过充分利用聊天数据中的各种特征信息来提高社会网络挖掘的性能。本文提出了两种结合方法:一种是简单的两层式结合方法,该方法首先使用改进的启发式规则初步推断出聊天室的社会网络,然后使用基于内容相似性的相似用户聚类技术来进一步补充并最终挖掘出准确的社会网络:一种是基于AdaBoost算法的结合方法,该方法使用AdaBoost算法来训练多个弱分类器,然后综合各个分类器的结果来判定用户之间是否存在交流关系。与前两种方法相比,结合内容相似性和时序信息的方法在挖掘性能上有明显提高。
最后,本文采用Spring Embedder force模型来绘制挖掘出的社会网络,实现了社会网络的可视化,能够有效的帮助分析员了解聊天室中的社会网络结构,用户之间的交流关系,信息在聊天室中的传播情况等重要信息。