论文部分内容阅读
近年来,网络社区日益普及,其受到越来越多的人的关注。网络社区可以被看作一种信息系统,其中任何人都可以发表内容表达自己的观点,例如BBS、社交网络以及微博。网络社区的最基本特征是用户与用户之间的自由互动,其广泛发展开辟了很多新的研究问题:1)用户的交互数据被定义和嵌入在预先定义的数据结构中(这些数据结构是由网络社区站点自身提供的),如何完整准确的提取用户的交互信息;2)由网络社区衍生出的交互网络的拓扑特征如何?以及它们的演化模型和社区结构如何?3)网络社区中的社会交互既包含积极关系(好友关系),又包含消极关系(敌对关系),基于一个给定的话题,如何预测一个用户对另一个用户的当前态度;4)网络社区中,一些用户使用多个用户名或将自己伪装起来(通常被称为“网络马甲”)与其它用户沟通,如何能自动识别这些“网络马甲”?本文根据网络社区中复杂的用户交互信息,构建相应的用户交互网络,并研究交互网络的拓扑性质、演化模型、社区结构及网络中用户间的当前态度预测,在此基础上,提出一种自动检测“网络马甲”的算法。其主要创新点如下:1)提出一种网页内容抽取方法,该方法采用模糊关联规则标记网页正文行,利用滑动窗口技术选择正文块,可以有效抽取网络社区的用户交互数据;2)构建兴趣网络、语义网络及相似观点网络模型,进而提出一种基于“最近更新时间”概念的网络演化模型,可以有效模拟网络社区的“小世界”和“无尺度”特性;3)提出了一种基于博弈论的用户交互行为预测方法,并据此给出了两种用户在线社会属性的定义,可对网络社区用户进行有效分类;4)设计了一种并行模块度优化算法来挖掘网络社区中潜在社区,并结合用户身份识别和网络社区划分技术,提出了一种“网络马甲”自动识别方法。