论文部分内容阅读
社交网络已经成为大众发布信息的一种新渠道,并得到越来越多用户的关注和使用。社交网络的流行和普及,使得基于社交网络的信息数量呈现爆炸式的增长,然而信息质量却没有得到相应的提升,各种垃圾信息尤其是谣言等虚假信息弥漫着整个社交网络。社交网络上谣言的传播给人们的生活和社会的发展带来了危害,为了减少以及避免谣言带来的不良影响,对谣言进行自动识别是目前社交网络平台亟需解决的问题。本文分别从消息内容、发布用户以及消息流行度三方面对社交网络当中的谣言自动识别问题进行研究,论文的主要贡献包括: (1)提出了基于群体和主题的流行度预测模型,可满足在线系统对预测准确性和时间复杂度的要求,为谣言识别中流行度特征的分析与提取奠定基础。 谣言消息往往伴随很高的流行度,在流行度趋势上有较大的波动性,因此能准确预测消息的流行度及趋势有助于提升谣言识别的效果。然而现有的流行度预测方法不能很好地解决模型构建过程中的特征选择问题,导致预测准确性差、计算复杂度高,无法实现流行度的在线预测。为了解决上述问题,针对影响力相当的用户群体以及内容相近的主题下不同消息在流行度传播趋势上具有相似性的特点,本文根据影响力相似度对用户进行聚类分析获取用户的群体信息,使用主题模型推断消息的主题分布,并通过统计各个群体和主题下的消息转发量的整体变化趋势,分别构建基于群体和基于主题的预测模型;最终通过叠加的方式将两模型进行融合。实验证明,本文提出的模型在预测性能上显著优于当前代表性方法,在消息最终流行度的预测结果上,预测误差MAE和RMSE比基于传播深度和用户链接密度的方法分别降低了0.1233和0.1316,预测准确率提高了7.51%。 (2)提出了基于内容和用户特征的谣言识别方法,引入内容和用户的深层隐含特征,有效地提高了识别的准确率。 现有用于谣言识别的内容和用户特征中,主要基于内容的浅层文本特征和用户的基本属性特征,这些特征对于谣言识别的区分度不大。针对这一问题,本文结合社交网络中谣言的特点,引入内容和用户的隐含新特征。内容方面,在前人提出的浅层文本特征的基础上,引入了热点倾向性特征、内外一致性特征、情感极性特征以及评论的观点倾向性特征;在用户方面,根据用户的属性和历史微博信息,提取用户的社交特征、观点转发特征和微博匹配度特征,并结合用户的其他基本属性特征,应用于谣言识别。实验结果表明,本文提出的内容和用户特征微博谣言识别方法比主流方法的准确率和召回率,分别提高了7.1%和6.3%。 (3)提出了一种融合流行度的多特征融合谣言识别方法,首次将消息流行度及流行度趋势特征应用于谣言识别问题,识别准确率比已有方法有显著改进。 消息的内容和用户特征无法反映出消息传播过程中的流行度变化趋势,而谣言的这一特点明显区别于一般消息。为此,本文创新地从流行度出发,引入消息流行度的波动性和差异性特征,并融合消息的内容和用户特征,共同应用于微博谣言的识别。实验证明,在具有一定流行度的数据集上,多特征融合的谣言识别效果最好,比当前主流方法在识别准确率和召回率上分别提高了17.1%和18.3%,具有重要的实际意义。