论文部分内容阅读
如今,社交网站已经成为人们网络沟通的重要方式。然而因为开放性和便利性,且相较其他网站门槛比较低,社交网站成为谣言滋生和广泛传播的最佳平台。谣言通常是不实的信息,容易引起人们社会恐慌的情绪,对社会的健康发展和国家进步非常有害。谣言检测是一个热门的研究课题,这项技术广泛应用于各种社交网站,如Facebook、Twitter和Weibo。现有的谣言检测技术主要分为两类:一类是传统的机器学习方法,如基于用户、内容和传播特征的支持向量机SVM;另一类是神经网络模型,如卷积神经网络CNN,循环神经网络RNN,长短期记忆网络LSTM。本文结合传统特征检测和神经网络检测的优点,提出了一种新的特征变化提取框架作为谣言检测模型。该框架可以提取本文定义的动态特征的变化信息,同时,本文改进了特征选择算法mRMR(maximum Relerelevance Minimum Redundancy),获得了最优的基础特征集合,并且融入到该框架之中。与相关研究相比,本文提出的谣言检测模型在两个谣言数据集上取得了较好的识别效果。同时,该模型对谣言的实时检测也有很好的效果。本文主要研究内容和取得的研究成果如下:(1)基于快速滤波器特征选择算法FCBF(Fast Correlation-Based Filter),提出了改进的mRMR算法。该算法一方面通过计算特征互信息来降低谣言基础特征间的冗余性和相关性,另一方面基于FCBF算法边删除边选择的特性,来改进原生mRMR算法得到最优的谣言基础特征集合。实验表明,在选取的两个真实的谣言网络数据中,改进后的mRMR特征选择算法获得的特征集合相较于原始特征集合,有更好的谣言检测效果。(2)基于谣言传播网络对时间敏感的特点,设计了三个谣言动态特征,分别为考虑时间相关性的谣言文本情感度、谣言文本质疑度、谣言符号异常度。上述特征从不同方面来量化谣言传播过程中的敏感值,以此丰富特征集合携带的信息。在相关数据集上验证了其有效性,同时提高了谣言实时检测的能力。(3)基于传统的机器学习谣言检测和目前主流的神经网络谣言检测各自的优缺点,提出基于时间序列的动态特征变化提取框架。该框架不仅考虑谣言传播特点和捕获时间敏感信息的动态特征,同时加入了谣言基础特征最优集合。在真实的谣言网络数据集中进行了一系列的实验,结果表明该框架在检测谣言任务中具有很好的效果。