在线社交媒体中的谣言识别研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:aini826611
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,在线社交媒体快速发展成为人们获取或分享信息的重要渠道,微博(如Twitter、新浪微博)更是成为传播速度最快的在线社交媒体之一。然而,社交媒体为信息传播带来便利的同时,也催生一些新的问题,最突出的是网络谣言的泛滥。谣言在开放的社交媒体环境中,内容无孔不入,传播如鱼得水,无时无刻不在侵蚀着网络空间。与以往口口相传的传播方式相比,借助社交媒体传播的谣言,传播速度更快、监测难度更大、影响范围更广、危害程度更深。既给社交媒体的有效利用与科学管理提出了严峻挑战,也影响了社会的和谐与稳定。因此,深入分析在线社交媒体中的谣言,揭示谣言的传播机制并掌握谣言的识别方法成为抑制谣言传播的先决条件,对于净化网络空间、提高社交媒体的有效利用具有广泛的现实意义。  然而,在线社交媒体中的谣言传播机制目前尚未得到充分地理解和掌握,有效的谣言识别方法还处于探索阶段,这主要归咎于以下的三个挑战:(1)传播机制分析的复杂性。谣言在社交媒体中的传播受多方面因素的影响,很难揭示其本质特征及其传播的基本规律;(2)识别模型的统一性。谣言内容往往具有多样性和迷惑性,很难对所有谣言建立统一、高效的识别模型;(3)早期识别模型的有效性。在线社交媒体中的谣言不同于传染病的传播,很难捕获谣言传播的动态过程中隐藏的特征或规律建立有效的谣言早期识别模型。有鉴于上述三个挑战,本论文定位于“在线社交媒体中的谣言识别”这一基础研究问题,具体包括以下三项内容:  第一,谣言与非谣言的传播机制与规律。本文以新浪微博为研究场景,从传播角度抽取并选择了谣言与非谣言的传播结构、传播用户、传播时序以及传播内容四类特征,进而采用实证对比分析的方法揭示了它们背后隐藏的一些特性和基本规律。例如,研究谣言与非谣言的传播结构发现,谣言的传播树高且窄,非谣言的传播树矮且宽,表明谣言更倾向于随时间纵向延伸,而非谣言则更倾向于横向扩散。这些规律的发现为谣言识别提供了依据,为构建谣言识别方法或模型提供了关键洞察。此外,本文也分析了谣言所属的领域以及它们在这些领域中的流行度。结果发现,谣言可谓无处不在,而且在与孩子相关以及与生活相关等领域具有很高的流行度。  第二,基于传播特征的谣言识别研究。本文利用机器学习方法将谣言识别看成二分类问题,依据谣言与非谣言传播机制的分析结果以及传播模式进行识别谣言。首先,本文使用两个数据集,从部分和整体两种粒度验证了分析传播机制所依赖特征的谣言识别效果。结果表明,传播特征对于谣言与非谣言有很好的辨别力。进而,利用传播特征与传播模式进行谣言识别。在大转发数上基于传播特征与传播模式的分类获得了很好的谣言识别结果,比基准方法高达0.919的准确率进一步提升了2.4%;在小转发数上,使用传播特征也获得了较好的识别效果,准确率比0.875提升了3.1%。因此,可以根据不同的情况选择谣言识别方法以提升谣言识别性能。最后,本文还使用5种不同比例的谣言与非谣言数据验证了在不均衡数据集上的谣言识别效果。结果表明,传播特征不但提升了基准方法谣言识别的准确率,而且使谣言识别的准确率分布更集中,不同比例间表现更平稳。因此,传播特征具有很好的鲁棒性。  第三,基于循环神经网络的谣言早期识别研究。在社交网络中,越早识别出谣言,越能为抑制谣言传播降低负面影响争取先机。因此,本项工作研究如何在信息传播的早期即识别其是否是谣言。谣言传播过程是一个时间序列过程,谣言的传播内容、传播用户以及传播结构三大要素及其传播机制决定了谣言的传播速度与广度。因此,本文利用谣言的传播内容、参与用户与传播结构构建了两个基于循环神经网络的谣言识别模型,即CUSLSTM和CUSMAXLSTM。CUSMAXLSTM模型在CUSLSTM的基础上结合了CNN的池化操作,它兼顾了LSTM长距离记忆与CNN的捕获局部信息到最终表达的优点。实验结果表明,两个模型在谣言的早期识别问题上都能获得很好的识别效果。这表明模型能够捕获谣言与非谣言传播过程中,传播要素背后隐藏的线索信号。  综上所述,本文以微博为背景,从分析谣言与非谣言之间存在显著特征的传播机制、基于完整传播过程的谣言识别以及基于循环神经网络的谣言早期识别三个方面探究了在线社交媒体中的谣言识别问题,发现了一组揭露谣言传播模式以及基本规律的特征,建立了两个谣言识别模型,尤其在模型中从新的角度利用传播用户与传播结构的动态特征,进一步提升了谣言识别的效果。
其他文献
合法引发序列是Petri网可达性问题的一部分,它是Petri网研究领域的一个重要研究课题,本文针对Petri网的一个子类——有界Petri网给出了一个判定合法引发序列算法。 本文给出
网络给人类带来了方便和快捷的同时,也带来了信息安全方面的风险。针对日益严重的网络安全问题,90年代,科学家们提出了自适应安全系统模型(PPDR模型),其中网络入侵检测系统(NIDS)
该文提出一种新的目标识别算法,它是把模板匹配思想和性能优异的思维进化计算结合起来,在CIEI976Luv均匀颜色空间上匹配.实验结果表明,新算法实现了平移不变、旋转不变、尺度
扫描文档图像已经成为电子政务中办公文档、数字图书馆中图书资料等媒体信息的主要表现形式,如何对其进行高比率压缩已成一个迫切需要研究的问题。本文作者提出了扫描文档图像
随着计算机网络越来越深入人们的生活、工作和学习,企业级的电子商务应用等高级应用正在成为一种强大的驱动力量,并引发了一系列新的观念、新的技术和新的产品。应用服务器则是
该文主要研究基于因特网的组合拍卖机制设计问题.因特网是一个分布式的计算网络,存在大量具有各自经济利益的代理(代理可以是网络用户也可以是计算机).过去,网络协议的设计者
学位
在该文中,我们研究和借鉴了现有的中英文全文检索技术,提出了实现蒙文单词全文检索的技术和方法,并初步实现了蒙文单词检索系统.在该文中,我们首先剖析了全文检索技术的理论
随着数据中心计算的不断发展,数据中心应用面临了不同的挑战。数据中心应用需要定制化的资源管理服务以适应应用的多样性和不断丰富的硬件资源。为了提升数据中心资源利用率、
近年来,我国移动通信事业经历了一个飞速发展的时期。随着我国移动通信网络规模的不断扩大以及各种通信业务的迅速增长,七号信令网在移动通信中发挥的作用越来越大,成为现代移动