论文部分内容阅读
随着互联网技术的快速发展,社交媒体越来越深入人们生活,普通用户成为了互联网上的内容的主要生产者,这些由普通用户制作的数据成为UGC(User GeneratedContent),UGC内容凭借其反应及时、传播快的特点,已经成为新闻的重要来源,但是由于其生产和发布的门槛低,缺乏有效监管,存在着大量虚假新闻,这些虚假新闻的广泛传播对网络秩序和社会稳定造成了很大威胁。在此背景下,本文研究了针对UGC新闻的可信度评估技术,并实现了一个UGC新闻认证系统。主要研究内容和成果包括: 1.明确定义了UGC新闻可信度评估的问题,按事件级和消息级两种任务划分构建两个真实UGC新闻数据集,基于该数据集,从内容、用户、传播三方面全面分析了虚假新闻的特性,证明了真假UGC新闻在统计信息上具有一定差异。 2.分别针对事件级和消息级两种任务设计有效的统计特征并进行特征选择,然后对比贝叶斯网络、支持向量机和随机森林三种分类算法,最终随机森林模型在事件级和消息级上分别得到88.2%和89.9%的准确率。通过对不同特征集上检测效果评估,证明了传播特征对区分真假新闻有最好的效果。同时本文设计了6个新的传播特征,在消息集新闻的实验中,新特征的加入为假新闻的召回率带来7.5%的提升。 3.提出了基于线索跟踪和新闻更新的在线UGC新闻认证框架,从架构层面保证一条UGC新闻线索能够在合适的时间得到认证分析,解决了实际在线认证中,由于在新闻初期相关数据较少而导致无法认证或认证结果不准确的问题。 4.基于上述方法,实现了一个UGC新闻认证系统,从系统实现角度介绍UGC新闻可信度架构流程,系统同时提供新闻内容展示、关键用户展示、传播展示等素材结构化展示模块,提高了系统决策的可解释性和系统的用户友好性。 综上所述,本文明确定义了UGC新闻可信度评估问题,按照事件级和消息级任务划分,构建两个真实的中文UGC新闻数据集,使用统计的方法,全面分析了虚假UGC新闻的特性。基于特性分析设计有效特征,并使用随机森林取得了很好的分类效果。同时,本文提出基于线索跟踪和新闻更新的在线UGC新闻认证框架来解决在实际在线认证中,由于认证时间早、相关数据少而导致无法认证或认证结果不准确的问题。最后本文实现了一个UGC新闻认证系统,该系统有很好的可解释性和用户友好性。本文的研究工作对UGC新闻可信度分析和挖掘工作有重要的理论意义和应用参考价值。