基于新浪微博的UGC新闻可信度评估方法及系统

来源 :东北大学 | 被引量 : 0次 | 上传用户:xinmo2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,社交媒体越来越深入人们生活,普通用户成为了互联网上的内容的主要生产者,这些由普通用户制作的数据成为UGC(User GeneratedContent),UGC内容凭借其反应及时、传播快的特点,已经成为新闻的重要来源,但是由于其生产和发布的门槛低,缺乏有效监管,存在着大量虚假新闻,这些虚假新闻的广泛传播对网络秩序和社会稳定造成了很大威胁。在此背景下,本文研究了针对UGC新闻的可信度评估技术,并实现了一个UGC新闻认证系统。主要研究内容和成果包括:  1.明确定义了UGC新闻可信度评估的问题,按事件级和消息级两种任务划分构建两个真实UGC新闻数据集,基于该数据集,从内容、用户、传播三方面全面分析了虚假新闻的特性,证明了真假UGC新闻在统计信息上具有一定差异。  2.分别针对事件级和消息级两种任务设计有效的统计特征并进行特征选择,然后对比贝叶斯网络、支持向量机和随机森林三种分类算法,最终随机森林模型在事件级和消息级上分别得到88.2%和89.9%的准确率。通过对不同特征集上检测效果评估,证明了传播特征对区分真假新闻有最好的效果。同时本文设计了6个新的传播特征,在消息集新闻的实验中,新特征的加入为假新闻的召回率带来7.5%的提升。  3.提出了基于线索跟踪和新闻更新的在线UGC新闻认证框架,从架构层面保证一条UGC新闻线索能够在合适的时间得到认证分析,解决了实际在线认证中,由于在新闻初期相关数据较少而导致无法认证或认证结果不准确的问题。  4.基于上述方法,实现了一个UGC新闻认证系统,从系统实现角度介绍UGC新闻可信度架构流程,系统同时提供新闻内容展示、关键用户展示、传播展示等素材结构化展示模块,提高了系统决策的可解释性和系统的用户友好性。  综上所述,本文明确定义了UGC新闻可信度评估问题,按照事件级和消息级任务划分,构建两个真实的中文UGC新闻数据集,使用统计的方法,全面分析了虚假UGC新闻的特性。基于特性分析设计有效特征,并使用随机森林取得了很好的分类效果。同时,本文提出基于线索跟踪和新闻更新的在线UGC新闻认证框架来解决在实际在线认证中,由于认证时间早、相关数据少而导致无法认证或认证结果不准确的问题。最后本文实现了一个UGC新闻认证系统,该系统有很好的可解释性和用户友好性。本文的研究工作对UGC新闻可信度分析和挖掘工作有重要的理论意义和应用参考价值。
其他文献
随着电子商务支付系统的发展,安全问题显得尤为重要.该文研究了CORBA安全服务规范和安全电子交易协议的有关内容.在此基础上,针对电子商务支付系统的实际要求,提出了安全平台
管理信息系统的建设是现代企业发展的必由之路。然而在国内企业,特别是中小型企业中却没有引起足够的重视,在信息化建设方面与国外同行业相比,有着较大的差距。目前,我国已经加入
该文应用遗传学和进化生物学的理论和方法对遗传算法进行了研究.在三个方面对遗传算法进行了改进: 1.应用生物学的理论及实验结果指出,生物对于选择的响应大部分是以已经存在
划分问题(PAR)是经典NP-hard类问题,是6个基本NPC问题之一,也是典型的数问题,且具有拟多项式时间算法.该文利用一种新方法即平衡技术来解答划分问题.我们仅对所有的平衡态进行
社交网络即SNS,作为Web2.0的技术产物之一,已经成为人们在互联网上传播信息、沟通交流的主要平台。它的主体是用户和用户之间的相互关系,通过各种行为对这种用户关系进行维系
近年来采用分布式计算进行研究与开发方兴未艾,国内许多开发厂商、科学工作者纷纷投身于这方面的工作。本文以作者于2001年9月到2002年9月参与湖南邮政中间业务平台的开发工作
近年来,随着各类新型社会媒体的快速发展,包含用户与用户之间的社交行为记录的数据积累呈现爆炸性增长,这为研究大规模的人类交互和集体行为提供了机会。本文所研究的社区发现(Co
该文通过对开放性体系结构和实时系统的研究,结合电力系统对EMS和RTMMI的需求,设计并实现了CC-2000开放式EMS/DMS支撑平台实时人机交互系统.该系统应用Java的基于Web的三层体
当前,国内加油站普遍存在加油设备落后和加油管理不善的缺陷。这样不仅给加油用户带来诸多不便,而且也不利于加油站的经营管理。本文针对这一问题,首先介绍了计算机管理网络系统
该文研究了保障网络QoS的策略,分析了Intserv和Diffserv的优缺点,对如何融合Intserv和Diffserv的问题阐述了自己的见解和观点.在研究网络业务流特性的基础上,通过构建网络业