基于文本结构的虚假信息检测研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:conansmh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展和普及,网络媒体平台已经成为人们快速获取和共享信息的重要渠道。然而,媒体平台在给人民生活带来便利的同时也成为虚假信息产生与传播的重灾区。网络虚假信息具有种类繁多、数据量大、迷惑性强等特点,单纯依靠人工检测效率极低。因此,如何在信息发布早期准确、快速的检测虚假信息是亟待解决的关键问题。目前虚假信息检测的相关工作主要以信息文本、传播结构和用户画像作为研究对象。其中,基于传播结构和用户画像的方法面临数据采集受限、数据缺失以及早期检测困难等问题;基于文本的检测方法最直接、便利,有利于实现虚假信息的早检测。现有基于文本的检测工作大多聚焦于文本中词或句子的语义表示,忽略了文本内在结构关系对语义理解的重要作用。而文本是由词、短语、句子、段落等不同粒度的文本单元按照一定关系搭建起来的有序结构,不同结构反映了内容主体的因果、顺承、转折等逻辑信息,表达出不同的语义。因此,将文本结构关系引入将有助于虚假信息的准确检测。基于此,本文从理论研究和系统实现两方面,对基于文本结构的虚假信息检测展开研究,主要工作和贡献如下:(1)提出一种基于句子的虚假信息早期检测模型Sem Seq4FD。该模型以文本中的句子作为基本计算单元,通过对句子间的全局语义交互关系结构、局部相邻上下文结构和全局顺序结构特征进行计算,以提升虚假信息检测质量。具体而言,首先构建以句子为节点的全连接完全图,采用图卷积神经网络捕捉句子间的全局语义关系,并使用自注意力机制强调不同句子的重要性,获得了全局句子表示;然后,考虑到相邻句子之间的局部上下文对文本表达有重要作用,采用文本卷积神经网络得到局部句子表示;最后,将全局句子表示和局部句子表示拼接后形成增强型句子表示,建立LSTM网络模拟全局阅读顺序对增强型句子表示进行融合,生成最终文本表示用于虚假信息检测。在中文和英文数据集上进行跨来源和跨领域的实验,结果表明本模型不仅能够有效提升虚假信息早期检测准确率,而且具备较强的泛化能力和鲁棒性。(2)提出一种基于基本语篇单元的虚假信息早期检测模型EDU4FD。基本语篇单元(Elementary Discourse Unit,EDU)是一种介于单词和句子粒度之间的文本单元,通常表现为从句或短语,它能比单词表达出更连贯的语义,比句子表达出更细节的信息。本模型以EDU为计算单元,从EDU序列结构和EDU依存图结构两个视角进行计算以提升虚假信息检测效果。对于前者,利用文本卷积神经网络建模连续EDU之间的连贯性和语义一致性,得到基于序列的EDU表示。对于后者,首先提取出文本中的修辞关系,搭建以EDU为节点,多种修辞关系为边的EDU语篇依存图,该图结构能够表达出位置不相邻、但语义上相互依存的EDU之间的长距离依赖关系,描述了全局叙事逻辑,有利于传达文本主要思想;然后,建立关系型图注意力网络得到基于图的EDU表示。最后,将基于序列的EDU表示和基于图的EDU表示拼接后输入门控循环单元与全局注意力机制的融合网络,根据原文顺序整合重要EDU表示以得到文本的增强表示,进而完成虚假信息检测。在多个跨来源数据集上的实验结果表明,与基线模型相比,本模型表现出更优秀的检测准确性和稳定性。(3)基于本文所建立的模型,设计并实现了一个在线虚假信息检测系统。该系统是一种方便的浏览器插件,在任意页面选中文本即可快速检测;可以兼容中文、英文两种语言;具有虚假信息实时检测、用户交互反馈和模型因果解释三大功能,支持模型自学习、自修正;具有用户友好的可视化界面。在中英文真实场景中进行应用测试,表明本系统具有较强的实用性和推广价值。
其他文献
石墨烯凭借其高强度、高传导、化学稳定以及轻质等特性,在结构-功能一体化镍基复合材料的开发方面显示出了巨大的应用前景。从目前的研究进展来看,石墨烯一方面能够形成有效的载荷传递、晶粒细化和弥散强化效应,从而改善复合材料的模量和力学强度;另一方面,大尺寸二维石墨烯片所形成的裂纹桥接、石墨烯的拨出、裂纹扩展阻碍、晶粒桥接等增韧效应均能进一步改善镍复合材料的塑性变形能力和断裂韧性。因此,石墨烯增强相加入Ni
学位
人类对于能源的需求量随着社会经济与科技的发展与日俱增,不可再生能源的损耗量越来越大,由不可再生能源带来的环境污染问题越来越严重,大力发展清洁能源实现“碳达峰、碳中和”目标非常重要。世界各国已将太阳能作为大力发展绿色清洁能源的重要研究方向。随着太阳能光伏电站的发展,加强光伏电站的故障预警能力对于保障光伏电站的安全、高效运行和提高维保人员的工作效率至关重要。本文开发了一套太阳能电池板智能故障诊断系统,
学位
甲状腺结节是一种临床常见病症,B型超声技术是甲状腺结节的主要检查方法,甲状腺影像报告与数据系统(TI-RADS)提供了一套超声征象描述词典以及定性评价方案,是医生在临床诊断时的重要参考标准。甲状腺结节的评估通常依赖于放射科医生的经验,而且很耗时。计算机辅助诊断(CAD)可以提供客观的建议,减轻医生的负担。但在以往的研究中提出的诊断模型往往只是简单地给出结节的良性或恶性预测,医生无从得知模型决策的依
学位
荧光粉转换白光LED具有高能效、低成本、长寿命等优势,广泛应用于照明领域,提高荧光粉转换白光LED的光效一直是该领域的研究热点。为了对白光LED的高性能封装进行设计优化和制备,采用模拟仿真以及实验测试相结合的方式,对LED芯片封装进行研究分析,采用了特制支架和双芯片封装,提高灯珠光效,在此基础上,改进了荧光粉涂覆工艺,提高了荧光粉激发效率,整体提高LED光效约6%,且研究了远程荧光粉与芯片的距离变
期刊
农业是国民经济的重要基础,农业生产关系到国计民生与社会稳定等重要问题。快速而准确地获取农作物种植面积可以为相关部门提供及时、准确的农情信息,对制定相应的农业政策和促进我国精准农业的发展具有重要的意义。遥感影像由于其具有覆盖范围广、易获取等特点,被广泛应用于农作物种植面积的提取。目前对遥感影像农作物种植面积提取采用传统方法居多,耗时费力,难以提取影像丰富特征,精度较低。深度学习以其启发式的学习策略和
学位
在互联网的浪潮中,人们对网络的依赖日益增加,社交媒体也随之快速发展,凭借其海量的信息和高效的传播速度为人们生活带来了巨大的影响。在社交媒体上,用户是主体,内容是信息传播的载体,用户的身份信息在一定程度上代表着其发布内容的可信度。但是,随着社交平台上用户数量与信息规模的增加,谣言问题也日趋严峻,这些谣言的产生与传播离不开异常用户的推波助澜,为社交平台的可用性和安全性带来了巨大的负面影响,造成了很多严
学位
<正>近年来,随着欧洲对美国“回归”热情退潮,德法等国强化“战略自主”呼声渐高,美欧在经贸领域的“结构性分歧”日益凸显,尤其是围绕产业竞争、市场争夺、规则制定、政策协调等方面的矛盾和争端呈现出不断加深的态势。综合分析,考虑到历史纠葛和现实利益等原因,美欧经贸领域“结构性矛盾”短期内得到实质性改善的可能性并不大。
期刊
蒸发(Evaporation)过程直接或间接影响着气候变化和农业生产。农业生产主要依赖于对现有水资源的有效利用,特别是易干旱、干旱、半湿润和半干旱等缺水地区。蒸发量的精确预测对合理开发利用水资源、旱涝变化趋势研究和农作物灌溉用水量的估算具有十分重要的意义。蒸发皿蒸发量(Pan Evaporation)是衡量蒸发量大小的重要指标,是有时序特征的数据对象,有特定的时间间隔,具有数据量大且数据结构复杂的
学位
为进一步实现绿色节能的运营理念,国内已有多家运营单位对新车选型、既有线车辆改造工作选用永磁牵引系统代替传统异步牵引系统。以哈尔滨地铁2号线车辆永磁牵引系统为例,对永磁与异步牵引系统的控制原理、选型配置、牵引性能等方面进行介绍,并结合牵引能耗、再生能耗的运营数据,对哈尔滨地铁2号线车辆永磁和异步牵引系统能耗情况进行对比分析,并阐述永磁牵引系统的技术优势、经济效益及未来的发展趋势,以期为同类型系统选型
期刊
量子导引作为一种不同于量子纠缠、量子关联的量子特性,被广泛地应用于各种量子计算、量子信息任务当中,例如量子信道鉴别、量子密钥分发等等。作为一种重要的物理资源,该量子特性一直被人们所广泛深入地进行研究,其中一个重要的研究内容就是如何判定任意量子态的量子可导引性。对于任意量子态的量子可导引性判定目前主要的处理方法是利用理论定义式进行判定,该方法强烈依赖于测量方式以及测量个数的选择,致使该方法判定过程复
学位