基于融合特征的微博虚假新闻识别

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:wangcx1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网与信息技术的迅猛发展,传统的信息传播媒介已无法满足人们对于即时信息的需求,依托网络的新媒体迎来了春天,在微博平台上,网民只需手指一划便可得到第一手资讯。然而,网络社交媒体平台很有可能成为虚假新闻滋生的温床,阻碍真实信息的传播,还有可能导致民众对当局政府的不信任,造成社会动荡。如何迅速有效地检测出社交平台上的虚假新闻,成为消除新闻误导、净化网络环境的重中之重。本文从新媒体社交平台入手,以微博新闻数据为研究对象,选取新闻文本内容为主要数据模态,构建基于词嵌入的微博虚假新闻识别模型。在此基础上结合虚假新闻话语分析,观察新闻创作者在文本、语境等维度的写作思路和写作习惯,提取出基于心理学文本分析的文本风格和心理情绪语言特征;在单一词嵌入模型的基础上丰富了微博新闻识别模型的输入维度,具有很好的现实意义。本文主要分为五个部分:第一部分阐述了本文的研究背景与意义、国内外虚假新闻识别的文献综述、主要研究内容与本文的创新点。第二部分介绍了文本预处理过程中使用到的分词、词向量化理论基础,同时介绍了常用于文本分类神经网络理论结构。第三部分介绍了本文使用的微博新闻数据集,对微博数据集进行描述统计,根据虚假新闻话语分析,提出文本风格和心理情绪共计20个语言特征,通过独立样本t检验比较不同类别新闻间各特征的差异性,按照文本预处理流程和社交平台文本特点进行新闻去重、去噪、分词和向量化,在单一特征的基础上,融合具有显著差异的语言特征和词向量特征。第四部分针对第三部分提出单一词嵌入模型和融合特征模型,实验表明融合特征模型具有最好的识别效果;在原始数据集以外,爬取近期微博的虚假新闻数据做稳健性检验,发现模型效果均较于原始数据集有所下降,但融合特征模型的识别效果显著高于其他模型。第五部分为总结与展望,总结出虚假新闻数据集的语言特征以及不同模型下的泛化效果,在数据集开发、模型适用领域和语言特征拓展等方面提出了相应期望。本文的主要贡献在于:(1)根据虚假新闻话语分析理论,结合语言探索与字数统计(LIWC)词典,利用统计特征将话语分析量化表示,进一步拓宽特征范围;(2)在传统LSTM模型的基础上,兼顾序列信息与词嵌入信息,提出了LSTM-FC框架,实验表明,相比于其他神经网络,连接LSTM-FC网络的虚假新闻识别模型结果效果最好;(3)提出了融合统计特征与词嵌入特征的识别模型,结果表明BERT-LSTMFC-LC-FNN具有最好的识别效果,且在稳健性检验中,相比单一词嵌入模型效果提升3.4%。
其他文献
党的十九届五中全会强调,促进高校毕业生就业是就业工作的重中之重。根据教育部发布的数据显示,2022年高校毕业生规模预计1076万人,同比增加167万,高校毕业生就业形势复杂严峻,就业工作任务艰巨。大学毕业生进入企业成为新员工,由于自我期望过高、难以适应工作环境、缺乏情感支持等原因难免产生失落、沮丧、焦虑等负面情绪,导致工作效率低下、离职率高,因此解决新员工负面情绪问题,提高工作效率,降低新员工离职
学位
公益事业作为社会保障的补充,它在一定程度上可以调节贫富差距,维护社会稳定、健康发展。随着信息技术的快速发展和网络的普及,催生和增强了公众的权力和责任意识,使得我国的公益力量不断发展。全国志愿者服务信息系统记录的实时数据显示,志愿者注册队伍在不断增加,志愿服务发展的环境也越来越好,但是我国公益参与的总人数和参与比例依然不高,英国慈善救助基金会最新发布的2021年世界捐助指数报告显示,中国参与公益的总
学位
当前企业社会责任的社会关注度显著提高,履行企业社会责任这一理念已在全球范围内达成共识,在这一背景下,越来越多的小微企业意识到履行社会责任的重要性,积极投身于社会责任的实践。“时间银行”社会工作服务项目是在新冠疫情背景下开展,致力于推动社区志愿者队伍建设的专业化、规模化发展,辖区单位、居民、社会组织、爱心企业和商户参与志愿服务,促进社区志愿服务健康、有序、长效地发展。小微企业和商户作为重要主体之一,
学位
志愿服务在基层治理中的作用愈发突出。近年来,企业志愿服务组织也逐渐受到了关注。以往研究中大多学者对企业志愿者进行了研究,虽然志愿服务组织有一定的发展,但是存在志愿服务缺乏组织制度规范、志愿者培训不足、志愿者激励不充分、服务开展缺乏专业性和持续性等问题。究其原因,主要在于企业志愿服务组织的内生动力不足,致使志愿服务质量难以提升。而在企业志愿服务组织培育过程中,社会工作有着有着丰富的专业知识和实务经验
学位
在我国经济高速发展和社会意识逐渐转变的背景下,女职工队伍越来越壮大。女职工是企业重要且不可缺失的一部分,在日常的工作生活中会面对许多问题、承受许多压力,这些问题可能来自于职场性别歧视、家庭关系、人际交往状况等,她们遇到的这一系列问题会给她们带来许多不良情绪和更大的压力,从而引发生理、心理等方面的诸多问题,长此以往,给女性职工的个人发展和企业的发展都会带来不利影响。对于女性职工个人而言,长时间受不良
学位
第一部分重度子痫前期患者不同脏器损伤与不良妊娠结局的相关性研究目的:分析重度子痫前期(Severe preeclampsia,SPE)患者不同脏器损伤与不良妊娠结局的相关性。方法:回顾性分析2015年1月至2018年12月来自全国4家医院的817例SPE患者的完整临床资料,其中发生单脏器损伤者为A组(553例),发生复合脏器损伤者为B组(264例),比较两组各种母胎不良结局发生率。采用多因素Log
学位
残疾人就业是指在法定工作年龄内有就业需要,从事有偿活动的残疾人。全国贫困人口中,残疾人约281万人,占10%,贫困残疾人占据了总贫困人口不小的比例,而且呈逐年上升的趋势,因此残疾人就业问题引起了社会的广泛关注。目前对残疾人就业问题的研究主要集中在阐述现状和制定政策上,对残疾人自身缺乏关注。本文将关注残疾人自身,在增能理论的指导下,通过个人、家庭、企业、社会等层面的干预,提高残疾人的就业竞争力,促进
学位
居民消费是促进国民经济发展的三驾马车之首,而消费结构又是影响国民经济结构调整和经济发展水平向高质量转化的关键所在。习近平总书记在二零二零年的中共中央政治局全会中提出,要重视并积极推进国内的经济循环,而其中一项关键着力点就是形成系统完备的内需体系,使城乡居民消费变成推动国民经济发展的主力量。这就表示要着力打通国内生产、分发、流动、居民消费各环节,进一步适应消费升级需求。因此,如何进一步促进居民消费及
学位
近年来随着我国计算机技术的高速发展以及互联网行业的崛起,对传统银行业带来了较大冲击,促使银行业进行数字化转型,而金融科技是其内部转型的重要动力之一,也成为决定各家银行在金融市场中竞争力水平的重要因素。目前各家银行纷纷开始角逐金融科技赛道,希望能够减少用户向互联网企业的流失,加快自身内部IT架构转型,拓宽业务渠道,推出新型数字化金融产品。因此如何确立正确的金融科技发展方向达到提高服务质量和运营效率的
学位
事件抽取是信息抽取三大任务之一,通过将文本中事件的信息识别出来,并且把非结构化文本的事件信息用统一结构集成呈现出来,可有效地从海量的非结构化文本数据中获取关键信息,其模型效果的好坏会影响到知识图谱、实体抽取、关系抽取等下游自然语言任务的性能。目前,对于商品新闻领域的事件抽取研究较少,为促进这一领域的发展,本文主要是基于CNC数据集来展开事件抽取模型的研究。本文旨在探究事件检测和论元识别两个事件抽取
学位