【摘 要】
:
随着网络社交的普及,网络谣言会对社会造成非常大的影响。如何准确识别网络社交平台上的谣言对维护社会的秩序显得尤为重要。现阶段对于网络谣言主要是通过传统的机器学习方法或基于深度学习的模型进行检测,这些方法受评论的指向性问题和因序列过长导致的特征不完整问题的影响,对于网络谣言的判别还未能达到比较高的准确率。本文针对上述问题提出了网络谣言检测中相应的改进方法,并使用预训练模型进行微调来加快模型的收敛,在一
论文部分内容阅读
随着网络社交的普及,网络谣言会对社会造成非常大的影响。如何准确识别网络社交平台上的谣言对维护社会的秩序显得尤为重要。现阶段对于网络谣言主要是通过传统的机器学习方法或基于深度学习的模型进行检测,这些方法受评论的指向性问题和因序列过长导致的特征不完整问题的影响,对于网络谣言的判别还未能达到比较高的准确率。本文针对上述问题提出了网络谣言检测中相应的改进方法,并使用预训练模型进行微调来加快模型的收敛,在一定程度上解决实时性问题,具体的成果有:1.针对热点话题下存在错误指向的嵌套评论问题,本文提出嵌套社交评论分离和重指向以及评论样本修正方法。该方法借助并查集数据结构的思想进行嵌套社交评论分离和重指向,并通过评论过滤来进行样本修正。通过对比实验,结果表明新的方法相对于直接结合原话题和社交评论的方法而言,构建的文本特征噪声更少。2.针对神经网络模型的输入样本存在序列过长导致的模型输入特征不完整的问题,本文提出基于上下文设置步长的截取方法、基于情感分析的社交评论数据过滤策略,结合POS Tagging和TF-IDF加权平均的句向量表示方法以及基于BERT预训练模型的句向量表示方法。通过多组对比实验,结果表明相对于将原话题和社交评论数据直接拼接后的截取方法,新提出的方法能够构建更完整的特征,使得模型能取得更好的分类效果。3.基于预训练的思想,本文对BERT模型中预训练任务的随机词遮盖算法进行改进,以提升模型预训练的效益和稳定性。其次,设计新的原句判断预训练任务使模型能够衡量句子的通顺程度,让BERT模型更好地理解上下文的语义。实验结果表明经过新的方法改进后的模型相对于原模型对网络谣言判别的准确率提高了 1.5%。
其他文献
随着近年来区块链技术的快速发展,数字加密资产的市值规模不断扩大,越来越多的用户选择购买数字加密资产进行投资理财。但当前市场上的数字加密资产种类繁多且有一部分是基于不同的区块链网络,很多用户需要针对不同的数字加密资产下载相应的专用钱包进行资产管理,这给持有多种数字加密资产的用户带来了极大的不便。同时很多用户对数字加密资产的基本信息并不了解,并缺乏真实有效的数据进行决策参考,很难及时把握当前市场的动向
随着社会的不断发展,定位技术也广泛地应用到了人们的生活中,以室外定位为基础的无人驾驶、地图APP已经日臻成熟。而在现代化的城市生活中,各个城市都在加速建设大型的室内场馆,人们的日常生活也是以室内活动为主,由此室内的位置服务相关需求也应运而生。而博物馆作为人们经常参观的地点,具有人流量大、展出内容与位置密不可分的特点,是研究室内位置服务的重要应用场所。本文以室内定位数据作为基础,以博物馆作为应用的使
随着互联网的发展,针对Web的攻击层出不穷。跨站脚本攻击(XSS,Cross-Site Scripting)因为便于实施和具有普遍性,一直是Web2.0的主要危害之一。攻击者通过插入恶意脚本,来获得用户的信息,例如,将保存用户身份信息的cookie发送到攻击者自己的网站,造成大量的财产损失,因此,需要对跨站脚本攻击进行检测和防御。在以往的研究中对攻击向量的过滤需要开发人员手动处理,浪费大量的时间,
随着宽带互联网业务的快速发展,光通信网络已经扩展到办公室和家庭。数据流量的指数增长、高清视频、IP语音、媒体下载、文件共享和视频会议等占用带宽的应用的兴起导致了光纤需求量在整个网络中的巨幅增长。人工解决方案的总成本由于劳动时间、库存错误和网络停机时间而急剧增长。为了更好地进一步普及光通信网络,降低运营成本显得尤为重要。网络运营商为了提供高可靠性服务和降低运营成本,对自动光纤配线架(AODF)有着强
随着智能手机的普及,LCD(Liquid Crystal Display)屏幕检测逐渐成为了工业视觉领域的研究热点。工业屏幕瑕疵识别场景是小样本场景,且正负样本不均衡。目前屏幕瑕疵的识别主要是依靠人工质检和传统的机器视觉检测方法,人工质检存在效率低、标准不统一、成本高的问题;传统基于数字图像处理的机器学习方法相较于人工质检,速度方面有了一定提升,但是在准确率方面仍需提升;普通深度学习算法对数据需求
随着近几年人工智能的发展,知识图谱逐渐成为了工业界和学术界研究的重要课题。知识图谱的概念最早提出是为了提升搜索引擎的性能,但是由于其对于知识的高度抽象性和结构化,应用空间从最早的搜索引擎扩展到了问答系统,推荐系统等领域。Wikidata[1],DBpedia[2]和YAGO[3]等全领域的知识图谱大多都是基于结构化数据进行构建的。随着自然语言处理技术日趋成熟,从非结构的文本数据中抽取信息自动化的构
隐蔽信道是一种用于数据泄露的网络攻击手段,DNS隐蔽信道利用广泛使用的DNS协议作为媒介来达成这一目的。基于DNS流量的检测,可发现隐蔽信道通信。目前的方法无法有效检测低速多域名DNS隐蔽信道。为解决以上问题,本文提出了利用DNS流量进行DNS隐蔽信道通信检测的完整方案,主要包含以下工作:1.针对一般DNS隐蔽信道通信,提出了基于两阶段模型的DNS隐蔽信道通信检测方案。方案结合了隐蔽信道通信过程特
光子晶体是指人造的周期性电介质材料,由于其优秀的控光特性,目前已经应用于多个光学领域。一维光子晶体具有尺寸小、灵敏度高、模式体积小等优势,在片上集成传感方面具备显著的优势。经过多年来的发展,大量基于一维光子晶体纳米束微腔的传感器被研发出来。但是,由于外界实际检测环境的复杂性,检测结果同时受到多个参数的影响,多参数传感器应运而生。由于热光效应的存在,温度会改变介质的折射率,从而间接引起谐振波长的偏移
近年来,随着大数据、人工智能的蓬勃发展,教育形态发生了深刻的变革,在线教育发展迅速,各类在线学习平台应运而生。在线学习平台提供了海量学习资源的同时,如何为学生推荐适合自身的学习内容也成为一个难题。教育领域现有的个性化推荐研究存在诸多问题:研究内容上,现有教育领域的个性化推荐目标多为提升点击率,如推荐学生感兴趣的课程,此类研究无法帮助学生加强其对薄弱知识点的掌握,进而有效提升学习表现;研究方法上,一
符号动力学是一个描述混沌行为非常有用的工具,他能够捕捉系统的拓扑特性同时忽略系统内部间的复杂行为。但是问题是对于一个混沌系统很难得到一个合适的符号划分,尤其当高维系统上稳定和非稳定流形间的行为更为复杂且相互影响时。所以在这篇论文里,我们提出了一个新的方法能有效的帮助我们解决高维符号划分的问题。我们的方法仅依赖于非稳定流形,从而避免了高维稳定流形所带来的干扰。同时我们在每一层的非稳定流形上去寻找其关