基于多模块图注意力机制的敏感文本分类

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:jianghai9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,社交媒体平台已成为人们日常沟通交流、获取信息的重要渠道,由于网络的虚拟性与隐蔽性,一些非法用户借助于社交媒体平台发布和传播负面言论,其中不乏充斥着色情、赌博、暴恐等敏感信息,严重影响着正常用户的网络社交体验,也影响着社会的稳定和长治久安。敏感文本通常以短文本形式出现,这些文本特征稀疏、包含的可用信息少、语法句式多变。其次,为了规避自动化匹配检测,这类文本中的敏感词还经常以其音变词、形变词的形式进行替代。此外,收集的文本数据集存在着严重的样本不均衡现象。本文在调查研究敏感文本识别与文本分类相关技术的基础上,提出了一种基于多模块图注意力机制的短文本分类模型,结合工程化思想设计了一套高效的敏感词及其变形体词库扩充方案,并针对文本分类任务提出了两种数据增强方法。本文主要研究工作如下:(1)针对社交媒体敏感文本分类任务,提出了基于多模块图注意力机制的短文本分类方法MGAT-Transformer-CNN。考虑到敏感文本句子长度短、包含的可用信息少,在文本图构建部分融入了文本的句法关系,使用图注意力机制进行特征提取。将图注意力机制嵌入到Transformer网络编码层中,并行多个模块的图注意力机制以多维度提取文本图特征。同时,并行卷积神经网络提取文本的局部特征,弥补图神经网络的不足。为了验证模型的有效性,本文将MGAT-Transformer-CNN与各文本分类基线模型进行实验对比,实验结果表明,本文所提的方法在短文本分类任务上有着良好的性能。(2)针对分词工具对敏感词识别精度不高的问题,提出了基于新词发现与敏感词变形体扩充的联合敏感词库构建方法。考虑到敏感词多以新词的形式出现在社交媒体平台中,设计了一种基于内部凝固度与外部自由度的新词发现算法,设定凝固度阈值用以切分词语,使用TF-IDF和改进的左右邻信息熵来计算凝固度词典中词语的外部自由度分数以筛选词集,最后得到敏感词词典。为了提高分词工具对敏感词变形体的识别,从拼音变体、同音或近音异形变体、拆分变体、形似词变体的角度对敏感词库进行了扩充。将得到的敏感词及其变形体加入到分词词典中,提高了分词算法对敏感词的识别准确率。(3)针对数据集样本不均衡的问题,提出了两种数据增强的方法。一种是基于已构建的敏感词变形体词典进行关键词替换,得到对应类别的新敏感样本。另一种是基于多模态检索的数据增强方法,通过多模态检索与相似度计算,得到敏感词的相近词用于样本扩充,在词语检索的过程中使用了分箱思想,将不同数据映射到相同的子空间内,极大地加快了词语的检索速度。(4)基于以上研究,系统地叙述了本文设计的社交媒体敏感文本分类整体架构,介绍了各个模块的详细设计。将收集并标注的敏感文本数据集作为实验数据,设计对比实验验证模型性能,实验结果表明本文所提方法在敏感文本分类任务上有着优异的效果,同时具备良好的可扩展性。
其他文献
随着数字图像处理技术的日益发展,普通的数字显示设备由于自身工艺的限制,其动态范围难以达到人眼的级别,再加上成像环境的影响,显示出的图像经常存在着曝光不平衡、颜色失真和运动阴影等问题,图像质量已无法满足人们的要求。宽动态范围(Wide Dynamic Range,WDR)技术则正是致力于解决此方面的问题,借助于WDR技术,数字显示设备能够分辨出图像最亮和最暗的部分,因此对于图像高光和阴暗区域的曝光能
学位
随着芯片制造工艺的发展,单个晶体管的体积和功耗变得越来越小,单位芯片面积可集成的晶体管数量遵循摩尔定律提升,这导致高端芯片的整体功耗在不断上升。晶体管密度的增加使芯片上的金属布线变得越来越密集和纤细,芯片整体功耗的增大又使金属布线的电流密度越来越大,从而引发了芯片出现EM、IR-Drop等非理想效应,这些效应对芯片的可靠性构成了严重威胁,同时芯片整体功耗的上升也给芯片的热设计带来了巨大的困难,可以
学位
近年来,无线充电技术的普及对各类便携电子设备提出了快速发展的要求。无线充电芯片由于其耦合线圈输入范围较宽,无法直接对芯片内部各个功能模块进行供电,所以需要一种低压差线性稳压器(LDO,Low Dropout Regulator)电路,可将输入电压转换为合适的低电压并对内部电路供电,从而使无线充电芯片内部模块正常工作。基于上述问题,本文的主要研究目标是设计一个用于无线充电芯片内部的宽输入LDO电路。
学位
在卷积神经网络中,深度学习技术凭借其强大的特征提取能力、较强的分类能力,近年来在自然语言处理、语音识别、计算机视觉等领域都有广泛应用。但这种优异性能依赖于大量的参数量和计算量,随着卷积神经网络应用领域的不断扩大,与之对应的是需要有更好的硬件平台,其中就包括更高的计算能力和更好的数据带宽。目前行业内的佼佼者都在致力于挖掘各种基于芯片的解决方案。而CPU和GPU更高的功耗以及需要根据场景进行布置,此方
学位
在当今这个剧烈变化着的时代,伴随着诸如可穿戴电子产品、无人机、商用服务机器人、电动车内的各系统的车载控制器等智能设备越来越成熟、产品性能需求越来复杂,对充当伺服控制器的芯片的功能要求也越来越多变。因此采用旧有硬件结构的伺服控制器逐渐难以平衡实际应用中工程需求的各个方面。与此同时具备相当灵活性的So C设计也逐渐应用于伺服控制领域,伺服控制集成电路IP化已经是必然的趋势。目前,国内主打面向控制类需求
学位
随着信息时代和人工智能时代的快速发展,移动终端设备已经在人们的生活和工作中发挥了不可替代的作用,这对移动设备的充电速度以及充电设备的便携性都提出了更高的要求。反激式变换器以其拓扑结构简单、成本低和天然隔离输入输出环路的优点,在小功率变换器以及便携式设备的充电器领域广受欢迎。GaN功率管因为有着更高的迁移率,相比于传统的Si功率管有着更好的开关响应,在高速开关的场合中得到了越来越广泛的应用。本文设计
学位
近年来,随着人工智能快速发展,深度学习技术已经在许多领域发挥出巨大的作用。目前TensorFlow框架作为最主流神经网络框架之一,根据实际应用或再训练场景的改变,部署神经网络模型需要重新构建和训练模型,并且部署过程十分耗时。为了解决这一问题,微软联合多家公司推出了开放神经网络交换格式(Open Neural Network Exchange,ONNX),采用统一的标准保存深度学习模型。将Tenso
学位
随着后摩尔时代的到来,在超大规模集成电路设计阶段验证已经逐渐成为困扰各大芯片设计人员的关键问题,虽然可以使用软件仿真、硬件加速仿真等验证方法来加速验证流程,但是随着集成电路设计规模逐渐增大,原先的验证方法在时间成本上已经无法满足当前快速设计迭代的需求,使用FPGA进行芯片设计原型验证已逐渐成为验证阶段主流。但随着设计的规模剧增,单片FPGA已无法满足超大型集成电路设计的验证需求,从而衍生出高密度F
学位
计算机技术发展催生的建筑信息模型(BIM)是建筑工程行业近年来最热门的发展方向,已在建筑设施的规划设计、建造运营等环节发挥重要作用。随着物联网技术的发展,主要采用C/S架构的传统BIM服务对客户端的硬件配置要求高,学习和使用成本高,难以应对新的需求,构建基于Web端的BIM展示系统成为BIM发展的新出路。然而,在Web端BIM数据加载缓慢且渲染帧率低下,是Web端BIM展示系统的瓶颈。本文聚焦于在
学位
随着党政机关的文印市场以及各种书刊出版市场的不断扩大,机关及企业部门对印刷品质量的精确度要求也在不断地提高。而在印刷品的生产过程中,受到生产条件的影响,印刷品经常会出现各种各样的问题:例如在电子文件的排版阶段,图像分辨率的调整从而造成的信息缺失;输出印刷机的印刷生产阶段的漏印,飞墨等,都有可能导致打印出来的文件与原始文件有一些或多或少的差异,这种差异会体现在图文版式,漏字错字等可能造成信息缺失和信
学位