基于可形变自注意力模型的文本分类方法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:ddnihaoba
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是自然语言处理领域中比较热门和经典的任务,该任务是给一段文本打上一个或多个预定义的标签。文本中的上下文信息很重要,不同的词通常需要不同大小的上下文,现有的文本分类方法中包含了多种对上下文信息建模的方式。传统的方法使用了n元语法特征结合机器学习模型,在深度学习飞速发展的今天,许多深度模型也建模了上下文信息,用于文本分类任务,它们可以大致分为以下几类:基于卷积神经网络(Convolutional Neural Networks,CNNs)的模型,基于循环神经网络(Recurrent Neural Networks,RNNs)的模型和基于自注意力机制的模型,其中,后者包括了基于普通全局自注意力机制和局部自注意力机制的模型。然而,基于CNNs或者局部自注意力机制的模型大多提取固定尺度的上下文特征,无法满足不同词所需不同大小上下文的需求,而基于RNNs或者普通自注意力机制的模型都没有直接建模多种尺度的上下文信息。基于此,本文将在文本分类中的上下文建模方面做进一步的探索,主要研究工作包括:1.本文提出了一种可形变自注意力(DSA)网络,该模型可以对文本中不同的词自适应地学习不同大小的上下文特征。首先,该模型利用可变形局部注意力权重生成(Deformable Local Attention Weight Generation,DLAWG)模块为句子中不同的词学习到不同尺度的局部注意力权重,从而得到上下文特征。接着,模型进一步提取多种范围的局部上下文特征。接下来,这些多种范围的上下文特征被输入到多范围特征融合(Multi-Range Features Integration,MRFI)模块,该模块增强了来自不同范围特征中具有判别性的特征,删除或者削弱了一些语义互相冲突的特征,融合各种特征得到整个句子的特征表示。最后,该特征表示被输入到输出层进行文本的分类。提出的模型在25个数据集上和现有模型相比,取得了最好或者相当的结果。结合预训练模型,进一步提升了模型的效果。2.对DSA模型进行了深入的分析。首先,对模型的变体分析,消解实验证明了模型各模块的效果。接着,与其他自注意力模型的可视化分析证明了模型可以学习到其他模型无法学习的可变的上下文特征。对多范围特征的可视化和上下文词的分析进一步说明了模型可以提取到不同范围的上下文特征,结合这些特征,可以更好的对文本分类,验证了所提出模型的有效性。
其他文献
相变储能技术是一种能够协调能量供需时间和空间不匹配的矛盾、提高能源利用率的新型节能技术,将具备储热特性的相变材料(PCM)应用于建筑采暖系统中,可以提升室内热舒适性,将用电负荷转移至非高峰期,从而达到电力“移峰填谷”的目的。十二水合磷酸氢二钠(Na2HPO4·12H2O)作为一种高潜热、廉价易得的无机水合盐相变材料,相变温度在36℃左右,适用于建筑采暖系统,具备广阔的应用前景,但严重的过冷和泄露问
图像修复技术的目标是实现对图片中的缺损区域进行修补,并使得修补后的图片具备真实性,是计算机视觉领域的关键技术。目前随着生成对抗网络与变分自编码器等图像生成技术的快速发展,众多科研人员投入到基于深度学习的自然场景图像修复研究中,而专门针对人脸的图像修复研究还相对较少,由于人脸其具有复杂且多样的结构,在自然场景下实现的模型不一定适用于解决人脸图像,并且人脸图像的研究在生活中有广泛的应用场景,基于此,本
DC-DC变换器是一个复杂系统,具有多尺度特性。通常,宏观尺度描述的是电路的整体工作原理,而微观尺度则主要涉及电路元器件的机理模型。仅在宏观尺度上的建模不能反映器件内部效应对整体电路的影响,而在微观尺度上建模则不能展示电路的工作特性。因此,综合分析不同尺度之间的相互影响,建立多尺度统一的模型对于DC-DC变换器的分析具有重要意义。为了获得DC-DC变换器状态变量在电路级和器件级尺度下的解析解,本文
碳纸是应用最为广泛的气体扩散层基底材料。为满足燃料电池的运行工况,碳纸需要具有均匀的多孔结构、良好的导电/导热性、一定的机械强度和高的化学稳定性。其中,良好的导电性有利于降低电子传导过程中的损耗,从而提高电池性能。碳纸的导电特性通常采用提高石墨化温度和添加导电碳质粉体进行改善。然而,较高的石墨化温度导致碳纸的机械强度降低,脆性增加,同时提高了其生产成本。添加导电碳质粉体可以提高碳纸的导电性能并保持
社会各个领域的问题都离不开计算机科学,而计算机学科中的优化问题是当下重要的研究热点。进化算法是具备随机搜索能力的启发性搜索算法,具有鲁棒性并且不依赖求解问题本身的数学特征,是解决优化问题的高效手段。但是随着信息化时代的不断发展,云计算、大数据以及高性能计算技术的出现使得传统的串行执行的进化算法面临严峻的挑战,如求解问题复杂、数据量庞大、计算成本高昂、实时性要求高等。因此,进化算法的并行化需求与日俱
大数据技术的快速发展和广泛应用推动了我国的数字化建设,但随其产生的大量数据也不可避免地造成了严重的“信息过载”问题。为帮助用户从海量数据中选择出符合自己兴趣偏好的物品,推荐系统应运而生。评论文本作为用户问题、建议、态度的载体,能够有效挖掘用户的兴趣偏好而在推荐系统中被广泛关注。然而,现有基于评论文本的推荐方法不仅推荐结果可解释性弱,而且未考虑评论数据的稀疏性。因此,为解决上述问题,本文提出了一种融
锂离子电池因其高能量密度、高输出功率等优点,受到新能源汽车领域的广泛关注。热安全性一直是制约电动汽车发展的关键问题之一,合适的热管理方案能有效地提升电池性能、保障电池安全,对于新能源汽车的推广和应用具有重要意义。热管作为一种高效的导热元件,具备在狭小空间内实现热量高效传递的能力,在动力电池热管理中极具应用前景。在此基础上,本文设计了一种基于热管的电池冷却系统,并对影响系统冷却性能的因素展开了相关研
物体姿态估计技术是计算机视觉和人工智能领域中受到广泛关注的研究课题,旨在根据观测到的视觉信息估计目标物体在场景中的三维位置和三维朝向。这项技术可以广泛应用在视觉引导机器人抓取、增强现实和自动驾驶等领域中,具有十分重要的应用价值和理论研究价值。而当前仅以RGB图像作为输入的物体姿态估计方法由于缺少深度信息、直接估计目标物体在三维空间中的姿态的准确率较低,且在严重遮挡情况下物体姿态估计算法不够鲁棒。这
目的:糖尿病是全球常见的代谢性疾病。糖尿病的发生伴随着血管平滑肌功能障碍,与细胞内Ca2+调控异常有关。而STIM1与肌浆网(SR)内Ca2+稳态的调控密切相关,并影响着介导细胞内外Ca2+交换的钙通道。目前,钙感受器STIM1在糖尿病冠状动脉平滑肌收缩功能异常中的生理意义仍不清。因此,本研究拟探讨STIM1对冠状动脉平滑肌收缩钙调控机制的影响以及STIM1在糖尿病小鼠冠状动脉平滑肌收缩反应中的作
中国电力工业在改革开放后发展十分迅速,是名副其实的电力工业大国,但仍存在电力资产运营效率低下,可再生电源上网困难等一系列问题。为了改善这些状况,还原电力的本身价值,中国政府正在推动新一轮电力市场改革。我国电力市场改革在经历上一轮的停滞后,现在仍处于起步阶段,仍存在大量机制设计、政策评估等问题需要解决,为此本文引入实验经济学的方法进行研究。实验经济学是近年来走入经济学学界主流的一种经济学研究方法,在