基于历史注意力机制的多标签文本分类技术

来源 :湖南大学 | 被引量 : 0次 | 上传用户:liongliong430
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,网络上产生了大量的文本数据,而如何快速地对这些文本进行分类是一个亟待解决的问题。传统的机器学习算法在文本特征提取上能力有限。近年来,随着深度学习算法的快速发展,文本语义信息的提取更加精确、完善,从而为文本分类性能的提升奠定了坚实的基础。目前,处理多标签文本分类比较常用的是SequencetoSequence模型,即利用编码器抽取文本特征,再利用解码器顺序输出文本的多个类别。与其它深度神经网络模型相比,Seq2Seq模型自带的注意力机制能够很好地突出文本中的关键信息,从而提升了模型的分类效果。然而,目前Seq2Seq模型在处理多标签文本分类问题时面临着几个问题:首先,分类结果容易陷入“标签陷阱”,即生成的分类结果容易局限于部分主流的类别而忽略其他类别;其次,顺序输出分类结果的模式会使错误不断向后传输,影响后续地预测。最后,当前的Seq2Seq模型对于标签之间的关联性挖掘不够。
  基于以上缺陷,本论文探索基于历史信息的注意力机制来提高模型的分类性能。系统采用目前流行的Seq2Seq模型,并从以下几个方面来对模型进行改进:
  1.融合Bert模型来解决“一词多义”问题。在Seq2Seq模型的编码器中,本文将词向量编码层替换为预训练的Bert模型,解决传统的Word2vec模型所无法处理的“一词多义”问题,加强了模型的语义信息理解能力;
  2.针对Seq2Seq模型注意力机制的缺点,本文提出了基于历史文本的注意力机制。相比Seq2Seq的注意力机制,它在为单词分配权重时会考虑到单词的历史权重变化趋势,并根据这个趋势调整每个单词的权重,帮助模型更为全面地理解文本语义信息,避免模型陷入“标签陷阱”。
  3.挖掘标签之间的关联性来引导模型分类。对Seq2Seq模型的Decoder模块进行修改,引入基于历史标签信息的注意力机制,用来学习标签之间的关联性。在解码器每个时刻,基于历史标签信息的注意力机制会动态的提取标签信息并输入到模型中,从而避免模型出现“误差传递”的问题,引导模型做出更为准确地预测。
  实验结果显示,基于历史信息的注意力机制相比于传统的注意力机制有一定的性能提升,在不提供标签序列信息的条件下,其提升了1.17%的Micro-F1分数并降低了5.95%的汉明损失。同时,通过集成强化学习以及预训练的Bert模型,本文提出的模型相比于目前最前沿的方法也有所提升,将Micro-F1提升到了0.895并令汉明损失降至0.68×10?2。
其他文献
[摘 要]当今互联网的发展日新月异,拓展了人类的生产、生活空间。社区教育的发展需要数字化技术的支撑,跨区域社区教育数字化学习平台的建设是实现“人人可学、处处能学”的有效途径。通过调整管理机制、共建共享资源、拓展两地产业数字化合作、两地交流社区教育资讯等途径,加强社区教育数字化平台的共建共享,促进两地社区教育工作的快速、稳健地发展。   [关键词]社区教育;共享共建;数字化资源   [中图分类号
期刊
[摘 要]为了解国内学习投入的研究现状, 文章以中国知网数据库从2011年到2020年近十年收录的2404篇学习投入相关的论文为研究对象,采用文献计量分析方法,运用CiteSpace 软件对发文时间、研究结构、作者和关键词進行可视化分析,结果发现:国内该领域研究的文献数量总体呈上升趋势;研究结构主要集中于高等院校;相关作者较多,但合作研究不够紧密;研究热点集中于定义、影响因素和中介变量等方面。  
期刊
数字图像是传递信息的重要载体,但是在采集或传递过程中易受到噪声、遮挡或像素丢失等多种形式的干扰。由于设备、时间等限制因素,在无法重新获取原始清晰图像的情况下,如何应用图像处理算法对所获取低质量图像进行干扰修复以还原出潜在高质量图像,已经成为研究者们极为关注的问题。图像修复技术通常利用低质量图像及其低质形成原因等信息,即其也称为低质量图像的先验条件,恢复或重建出消除噪声、移除遮挡或补全丢失像素的清晰图像,从而提高图像质量,使其能够应用于后续识别分类、语义理解等场景中。针对小样本、单样本图像数据的退化过程、对
近年来,受益于互联网和智能终端设备的迅速发展,各种应用不断涌现,但同时也带来了数据的爆炸式增长。为解决互联网上的信息过载的问题,推荐系统被提出并进一步推动了各类电商服务平台的创新和应用。为了使用户更好地理解推荐模型和结果,可解释性推荐正逐渐成为推荐系统研究领域的热点。在可解释推荐系统中,推荐模型不仅给出推荐列表,同时对推荐结果进行解释。基于此背景,本文尝试在深度学习技术中,首先利用层次注意力网络充分提取文本特征,以获得精准的用户和物品的表示。然后利用注意力网络和门控循环单元来融合显式特征和隐式特征,为推荐
随着智能手机和移动应用技术的发展,活动社交网络越来越流行。在ENSN中,人们可以在线上提前发布组织、线下参加各类活动。然而,由于人们可以自由地在线点击加入活动,其实际线下出席行为通常与线上有所不同。因此,如何对活动的实际出席情况进行准确预测,对活动组织者及活动开展具有重要的指导意义。
  已有的活动社交网络中进行出席预测的研究存在着如下几个问题。1.特定活动的预测精确度低,例如室外活动;2.忽视了活动本身之外的相关因素,例如活动举行当天的天气因素;3.部分活动内部因素尚未挖掘,影响人们出席活动的因素
许多现实生活中的应用都受到类不平衡问题的困扰,如医疗诊断和金融危机预测。在这些应用中,目标往往是代表性不足的类别。然而,经典的分类模型考虑的是类别平衡的情景,如决策树模型和贝叶斯模型,将这些模型应用于类别不平衡的场景会导致结果出现偏斜。现有的研究主要关注于二类不平衡问题,但与两类情况相比,多类不平衡问题要困难得多,这是由于决策边界涉及到多个类之间的区分。大量针对二类不平衡问题的解决方案并无法直接应
时序预测是深度学习应用领域研究中的热点问题。捕捉时序数据间复杂的关联特性是实现精准预测的关键。目前研究未能针对性给出以下问题的解决方法。具体的,如何处理数据集上多个非预测时间序列在不同时间阶段对目标序列产生的不同程度的影响;时序数据中蕴含的突变现象会显著的影响标签序列的变化规律,如何通过预测方法学习到历史数据中的这些信息。在先前多数研究中,通常仅从神经网络模型角度设计预测方法,而目标函数和优化算法中完全忽略了随时间变化的信息。
  本文从时序预测的目标函数、神经网络模型和帮助模型在迭代训练中收敛的优
近年来,深度神经网络在解决各种机器学习问题和应用方面取得了重大进展。然而,这一显著进步得益于大规模下可用的带标签数据。通过手工标记足够的训练数据用于特定应用任务上通常是不可取的,在缺乏标记数据这一问题上,亟需设计出通用的算法以减少在人工标记上的消耗。领域自适应方法能够应用机器学习方法针对一个分布中采样的数据进行训练,并将其应用于另一个分支中采样的数据,其核心是适应不同域的数据分布变化。但是,在实际应用场景中,一方面,通常很难做到源域与目标域的标签空间是一致的,另一方面,存在着因源域对应空间下的数据量稀少而
[摘 要]目前,以xM00C为主的高等教育慕课数量不断增长、应用规模不断扩大。文章针对慕课教学设计中存在的教学阶段划分与衔接不够明确、课程资源缺乏系统梳理、学习情境相对单一等问题,提出基于首要教学原理进行慕课教学单元、教学阶段和学习情境的设计,并以学银在线供应链管理课程为例进行了具体说明。   [关键词]慕课;教学设计;首要教学原理;供应链管理   [中图分类号]G434 [文献标识码]A
期刊
随着网络和移动设备的发展,越来越多的应用技术需要更高的网络带宽和稳定的服务质量。多宿主技术使移动设备能够配备多个网络接口,设备可以同时连接多个不同网络。设备使用多路径传输控制协议(Multi-Path TCP,MPTCP)可以聚合LTE网络和WLAN网络,充分使用移动设备的多个网络,提高数据传输率,保证数据传输的鲁棒性。
  但是在基于端到端网络模型中,客户端和服务器之间的无线链路网络状态通常不可预测。许多原因导致网络条件不稳定,主要表现为包丢失、带宽抖动和高延迟变化等,最终导致在多路径传输中数据包