【摘 要】
:
随着互联网的蓬勃发展,网络信息已涉及许多领域,从人类发展历程可知,信息的主要载体是文本,因此解决多标签文本分类问题具有重要意义。近年来,深度学习技术在自然语言处理领域取得了革命性的进步,特别是在多标签文本分类中,基于深度学习的方法逐渐成为研究热点。目前,基于深度学习的多标签文本分类,普遍采用序列到序列的编码解码网络结构,其中解码部分常使用序列生成方式预测标签序列。然而,使用序列生成方式容易产生错误
论文部分内容阅读
随着互联网的蓬勃发展,网络信息已涉及许多领域,从人类发展历程可知,信息的主要载体是文本,因此解决多标签文本分类问题具有重要意义。近年来,深度学习技术在自然语言处理领域取得了革命性的进步,特别是在多标签文本分类中,基于深度学习的方法逐渐成为研究热点。目前,基于深度学习的多标签文本分类,普遍采用序列到序列的编码解码网络结构,其中解码部分常使用序列生成方式预测标签序列。然而,使用序列生成方式容易产生错误积累问题,即之前的预测错误被传送到后续的预测过程中。面对错误积累问题,虽然研究者提出了依赖标签频率的标签预测方法和采用非序列方式预测标签,但依赖标签频率的方法无法适用于标签频率经常发生变化的情况;而当前采用非序列方式预测标签的神经网络,没有引入标签信息或标签间相关性,导致与标签方面有关的大量特征被丢失。本文针对上述问题,提出了一种结合双向LSTM网络和标签注意力模块(bidirectional long short-term memory-label attention module,BLSTM-LAM)的网络模型,主要进行的研究工作如下:首先,本文提出的BLSTM-LAM网络模型采用序列到非序列的编码解码网络结构,其中编码部分为双向LSTM网络,解码部分为多个标签注意力模块。每个标签注意力模块之间是互不相关且独立计算的,所以采用多个标签注意力模块的非序列方式分别对标签进行预测,能阻断错误预测对后续过程的影响,有效解决了错误积累问题。其次,在BLSTM-LAM网络模型中由于每个标签注意力模块之间是相互独立的,所以当标签频率经常发生改变时,标签注意力模块之间互不影响,从而不需要依赖标签频率来提升模型性能,同时提高了网络模型的鲁棒性,有效解决了标签频率依赖问题。再次,目前解码部分常使用序列生成方式是为了引入标签信息或标签间相关性,捕捉有关标签方面的特征,从而提高多标签文本分类的精度。针对当前非序列方式的神经网络未能捕捉有关标签方面特征的问题,本文提出的BLSTM-LAM网络模型在每个标签注意力模块中,引入了不同的标签信息和标签间相关性,同时结合了注意力机制进行计算,有效解决了标签信息与标签间相关性引入问题。最后,通过实验数据集对BLSTM-LAM网络模型进行实验分析,结果表明,本文提出的网络模型在汉明损失、F1分数、子集准确率等指标上比其他经典多标签文本分类模型表现出了更优的性能水平,证明了本文提出模型的有效性。综上所述,本文针对目前神经网络在多标签文本分类领域中的不足之处,提出了BLSTM-LAM网络模型,该网络模型能充分提取文本和标签的有效信息,进一步提升多标签文本分类的精度。
其他文献
汽车智能交通高级驾驶辅助系统(ADAS)作为提高道路交通安全的有效技术,引起了国内外学者的高度关注,其中的道路视觉感知技术更是车路环境研究工作不可或缺的部分。本文基于当前的车路环境视觉感知技术,对复杂车路视觉图像的获取技术和融合处理技术进行了研究。本文首先以蒙特卡罗方法模拟光波在复杂车路环境散射介质中的传播过程为基础,构建复杂介质中的成像数学模型,对系统成像参数进行优化,并给出复杂介质环境中的图像
图像分类是指根据一定的分类规则将图像自动分到一组预定义类别中的过程,它可以应用于许多领域,如人脸识别和医疗图像处理。传统的图像分类方法一般是使用人工设定的特征模式
软件缺陷(Software Defect)可被定义为发生在软件文档、软件程序及软件数据中不应存在的或不能被接受的误差。随着软件需要和现代技术的不断提升,软件行业迅速发展。由于软件开发大部分过程都是由人完成的,开发过程中会不可避免地产生缺陷。与此同时,软件产品数量不断增加。因此,管理软件缺陷至关重要,这将提高缺陷修复效率、减少缺陷修复时间、节约缺陷修复成本和提高软件质量,还能为软件更新与开发提供数据
大城煤田位于河北省廊坊市大城县境内,东邻天津市,东南与沧州市相接,西部与保定市相邻。本次工作详细搜集了大城地区地质、地震、测井数据等相关资料,详细分析大城煤田煤层气
一、我国高等院校逻辑教学的现状改革开放以来,随着高等教育的全面恢复和发展,我国高等院校逻辑教学也得到了恢复和一定的发展。特别是20世纪80年代初、中期,许多高校都将传
在我国经济社会发展成绩显著的同时,资源短缺、环境污染、气候变暖等问题愈发严重,为此国家强调建设生态文明,建设美丽中国。受到政府支持,环保产业在国民经济发展中的战略地位逐渐重要。但是我国环保产业起步较晚,发展相对薄弱,仍存在许多问题。永清环保作为综合性环保企业,在土壤修复等领域处于国内领先地位,但近年来其盈利能力、偿债能力等财务状况表现欠佳。因此有必要对永清环保财务绩效进行客观评价,以探索问题所在,
目的:1.通过建立睡眠剥夺动物模型,以电化学发光方法检测甲状腺激素,采用形态学方法观察甲状腺细胞形态学变化,探究睡眠剥夺对甲状腺的损伤作用。2.通过测定睡眠剥夺大鼠自噬和凋亡相关基因和蛋白的表达,探讨细胞自噬和凋亡在甲状腺损伤中的作用及调节机制。方法:依据标准选择天津医科大学动物实验中心负责提供的30只健康雄性成年Wistar大鼠(体重300-350g)作为实验对象。将他们安置在一个标准实验动物饲
近年来,我国染料工业持续快速发展,染料产量稳居世界第一,占世界总产量60%左右,已成为染料中间体主要生产国家和供应地区。本文所研究的染料中间体(A)在工业生产中,存在产品粒度分布不均、颗粒大等问题。本文从结晶热力学、结晶动力学、结晶工艺、真空和间壁式结晶过程机理等方面对A进行了系统的研究。通过对结晶工艺进行优化,得到颗粒较小且分布均匀的晶体产品。实验采用静态法测定了染料中间体A在水中的溶解度,通过
化学疗法是最常见的肿瘤治疗手段之一,当前上市的抗肿瘤药物因高毒副作用、低水溶性、快速血液清除、体内非特异性分布及获得性耐药等缺陷,限制了疗效。肿瘤靶向药物输送系统
岩体是自然界中广泛分布的地质构造体,由于其结构面分布特征和组合形式的不同,岩体参数、特征等极为复杂。复杂的岩体特征造成岩体中的渗流特性的非均匀性和各向异性,岩体裂隙渗流影响着边坡稳定、岩体承载能力和衬砌受荷稳定,在岩体工程如土木工程、水电工程、采矿工程等相关工程中具有显著的力学作用,因此对裂隙岩体中的渗流分析是一个有着重要意义的研究课题。在实际工程问题中,用渗透张量这一被广泛认可并运用的物理量描述