基于深度学习的半监督文本分类方法研究

来源 :山东工商学院 | 被引量 : 0次 | 上传用户:vforvivid
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在标注正确且数量充足的有标注样本数据集上,有监督分类模型往往可以取得较好的分类效果。但是,实际应用中有标注样本是有限的,采集训练样本是十分繁琐的,并且标注样本工作即费时又费力,代价昂贵。那么在有标注样本匮乏的情况下,如何利用有限的有标注样本和大量的未标注样本,训练泛化能力更强的模型是当下至关重要的问题。因此,本文利用大量廉价的未标注样本和先前已有的少量有标注样本,结合教师-学生模型和半监督学习,基于一致性训练框架,开展面向文本分类的半监督深度学习方法研究,鉴于以上问题,本文开展相关研究,主要研究内容如下:(1)在wordMixup方法的基础上,提出了对未标注样本增强的u-wordMixup方法,并结合一致性训练框架和Mean Teacher模型,提出了一种基于u-wordMixup的半监督深度学习模型(Semi-supervised Deep learning model based on unwordMixup,SD-uwM)。①u-wordMixup数据增强方法对未标注样本进行增强,构造一致性假设,以降低无监督一致性损失为目标,来约束增强后的未标注训练样本的质量,能够减少模型的过度拟合;②结合有监督交叉熵损失和无监督一致性损失,构造了一种新的目标损失函数,并利用MeanTeacher方法进行半监督深度学习的一致性训练,提高模型的泛化能力。在AGNews、THUCNews和20Newsgroups数据集上,选用TextCNN或LSTM,SD-uwM模型与经典模型相比,不仅分类精度可以提高6.5%~14%,而且时间性能也有明显的提高。(2)基于集成学习和教师-学生模型框架,利用有标注样本和未标注样本,结合一致性训练框架,提出了一种融合多教师网络的半监督深度学习模型(Semi-supervised deep learning model based on Multi-Teacher networks,Semi-MT)。①该模型利用有标注样本训练学生网络参数,同时利用未标注样本通过融合多教师网络生成综合伪标签,反向传播指导学生网络训练学习,提高学生模型的性能和稳定性;②通过网络结构不同的教师模型指导训练学生网络参数,达到学生模型集成多个教师模型的优点的目的,提高学生模型的泛化能力,从而提高半监督模型的性能。在AGNews、THUCNews和 20 Newsgroups 数据集上,将 Semi-MT 模型与 SemiBoost、Ranking Distillation、Mean Teacher模型做了对比实验,可以看出Semi-MT模型的分类精度可以提高1%~9.9%,同时时间性能也有显著的提高。
其他文献
癫痫是一种常见的神经系统疾病,反复突然的癫痫发作给患者生活带来极大的影响,甚至给患者的身心健康造成严重的伤害。近年来,与癫痫诊断和治疗相关的技术研究受到各界的重视。为减少人工判读脑电图进行癫痫诊断的时间开销、提高癫痫检测效率,本文主要的研究工作如下。(1)提出一种基于双向门控循环单元神经网络的癫痫发作检测方法,即:在对长程多导联脑电图信号进行时频分解和特征提取的基础上,建立一种双向门控循环单元神经
学位
随着我国城市化进程加快,垃圾填埋场的数量也增长迅速。垃圾填埋场中普遍存在水分布区域不均和水位过高等问题,这对填埋场堆体稳定性造成严重影响,因此,开展填埋场水分布检测方法研究具有重要的现实意义。本文围绕填埋场中“找水”的问题,进行了填埋场水分布检测系统设计开发、现场测试和数据的算法反演,所做工作和成果如下:1、首先研究了电法勘探中电阻率法的相关知识,包括人工地电场的形成原理,静电场的基础理论公式,常
学位
近年来,人们的环保意识逐渐提升,国家的环保工作力度加大,虽然环境污染有所改善,但某些地区仍然存在空气污染严重的问题,这会给当地居民带来呼吸系统、心血管系统、神经系统等方面的危害。空气质量在线监测以及污染气体浓度的预测可以帮助人们进行有效的预防工作,让人们的生活环境变得更好。传统的空气质量监测系统一般都是对大城市和重点地区进行监测,存在监测设备体型较大、成本高和监测范围有限等问题。针对这些问题,本文
学位
随着人们生态保护意识逐渐增强,水资源问题得到了广泛的关注。通过合理的监测方式,快速精准地掌握水质变化数据,服务有关部门进行水质状况评估和治理,是对水资源进行科学保护的关键。然而,现有的水质检测方式往往依赖于大型水质分析设备,通过人工逐点采样后带回实验室进行精准分析,虽然得到的分析结果精度较高,但难以保证一定的时效性和时间连续性,面对复杂多变的取样环境,工作人员的操作难度大大提高,操作安全性也难以保
学位
随着网络规模的不断扩张和应用服务数量的迅猛增长,网络的运维和管理越来越困难。传统的设备厂商固守技术,使得网络设备配置复杂,网络升级和新业务部署困难,难以适应未来网络的发展趋势。软件定义网络(Software Defined Networking,SDN)的出现打破了这一僵局,SDN将控制和转发功能分离,实现了网络的可编程性和集中化的运维、管理。然而,SDN的结构和可编程性也带来了很多安全问题,控制
学位
视觉目标跟踪作为计算机视觉领域的热门问题之一,在跟踪目标的过程中,始终存在目标形变、背景复杂等困难。随着深度学习的发展与计算机硬件的增强,视觉目标跟踪不再局限于传统方法,转而利用深度网络提取更丰富的目标特征,构建更加鲁棒的表观模型,虽然一定程度上缓解了跟踪难度,但仍存在一些问题未能解决。本文从跟踪过程中容易忽略的难点出发,利用深度学习的方法对现有的目标跟踪算法进行了改进,分别在构建表观模型和缓解目
学位
探地雷达(Ground Penetrating Radar,GPR)是一种用于探测地下结构分布的电磁勘测技术。GPR采集的数据具有规模大、时空特性复杂和对勘测环境敏感等特点,其中时变结构模态是GPR数据中最有价值的信息,对了解地下结构分布起着非常重要的作用。但是,由于GPR数据中存在大量的噪声、杂波,导致传统的时变结构模态挖掘方法存在时间复杂度高、鲁棒性欠佳等问题。因而,提高时变结构模态挖掘过程的
学位
光伏发电因其具有保护环境、可再生的优势得到市场的认可,并被国家大力推广,因此得到快速的发展。在实践中,光伏发电系统输出的功率与当时的天气状况、设备运行状况等息息相关,并且随着时间和天气状况变化而出现波动性。随着大规模的光伏发电接入电网,电力系统的安全运行受到极大挑战。因此,实现对光伏发电功率的精准预测对优化机组启停计划,保障电网安全稳定运行具有重要意义。本文提出一种基于Elman神经网络、粗糙集属
学位
高血压是一种严重危害人类身体健康的心血管疾病,诱发高血压发病的因素众多,至今尚未完全阐明,在诱发高血压的众多因素中,由基因遗传引起的原发性高血压最主要的原因。近年来,由于基因芯片和DNA微阵列等高通量、短读取、低成本测试技术取得的巨大进展,因此出现了很多的基因组表达数据分析方法,这种基因组的数据分析方法可以揭示基因组活性,从基因的角度去探究一些疾病的发病机制。集成算法、聚类算法及加权基因共表达网络
学位
随着多媒体电子设备的应用和互联网的快速发展,大量用户使用社交媒体平台发布多媒体数据,如短视频、文字、图像等。从海量多媒体数据中准确检索信息有着巨大的应用需求,使得跨媒体检索得到了学术界的广泛关注并开展了深入研究。跨媒体检索使用一种媒体类型的查询数据,返回语义相似但媒体类型不同的检索结果。由于不同媒体类型的特征编码方式不同,无法直接进行相似度度量,因此“异构鸿沟”的存在使跨媒体检索任务面临巨大的困难
学位