面向样本不平衡的多标签文本分类方法研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:zhoufei123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多标签文本分类作为自然语言处理领域中一项重要且具挑战性的任务,一直受到广泛关注。挖掘多标签文本信息,有助于理解多标签文本的复杂语义。同时,现实世界多标签文本数据中的类不平衡现象,严重影响了多标签文本分类效果。因此,探索面向样本不平衡的多标签文本分类方法,对挖掘具有丰富语义的现实世界文本对象,具有重要理论价值和实际应用意义。目前,重采样作为处理不平衡样本的一项重要技术,其包含的欠采样技术易丢失重要信息,过采样技术易损失语义一致性;使用神经网络模型解决多标签文本分类问题时,对其训练优化方法研究大多基于具体模型或方法,普适性不足;同时,序列生成模型是解决多标签文本分类问题新颖且有效的方法,但现有模型编码器文本表示能力不足,且存在累积误差,影响分类效果。针对以上问题,本文利用边界混合重采样方法对不平衡样本进行平衡化处理,结合文本标签关联性挖掘,设计神经网络训练优化方法,并构建面向多标签文本分类的动态路由序列生成模型。主要工作及成果如下:
  1)提出了面向不平衡样本的边界混合数据重采样策略
  基于文本数据高维特点,设计了基于矩阵模型对称率的边界划分方法,将样本划分为分布稀疏的边界区域和分布密集的非边界区域;对于边界区域的少数类样本,提出基于多粒度文本增强的过采样方法,以保留文本语义一致性;对于非边界区域的多数类样本,采用基于频繁词集的文本聚类,提出聚类簇内等比例随机欠采样方法,以尽量避免丢失重要信息,进而降低对模型泛化性的影响;最后,基于以上研究工作,探索了边界混合数据重采样策略,从而得到较平衡的样本集,并以此作为3)中模型的输入。
  2)设计了面向文本标签关联性挖掘的神经网络训练优化方法
  结合文本标签关联性挖掘,提出从三个方面对多标签文本分类的神经网络训练过程进行优化:构建标签共现矩阵,设计神经网络最终隐含层到输出层的权重初始化方法,以提升常用标签共现组合的输出概率;利用标签错分代价作为代价敏感因子,建立标签加权的代价敏感损失函数,使目标函数能向低代价区域收敛;结合标签共现频率,提出自适应倾斜三角学习率,以便更精确地收敛;在此基础上,设计了面向文本标签关联性挖掘的神经网络训练优化方法,该方法具有一定普适性的同时,不会明显增加计算资源开销。同时,此方法将作为3)中模型的训练优化方法。
  3)探索了基于动态路由序列生成模型的多标签文本分类方法
  将多标签文本分类看作标签序列生成。针对序列生成模型编码器文本表示能力不足问题,在编码器部分,设计了惩罚动态路由,对多头注意力机制进行优化,进而构建了基于多头注意力机制的编码器;针对累积误差问题,在解码器部分,使用sparsemax和迭代权重w优化动态路由过程,添加动态路由聚合层;通过全局共享路由参数削弱累积误差的影响,设计了基于动态路由策略的解码器;在此基础上,构建了基于动态路由的序列生成模型DR-SGM,并结合1)、2)研究内容提出了面向样本不平衡的多标签文本分类方法。
  4)实验验证与分析
  选择F1值、Hamming Loss和G-mean作为评价指标,对本文提出的边界混合数据重采样方法、神经网络训练优化方法以及基于动态路由的序列生成模型设计了相应实验方案;基于标准数据集与同领域其他方法进行对比与分析;结果表明本文所提出的面向样本不平衡的多标签文本分类方法能有效处理样本不平衡数据并且在多标签文本分类任务上取得了具有竞争力的效果。
  
其他文献
共享单车作为一种绿色低碳的出行方式,给人们的出行带来便利。然而,人们自由使用单车给共享单车的维护带来许多问题(例如单车损坏、运送到指定位置等)。因此,共享单车平台可能需要雇佣用户去完成单车维护任务,同时平台需要给予用户合理的报酬以激励用户完成任务。当存在多个用户竞争时,用户可能谎报任务完成成本或者任务完成概率等信息来获得更高的报酬,从而导致平台不能高效的分发单车维护任务。本文主要从两个方面解决此问
小麦是现今世界范围内的主要粮食作物之一。为了提高小麦产量,育种专家致力于发掘其基因型和表型之间的联系。现有的表型提取方法多依赖于手工方式,采集的数据量有限且效率低下。三维CT(Computed Tomography)成像具有成像精细、动态范围高和无损探测内部结构等优点,可以快速且无损地提取小麦的高通量表型。CT扫描出的三维图像具有数据量大且内容高度稀疏化的特点,给图像处理工作带来了不小的挑战。本文
随着无线通信技术的日益成熟以及智能终端的普及,基于位置服务的应用(LBS)得到了全面的发展。用户在进行位置服务相关的查询时,需要向LBS服务提供商提供用户自身的请求内容以及位置信息,因此用户的隐私存在泄漏的风险。基于位置服务的隐私保护问题已经成为学者们研究的一个热点。当前主流的位置隐私保护模型所存在的缺陷包含:点对点分布式模型结构(P2P)用户之间存在不可信任的问题,响应时间较长,反馈结果不精确;
学位
拼车出行作为一种经济的出行方式,吸引了越来越多的乘客使用。如何有效地将乘客的订单分配给合适的司机成为了关键问题。为了给予司机更加合理的报酬,激励司机提供拼车出行服务,本文将对拼车出行中订单分配和司机定价的机制进行研究。在拼车出行中,司机是理性的,且具有异质性(例如不同的司机具有不同的成本信息),并会通过策略性行为(例如虚假地揭露自己的成本信息)去获得更多的利润。司机的策略性行为会造成平台和司机的社
学位
源代码摘要旨在生成自然语言文本,用于描述代码的语义。该任务目前已是软件工程领域不可或缺的部分。尽管现存的方法以能很好地完成此项任务,但是此类模型主要受限于数据充足的背景,而缺乏对于小样本数据和跨语言场景下的讨论。这些模型在实际应用中存在2个问题:(a)训练样本需求大。大多数主流方法中都采用编码器-解码器结构,而此种结构严重依赖于大规模数据训练。而且在现实世界中,获取大样本的优质标记数据集的成本是难
交通标志的检测与识别是智能交通系统领域中的重要研究方向之一,受到许多研究者的关注,但现有的研究主要集中在各类符号型交通标志的检测与识别上,对字符型交通标志的研究较少,且相关研究的检测精度与实时性不能满足实际需求。在实际的交通场景中字符型交通标志大量存在,以文字内容的形式提供丰富且重要的道路信息,这类文本信息的高效精准提取对于智能辅助驾驶系统、无人驾驶技术等具有重要作用。本文结合图像处理与深度学习最
学位
随着智慧城市的建设,智能交通视频监控成为了日益重要的核心环节。车辆重识别(Vehicle Re-identification,简称车辆Re-ID)是智能交通视频分析中的一项新兴技术,正逐渐成为研究热点。车辆重识别的主要任务是在多个非重叠覆盖摄像头的监控网络中在快速检索、定位到目标车辆。在真实开放的交通监控场景中,环境光照的变化、摄像头分辨率低、遮挡等不可控因素使得从视频中难以准确的获取车辆的车牌信
随着人工智能等高新技术的快速发展,探索更加智能化的船舶路径规划方法对于船舶安全航行以及智能化航运业的发展具有重要理论价值与实际应用意义。相比于传统船舶路径规划方法,基于深度强化学习的船舶路径规划方法通过不断“试错式”学习,寻求船舶的最优策略,使船舶在复杂环境中更容易找到安全有效的航行路线。但是,目前以深度强化学习为基础的船舶路径规划方法中,较少结合船舶航行特点;在规划船舶间避碰时较少考虑避碰规则,
学位
近年来,无人机的应用正在快速增长,包括实时监控,提供无线覆盖,遥感,搜索和救援,货物交付,安全和监视,精确农业以及物联网系统等领域。凭借其易于部署,维护成本低,机动性高和具有良好的视距链路等优点,无人机辅助的高速无线通信有望在未来的通信系统中发挥重要作用。然而,由于无人机有限的能量存储和零星的能量供应,无人机系统的通信性能和运行持续时间从根本上受到机载能量的限制。无线充电技术以电磁波为载体向空间中
学位
法律判决预测(LJP)是一项将人工智能应用在法律审判领域的传统任务。它的目的是训练一种能根据法律文本自动预测判决结果(如相关法律条文、控诉罪名、刑期等)的机器法官。在经过20年的信息化建设后,全国各个法院中各类数据,例如证据数据、文书数据等都较为完整。这些标注信息以及众多的场景非常适合将自然语言处理技术(NLP)应用于法律领域。虽然各类法律文本信息的质量较高,但是在这类长序列文本中的信息过于庞杂且
学位