论文部分内容阅读
多标签文本分类作为自然语言处理领域中一项重要且具挑战性的任务,一直受到广泛关注。挖掘多标签文本信息,有助于理解多标签文本的复杂语义。同时,现实世界多标签文本数据中的类不平衡现象,严重影响了多标签文本分类效果。因此,探索面向样本不平衡的多标签文本分类方法,对挖掘具有丰富语义的现实世界文本对象,具有重要理论价值和实际应用意义。目前,重采样作为处理不平衡样本的一项重要技术,其包含的欠采样技术易丢失重要信息,过采样技术易损失语义一致性;使用神经网络模型解决多标签文本分类问题时,对其训练优化方法研究大多基于具体模型或方法,普适性不足;同时,序列生成模型是解决多标签文本分类问题新颖且有效的方法,但现有模型编码器文本表示能力不足,且存在累积误差,影响分类效果。针对以上问题,本文利用边界混合重采样方法对不平衡样本进行平衡化处理,结合文本标签关联性挖掘,设计神经网络训练优化方法,并构建面向多标签文本分类的动态路由序列生成模型。主要工作及成果如下:
1)提出了面向不平衡样本的边界混合数据重采样策略
基于文本数据高维特点,设计了基于矩阵模型对称率的边界划分方法,将样本划分为分布稀疏的边界区域和分布密集的非边界区域;对于边界区域的少数类样本,提出基于多粒度文本增强的过采样方法,以保留文本语义一致性;对于非边界区域的多数类样本,采用基于频繁词集的文本聚类,提出聚类簇内等比例随机欠采样方法,以尽量避免丢失重要信息,进而降低对模型泛化性的影响;最后,基于以上研究工作,探索了边界混合数据重采样策略,从而得到较平衡的样本集,并以此作为3)中模型的输入。
2)设计了面向文本标签关联性挖掘的神经网络训练优化方法
结合文本标签关联性挖掘,提出从三个方面对多标签文本分类的神经网络训练过程进行优化:构建标签共现矩阵,设计神经网络最终隐含层到输出层的权重初始化方法,以提升常用标签共现组合的输出概率;利用标签错分代价作为代价敏感因子,建立标签加权的代价敏感损失函数,使目标函数能向低代价区域收敛;结合标签共现频率,提出自适应倾斜三角学习率,以便更精确地收敛;在此基础上,设计了面向文本标签关联性挖掘的神经网络训练优化方法,该方法具有一定普适性的同时,不会明显增加计算资源开销。同时,此方法将作为3)中模型的训练优化方法。
3)探索了基于动态路由序列生成模型的多标签文本分类方法
将多标签文本分类看作标签序列生成。针对序列生成模型编码器文本表示能力不足问题,在编码器部分,设计了惩罚动态路由,对多头注意力机制进行优化,进而构建了基于多头注意力机制的编码器;针对累积误差问题,在解码器部分,使用sparsemax和迭代权重w优化动态路由过程,添加动态路由聚合层;通过全局共享路由参数削弱累积误差的影响,设计了基于动态路由策略的解码器;在此基础上,构建了基于动态路由的序列生成模型DR-SGM,并结合1)、2)研究内容提出了面向样本不平衡的多标签文本分类方法。
4)实验验证与分析
选择F1值、Hamming Loss和G-mean作为评价指标,对本文提出的边界混合数据重采样方法、神经网络训练优化方法以及基于动态路由的序列生成模型设计了相应实验方案;基于标准数据集与同领域其他方法进行对比与分析;结果表明本文所提出的面向样本不平衡的多标签文本分类方法能有效处理样本不平衡数据并且在多标签文本分类任务上取得了具有竞争力的效果。
1)提出了面向不平衡样本的边界混合数据重采样策略
基于文本数据高维特点,设计了基于矩阵模型对称率的边界划分方法,将样本划分为分布稀疏的边界区域和分布密集的非边界区域;对于边界区域的少数类样本,提出基于多粒度文本增强的过采样方法,以保留文本语义一致性;对于非边界区域的多数类样本,采用基于频繁词集的文本聚类,提出聚类簇内等比例随机欠采样方法,以尽量避免丢失重要信息,进而降低对模型泛化性的影响;最后,基于以上研究工作,探索了边界混合数据重采样策略,从而得到较平衡的样本集,并以此作为3)中模型的输入。
2)设计了面向文本标签关联性挖掘的神经网络训练优化方法
结合文本标签关联性挖掘,提出从三个方面对多标签文本分类的神经网络训练过程进行优化:构建标签共现矩阵,设计神经网络最终隐含层到输出层的权重初始化方法,以提升常用标签共现组合的输出概率;利用标签错分代价作为代价敏感因子,建立标签加权的代价敏感损失函数,使目标函数能向低代价区域收敛;结合标签共现频率,提出自适应倾斜三角学习率,以便更精确地收敛;在此基础上,设计了面向文本标签关联性挖掘的神经网络训练优化方法,该方法具有一定普适性的同时,不会明显增加计算资源开销。同时,此方法将作为3)中模型的训练优化方法。
3)探索了基于动态路由序列生成模型的多标签文本分类方法
将多标签文本分类看作标签序列生成。针对序列生成模型编码器文本表示能力不足问题,在编码器部分,设计了惩罚动态路由,对多头注意力机制进行优化,进而构建了基于多头注意力机制的编码器;针对累积误差问题,在解码器部分,使用sparsemax和迭代权重w优化动态路由过程,添加动态路由聚合层;通过全局共享路由参数削弱累积误差的影响,设计了基于动态路由策略的解码器;在此基础上,构建了基于动态路由的序列生成模型DR-SGM,并结合1)、2)研究内容提出了面向样本不平衡的多标签文本分类方法。
4)实验验证与分析
选择F1值、Hamming Loss和G-mean作为评价指标,对本文提出的边界混合数据重采样方法、神经网络训练优化方法以及基于动态路由的序列生成模型设计了相应实验方案;基于标准数据集与同领域其他方法进行对比与分析;结果表明本文所提出的面向样本不平衡的多标签文本分类方法能有效处理样本不平衡数据并且在多标签文本分类任务上取得了具有竞争力的效果。