基于标签相关性和类不平衡性的多标签分类算法

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:ustczhy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据挖掘的发展,多标签分类如今已被广泛应用在文本分类、图像分类、生物信息学、信息检索以及视频处理等领域中。多标签分类对每个样本都学习一个或多个标签类别。而随着数据形式越来越复杂,标签数量越来越多,未知样本的可能标签集合数量也呈指数形式增长,即多标签分类面临输出空间规模巨大的问题。在实际问题中,标签类别在语义空间中往往具有相关性,如果在学习过程中能够充分考虑标签类别间的相关性,则在一定程度上能避免巨大输出空间问题,提高分类器的分类性能。同时,在分类数据集中,不同类别的样本数量往往相差很多,即多标签分类很可能面临类不平衡问题。如果在学习过程中忽略类不平衡问题,则可能会导致分类器最终的预测结果全部偏向样本数较多的类别,从而影响到分类性能。本文针对多标签分类展开相关的研究工作,提出基于标签相关性和类不平衡性的多标签分类算法MLCI(Multi-Label Classification Algorithm Based on Label Correlation and Class Imbalance)。主要的研究工作如下:(1)针对多标签分类的输出空间规模巨大问题,MLCI算法通过考虑标签的相关性,有效地避免单独处理海量的潜在可能的标签集合,提高分类性能。具体来说,MLCI算法针对每个标签类别,通过耦合其它两个标签来构建一个多类别分类问题,从而获得标签间的相关性。(2)为了避免过度强调标签之间的相互联系和影响而忽略单一标签的特性,MLCI算法针对每个标签类别构建相应的二分类问题以体现该标签的特性,从而提高算法的分类性能。(3)为了解决类不平衡问题,MLCI算法针对构建的二分类问题,对二分类数据集进行欠采样,从而构建样本分布均衡的新数据集,然后根据新数据集训练学习二分类器;MLCI算法针对构建的多类别分类问题,对多类别分类数据进行类别合并处理以降低数据集的类不平衡率,从而提高多类别分类器的性能。(4)本文通过对7个不同领域的多标签数据集进行大量的实验来验证所提出的MLCI算法的有效性。实验结果表明,基于6种常用的多标签分类性能评价指标,相比较其他7种分类算法,MLCI算法在分类性能上有着显著的提升。
其他文献
近年塑料发泡工艺中新技术不断涌现,本文介绍了近年国内外新兴的微孔发泡工艺(间歇加工和连续加工)、超微泡技术、旋转模塑发泡、反应注射发泡、吹塑发泡、注射结构发泡、NIR
期刊
某水泥集团统计:皮带机伤害事故中最易发生事故的部位在头轮和尾轮之间,占比达51%,其次托辊伤害占29%。发生事故的原因中,工人作业清料、清扫和捅堵进料口作业发生事故占31%;
玉米作为三大主粮之一有着“黄金作物”和“长寿食品”的美誉。2019年我国玉米产量达到26077万吨,位居全球第二位。但玉米在储存期极易受霉菌污染,因此玉米防霉问题关乎食品饲料安全和国民经济发展。轮枝镰孢菌作为玉米患茎腐病和穗腐病的主要致病菌,直接影响到了玉米储存的质量安全。已有的化学防霉剂破坏较大,容易危害玉米本身。因此在防霉剂的选择上越来越注重安全环保。随着近些年对乳酸菌功能性的发掘,使用乳酸菌
介绍了威海三方新研制的一拖二缠绕机的技术特征、技术参数、结构特性、系统功能、适用范围等.实践证明、该机可缩短工期、降低劳动强度、提高产品质量.