论文部分内容阅读
多标签学习(Multi-Label Learning,MLL)研究一个样本与多种标签相关联时的学习问题,在众多热门实际应用中受到了越来越多的关注,例如图像标注、信息检索、推荐系统、生物信息学等。虽然近年来一些性能优异的MLL算法被陆续提出,但它们往往依赖于完整且准确的监督信息,而在实际应用中收集有准确标注的数据通常是困难和昂贵的。在MLL任务中,由于特征空间和标签空间的维度越来越大,影响分类模型性能的同时进一步加剧了对数据精确标注的难度。因此,如何面向有限监督信息来解决多标签学习问题逐渐成为了多标签学习的一个关键瓶颈问题。为了缓解这一问题,越来越多的学者开始研究面向有限监督信息的多标签学习任务。根据有限监督中所提供监督信息的不同情况,可以划分出以下几种不同的MLL任务:缺失标签的多标签学习(MLML)、偏标记的多标签学习(PML)和半监督多标签学习(SML)。这些任务分别用于解决部分有限监督的特殊情况,但实际场景中的监督信息往往更加复杂,很有可能同时存在多种上述有限监督信息。面对实际应用场景中越来越复杂的数据,目前的MLL方法虽已经在一些任务上取得了一定进展,但仍有一些问题需要进一步研究。首先,面对越来越复杂的数据特征,如何更加有效地抽取特征与标签之间的关系,是避免“维数灾难”,提升MLL任务分类性能的关键。其次,实际应用场景中数据标注情况更加复杂,不同设定的有限监督信息通常是伴随出现的。因此,面向混合有限监督信息的MLL问题更加贴近真实情景,如何解决混合有限监督信息的MLL问题具有重要的研究价值。本文主要围绕以上两方面问题展开深入讨论和研究,提出了一些新的MLL方法,主要研究内容包含以下几个方面:1.针对多标签数据面临的高维特征挑战,受基于标签类属特征的相关MLL方法启发,提出一种同时从样本层级和特征层级构建标签类属特征的方法LETTER。现有的构建标签类属特征的方法只考虑来自样本层级的分布信息,忽略了原始特征层级的分布信息,从而影响了重构特征对标签的鉴别能力。与样本分布类似,每个标签对应的正、负样本集合的原始特征分布也有很大的不同。基于上述假设,本文提出了一种同时考虑样本分布和原始特征分布的特征重构方法来构建标签类属特征。为了验证LETTER的有效性,在来自多个领域的14个广泛使用的多标签数据集上进行了实验,结果表明与目前主流的MLL算法相比,LETTER的分类性能取得了一定提升。2.针对缺失标签和偏标记问题同时存在的不准确标记的多标签学习(Incorrect Multi-label Learning,IML)任务,提出了一个新的基于标签传播的两阶段IML方法C~2LP-IML。现有IML方法通常需要一部分精确标注的样本或其他额外的监督信息,如何自动识别标注信息中的噪声,同时补全缺失的标签是该任务的核心问题。近两年一些单独解决MLML问题和PML问题的多标签学习算法被相继提出,但对监督信息存在更多问题的IML任务,这些方法仍具有一定的提升空间。C~2LP-IML方法的基本思想是邻域空间可以为矫正标签提供较大帮助,样本的真实标签在其近邻样本上应具有更高的标注频率,而被错误标注的噪声标签则恰恰相反。因此,C~2LP-IML通过迭代地标签传播,分别从候选标签集和非候选标签集中提取可信标签用于后续的模型学习。然后采用最大后验推理对标签进行两两排序,生成多标签预测模型。为了验证C~2LP-IML的有效性,基于5个广泛使用的基准多标签数据集,在人工合成的15个合成数据上进行的大量实验,实验结果验证了所提算法的鲁棒性。3.针对偏标记和半监督问题同时存在的半监督偏标记多标签学习(Semi-supervised Partial Multi-label Learning,SPML)任务,即仅有少量训练样本被一组冗余的标签候选集标注的情景,提出基于低秩假设和流形约束的半监督偏标记多标签学习方法LION。在SPML场景下,真实标签信息是完全未知的,如何在过滤冗余标注的同时,将监督信息进行准确传播是该任务的核心问题。近年来一些单独解决偏标记问题和半监督问题的多标签学习算法被相继提出,但在解决SPML任务时,这些方法大多受自身任务的设定无法取得良好的分类性能。LION方法一方面基于低秩假设通过获取局部标签相关性来过滤候选标签中的噪声。另一方面,LION利用流形正则化捕获样本的邻域结构,从而使监督信息扩散到未标记样本。为了验证LION的有效性,基于4个广泛使用的基准多标签数据集,在人工合成的48个合成数据上进行的大量实验,大量实验结果表明LION在大多数情况下取得了最优的分类性能,同时在面向冗余监督信息和标注样本较少时具有较强的鲁棒性。