论文部分内容阅读
在很多现实的机器学习任务中,一个样本同时拥有多个标记,而整个数据集内仅有少量样本、甚至没有样本拥有完整标记。对这样的数据样本进行学习,就是弱监督多标记学习(Weakly Supervised Multi-Label Learning,简称WSML学习)。此类问题在现实应用中广泛存在,但以往研究较少,是机器学习领域面临的一个新挑战。本文针对弱监督多标记学习开展研究,主要工作包括:1.有完整标记样本的弱监督多标记学习。对数据集中仅有少量样本拥有完整标记的情形,本文提出一种新的CUR矩阵分解技术,基于完整标记所对应的行信息来恢复缺失标记。通过理论分析显示了所提出方法在现实条件下的有效性,并通过实验进行了验证。2.无完整标记样本的弱监督多标记学习。对数据集中没有样本拥有完整标记的情形,本文提出一种新的矩阵补全技术,能利用样本特征与标记关系等辅助信息恢复缺失标记。本文通过理论分析显示了所提出方法在现实条件下的有效性,并通过实验进行了验证。3.顶端排序的弱监督多标记学习。排序在前的标记往往比排序在后的标记更重要,为此本文设计了一种新型评价准则PRO Loss,通过同时考虑标记的分类和重要性排序,能较好地满足上述需求;在此基础上,本文提出了相应的优化算法,并通过实验验证了其有效性。4.实值输出的弱监督多标记学习。多标记学习任务通常考虑离散输出值,而很多实际应用涉及实值输出。为此,本文提出了一种基于核范数最小化来利用标记关系,并通过近端梯度下降和交替方向乘子法优化求解的方法。实验结果验证了本文方法的有效性。