论文部分内容阅读
近年来,在弱监督信息下进行学习已成为机器学习的研究热点,偏标记学习是其中一类重要的弱监督学习框架。在该框架下,训练集中的每个对象对应于输出空间的一个候选标记集合,并且该集合中仅有一个标记为其真实标记。在偏标记学习中,训练样本的真实标记不再确定可得。为了克服上述监督信息缺失的问题,本文主要做了以下三个方面的工作:在偏标记学习中,一种直观的策略是对候选标记集合中的元素平等对待,将模型在各个候选标记上的平均输出作为模型输出。然而,此类模型的性能会受到候选标记集合中“伪标记”的影响。为了克服平均消歧的缺陷,本文提出了一种基于示例的偏标记学习算法IPAL,直接对候选标记集合进行消歧。IPAL算法首先根据示例及其近邻构建一个非对称的相似度图,然后采用迭代标记传播的方式获取示例的真实标记。在测试阶段,算法首先计算未见示例的k近邻,然后采用最小化误差重构准则对未见示例进行预测。最大间隔准则是机器学习中的一类重要学习策略。现有最大间隔偏标记学习算法优化模型在候选标记集合上最大输出和非候选标记上最大输出之间的差异。然而,该算法的潜在缺陷在于未考虑示例的真实标记和候选标记集合中其他标记之间的差异。基于此,本文提出了一种新的基于最大间隔的偏标记学习算法M3PL,直接优化真实标记和其他所有标记之间的差异,对候选标记集合中的标记进行有效区分。现有偏标记学习的基本的策略是消歧。然而,基于消歧的偏标记学习算法会受到“伪标记”的影响。本文通过改进传统的“输出纠错编码(ECOC)"技术,提出了一种基于非消歧策略的偏标记学习算法PL-ECOC。算法对于二值编码矩阵的每一列,根据候选标记集合是否完全落入该列所指定的二分区域,将样本转化为正类或负类样本,从而训练相应的二类分类器。PL-ECOC算法通过以上转化将偏标记问题转化为一系列二类分类问题,并综合这些二类分类器的结果对未见示例进行预测。本文分为五章。第一章介绍偏标记学习的基本概念、研究现状及有待解决问题,并简述本文的工作。第二章至第四章分别介绍IPAL算法、M3PL算法及PL-ECOC算法,并给出具体的实验结果;第五章对本文工作进行总结。