论文部分内容阅读
半监督学习(Semi-supervised Learning)是模式识别和机器学习中的重要研究领域,一直为国际机器学习界所广泛关注,近几年来随着机器学习在数据分析和数据挖掘中的广泛应用,半监督学习的理论研究成果已经部分应用于实际问题的解决。本文首先对于半监督学习领域的国内外研究现状进行回顾,介绍了半监督学习方法的几个思路,给出了半监督学习的理论研究和实际应用中的一些问题。接着本文详细介绍了我们在半监督学习研究领域开展的三方面的工作:1. 我们提出了基于有限混合模型的多视图(Multi-View)EM算法,将存在多个视图的样本进行半监督学习的问题纳入EM框架。如何利用特征集存在天然分割的半监督样本集进行学习是半监督学习领域的一个重要问题,Co-training算法和Co-EM算法是处理该问题的两个著名算法,Multi-View EM算法与它们相比有如下优势:既能够应用于半监督学习也能够应用于非监督学习;能够对于不同的视图采用不同的分类器和不同的优化准则;其收敛性能得到理论保证。合成数据,USPS标准数据集,标准彩色图像和WebKB数据集上面的大量的实验证明了Multi-View EM算法的有效性。2. 我们提出了联合CEM和SVM进行主动学习的一种算法,该算法将主动学习过程分为两个步骤:第一步利用CEM算法发掘和查询置信区域;第二步利用SVM主动学习调整分类器决策面位置。实验证明该算法与仅利用SVM主动学习相比有如下优势:能够使得分类器更快寻找到合适的分类决策面;学习过程中,分类器性能更稳定,学习曲线不会出现大的震荡。3. 我们提出了基于主动学习的分类器融合算法,将度量层输出的分类器融合问题看作二级分类器的设计问题,将SVM主动学习引入二级分类器设计。该算法在有效减少标注代价的同时获得了较高的分类性能。实验证明该算法在分类性能和标注代价两方面都优于传统分类器融合方法。