论文部分内容阅读
半监督学习旨在仅有少量标注数据集和大量未标注数据集的基础上获得一个良好的学习器。其中,协同训练算法是半监督学习领域最重要的算法之一。该算法的大体思想是先利用极少的训练数据分别在两个特征集合上训练两个分类器,然后每个分类器对每个未标记数据进行分类,并从中挑选出置信度最高的p个正例数据和n个负例数据作为新的训练数据加到对方分类器的训练数据集中,使得对方分类器根据新训练集进行更新。根据理论分析,上述过程不断迭代重复能使得分类器逐渐由弱变强。然而协同训练算法的局限性在于它需要两个在充分训练集下足够优秀,且相互独立的特征集。而在现实世界中,满足如此两个苛刻约束的问题十分罕见。针对协同训练的局限性,本文做了比较有效的工作以满足两个约束条件。它的主要思路是将源数据集经过K-L变换映射到一个各维互相正交的正交空间中,然后应用某种划分算法将转换后的数据集特征集合划分成两个满足协同训练约束条件的高质量的子集合,本章介绍了两种特征集合的划分方法,分别是:贪心的划分算法和能量差驱动方法。为了衡量子集合的质量,我们定义了一个基于特征值的能量函数。试验结果表明该方法取得了良好的分类效果。此外,注意到协同训练的研究主要集中在分类问题上,本文又提出了一种新的协同训练的回归算法(SSRFT)。在这种算法中,除了利用已有的基于特征空间变换的划分方法得到两个满足约束条件的特征集外,针对回归问题中需要两个差异性较大的回归器的约束条件,利用了两个迥异的回归器。同时,将此算法应用到了信息检索领域取得了较理想的效果。实验结果证明基于SSRFT的web文档归类方法比已有的半监督回归方法COREG效果更好,甚至同基于足够训练集的支持向量回归的web文档归类方法相当。