论文部分内容阅读
半监督学习是解决如何利用大量无标记样本和有限数量的标记样本来共同学习决策知识的一种思想。具体的半监督学习算法有很多,基于图的半监督学习是近些年的一个研究热点。传统的基于图的半监督学习的理论趋于完善,然而如何将基于图的半监督学习思想扩展到其他领域,如何在具体应用中构建更为鲁棒的图,以及在实际应用中如何进一步从生成模型角度去理解半监督学习等问题仍需要进一步研究。本文在归纳半监督学习的主流方法的基础上,针对以上三个问题,并结合具体的应用对他们进行了进一步的研究,具体的工作如下:(1)首先,将图的思想运用到基于矩阵补全的多标签学习问题。基于矩阵补全的多标签学习是多标签学习领域的一个新方法。这里矩阵的列是由标签和特征组成的向量。利用矩阵补全可以恢复标签和特征组成的矩阵中未知的标签元素,其原理是利用了列向量之间的线性相关性。从半监督学习的角度来看,本文在传统的基于矩阵补全的多标签学习基础上加入了样本分布的内部结果信息。具体地,本文把半监督学习中样本的流形假设思想,即样本空间中相邻的两个样本其对应的标签相似作为正则项加入模型。为此,本文首先对所有样本(包括标记和未标记样本)构建图的拉普拉斯矩阵来约束矩阵补全的过程,并最终归结为一个矩阵核范数优化问题。在具体的优化中,利用可以保证由全局最优解的固定点连续算法对以上得到的问题进行优化。最后,新方法在一个人造数据集和四个真实数据集上验证了其在多标签学习预测性能上相对于传统的方法有明显的提高。固定点连续是针对传统矩阵补全问题的经典的优化算法,然而它在本文提出的新问题上的优化速度较慢,特别是运用到大规模的额数据集上时。针对大规模的应用,本文提出了一种利用基于交替方向乘子法来进行求解的优化方法。一方面,交替方向乘子法在求解上述的矩阵核范数优化问题时也能保证全局最优解;另一方面,通过对固定点连续和基于交替方向乘子的优化方法的复杂度分析以及实验对比,发现后者能基于流形矩阵补全的多标签学习更快地求解。(2)样本之间的相似度是基于图的半监督学习的一个重要问题,核函数的特性契合了对样本两两相似度的描述问题。然而,对于同一个数据集,不同核函数构造出来的相似度矩阵会存在差异,而进一步利用同样核函数得到的相似度矩阵构造得到的图也会存在差异。为此,本文首先介绍定义了一个基于新的再生核希尔伯特空间泛函框架的多图多核学习算法。一方面,本模型利用了全体样本(标记样本和未标记样本)的内部几何结构信息来构造图;另一方面,它结合了隶属于各个基核函数的再生核希尔伯特空间。在新的再生核希尔伯特空间下,本文可以利用多核学习来解决相关的学习问题。进一步,利用这种多核学习来选择多种图的结构,使得不管是跟图相关的参数还是跟图无关的参数都可以根据数据本身来学习。最后,在两个手写体识别数据集上验证了这种多图多核学习方法相对于传统方法在预测性能上的提升。(3)多视角学习是另一种具体的半监督学习方法,当数据来自于多个领域却没有共享的特征词典,但却有相同标签空间(语义空间),即语义共享的应用场景,这给传统的多视角学习来了挑战。针对以上问题,本文提出了一种基于高斯条件随机场和希尔伯特独立标准概率图模型,即共享语义的多任务多视角学习模型。在图模型的框架下,不同数据源的数据由他们共享的隐藏空间表达来产生。不同于传统模型,本文用希尔伯特独立标准来刻画隐藏表达的共享关系。同时,为了把标签空间里标签之间的关联性也利用起来,本文用高斯条件随机场来刻画标签空间中不同种类标签之间的关联性以及隐藏特征和标签之间的关联性。利用变分期望最大化算法,可以对整个生成过程模型进行推断。为了验证模型的有效性,本文测试了两个人造数据集和三个真实数据集,实验结果验证了文中算法的有效性。一方面,它不仅提高了多分类问题和多标签问题的分类准确率;还输出了不同种类标签之间以及隐藏特征和标签之间的关联结构。