论文部分内容阅读
判别分析(DiscriminantAnalysis)是模式识别领域的重要研究内容之一。过去几十年来,判别分析在理论和应用上均取得了很大进展。然而,在一些实际应用中,当没有足够多的有标注训练数据时,判别分析的性能会迅速下降,甚至不能工作。而在图像识别中,通常可以很容易地获取大量的未标注数据。因此,同时利用有标注数据和未标注数据进行半监督学习的方式近年来引起越来越强烈的关注。本文将判别分析与半监督学习相结合,进行了有关半监督判别分析的研究。具体的工作如下:1.研究了如何利用未标注数据进行学习。并将其归纳成两大类方法:基于正则化的方法和基于有标注数据样本扩充的方法。其中,第一类方法主要利用了数据的分布关系;第二类方法则是在有标注数据指导下,将类别标号由有标注数据传递到未标注数据,从而获得更多类别的信息。2.提出了基于谱的直推式有标注样本扩充方法。首先将训练数据采用图模型表示,并假设数据的类别在图上平滑变化。然后,根据有监督信息建立正负约束矩阵,并利用有标注数据和未标注数据的关系,将谱的直推式形式化成为有约束的凸最优化问题。为了有效求解,根据正交投影矩阵的性质,将约束化简,并进一步转化成特征向量求解的问题,最终获得解析解。最后,提出了可靠估计样本的平衡选择策略。通过在投影空间建立置信度函数,并选择那些置信度较高的未标注数据加入原始有标注数据中,使得有标注数据集合得到扩充。3.对传统判别分析框架进行了扩展,提出了具有局部保持特性的半监督判别分析框架。首先,基于拉普拉斯的局部保持特性,建立正则项。然后,在扩充后的有标注样本集合上进行正则化的判别分析,以保持所有样本点在原始空间的局部几何结构。这样,既增强了算法的推广能力,同时在一定程度上避免了学习中过拟合问题的出现。4.将提出的算法应用到了实际的人脸识别任务上。我们的算法利用少量的有标注数据和大量未标注数据进行学习,通过在CMU-PIE和AR人脸数据库上的测试,表现出很好的性能,特别是在单幅有标注图像识别问题中,与经典的人脸识别方法相比,识别率的提高是极其显著的。