论文部分内容阅读
机器学习是人工智能的重要研究课题之一,已广泛应用于自然语言处理、生物特征识别、计算机视觉和手写数字识别等领域。传统的机器学习包括有监督和无监督两种学习方式。监督学习需要大量的标记样本以学习一个好的分类器,并利用该分类器对未见样本进行类别判断和预测。但是当标记样本较少时,所获得分类器的泛化能力往往较差,而且样本的标记过程既耗时又费力。而无监督学习由于没有标记样本导致了学习过程的盲目性,可能无法取得理想的结果。因此,如何充分利用少量的标记样本和大量的未标记样本获得较好的学习器,即半监督学习,已成为机器学习中最受关注的方向之一。半监督学习包含半监督聚类、半监督分类和半监督回归三种学习方式,本文在分析了半监督学习算法的研究现状及存在问题的基础上,对半监督聚类和分类算法进行了研究。首先,将流形假设引入到半监督聚类算法中,提出了一种基于流形结构的半监督混合高斯模型,该算法依据标记和未标记样本的局部一致性,利用Kullback-Leibler散度构建p近邻图以挖掘出样本的内在流形结构,并将流形结构以图正则化的形式与先验信息分别加入到混合高斯模型的目标函数中,最后通过EM算法求解获得最优参数。在仿真和实际数据上的实验结果表明了本算法的有效性,同时在图像分割上的实验进一步说明了本算法具有一定的实用性。其次,考虑到核最小平方误差算法的性能严重依赖于标记样本的数量,因此本文将流形假设应用于该算法中,提出了一种基于拉普拉斯正则化的半监督核最小平方误差算法。通过构造p近邻图挖掘出标记和未标记样本的内在流形结构,并采用图拉普拉斯算子构建流形正则项,嵌入到核最小平方误差算法的目标函数中,从而实现半监督分类算法。在标准数据集和人脸识别上的实验结果表明本算法能有效地处理标记样本较少的问题,同时获得一个较好的分类器。然后,提出了一种基于聚类分析的自训练分类算法,该算法将聚类算法嵌入到自训练分类算法中,其基本思想是利用半监督聚类算法尽量挖掘出标记和未标记样本的结构信息,并结合所得到的结构信息预选择出高置信度样本,然后用判别式分类器从预选择样本集中选择高置信度样本。相比于自训练分类算法,本算法一定程度上弥补了仅用标记样本带来的信息不足。仿真实验表明,当标记样本覆盖的空间与真实数据空间不一致时,本算法能获得较好的泛化能力。实际数据的实验结果更进一步说明了本算法的有效性和鲁棒性。最后,提出了一种基于半监督降维技术和仿射传播算法的自训练分类算法,该算法将降维方法嵌入到自训练分类算法中,采用半监督降维技术能有效地解决标记样本较少情况下数据的维数灾难问题,同时相比于选择均值模板或者κ均值聚类算法得到的模板,利用仿射传播算法选择得到的代表性样本是真实存在而不是虚构的,作为最近邻分类器的模板能更好地处理非高斯分布的数据。本文将该算法应用于人脸识别中,实验结果表明该算法具有较好的高维数据处理能力和较高的识别精度。