论文部分内容阅读
半监督学习,特别是关于数据聚类的半监督学习方法,是机器学习领域近年来广受关注的研究方向。非线性流形降维和再生核空间是两个非常重要的研究内容。本文重点研究用于数据聚类的非线性降维方法和基于部分的属类异同信息下的核(kernel)学习方法,及其导出的聚类算法。我们的主要成果分成两部分:基于属类概率的数据降维和基于点对属类异同概率的kernel学习。这两部分互相关联,核学习方法也可用于数据降维。一、关于数据聚类的非线性降维方法。1.我们提出了基于属类概率预估的非线性降维方法PLLE。其主要特点是将属类概率向量用于距离函数的构造。这个距离函数,不同于通常的欧几里得距离或流形测地距离,它既保持了欧几里得距离的部分特性,也具有元素属类的特性。与原先提出的只适用于部分训练点集的方式相比,这一距离函数适用于整个训练集和测试集,因而具有整体性。PLLE结合了经典的(用于无监督问题的)非线性降维方法LLE的思想,更具有半监督分类的特点。它克服了一般流形学习算法在处理监督信息上的缺憾。2.PLLE算法的关键部分是属类概率向量的估计。我们进一步提出了预估属类概率向量的PE算法。它基于经典的逻辑回归(LD)思想。数值实验证明,PLLE与PE结合后得到的PLLEc算法是一个性能卓越的有监督分类算法。3.我们将属类概率预估的思想用于拉普拉斯特征映射(LE)方法,进行数据降维,提出了具有属类信息的半监督降维的PLE算法,这可用于数据聚类。PLE算法中所需的属类概率预估,可以采用前述的PE方法得到,也可以用我们提出的基于kernel学习的方法估计。二、基于部分属类异同信息的核(kernel)学习。1.对于具有部分属类异同信息的数据,现有许多算法是通过寻找最佳线性投影来完成降维任务的,这类方法的效果对于数据的分布非常敏感。针对这一问题,我们给出了一种创新性的分类可靠性函数以及概率向量的确定方式。它基于由点对约束传播(PCP)方法得到的kernel矩阵。我们将其用于PLE方法,提出了称为PCP-PLE的分类算法,及其改进了的结合维数类别数因素的PCP-PLE~*降维方法。这些算法由于包含了具有分类效果的隐式映射,因此,对于任何形式的数据分布均可有效完成保持属类异同信息的降维工作,实验表明,PCP-PLE~*要优于一些最新的基于同样背景的算法。2.点对约束传播的kernel学习算法PCP在应用中具有一定的局限性。我们详细研究了其特点,发现用由PCP得到的核矩阵作核形式的K-means聚类时,所得分类的规范共信度值并不随着已知的属类相同信息量的增加而改善。PCP更依赖于已知属类异同点对的分布。根据PCP的弱点,提出了一种具有点对之间属类异同的概率约束传播的kernel学习算法PPCP。在很多情形下,PPCP可能比PCP更加有效。更为重要的是:基于我们提出的属类异同可靠性估计方法,PPCP可以用于无任何先验的点对属类异同信息。因而可作为一种无监督的聚类算法,这更有利于实际应用。3.在可靠性函数的基础上,我们提出了一种主动的kernel学习算法:active-PCP和active-PPCP。该算法能够自适应地搜索对分类起消极作用的点对,并对其进行去除或者松弛约束的处理,进而提升分类效果。此外,我们最新研究的有关自动扩张约束集合以改进分类的工作也在文中进行了介绍和讨论。全文由六章组成。第一章为读者阐述了本文课题的研究背景、发展现状以及文章的主要科研成果。第二章简介流形学习和核方法领域的经典工作。第三章主要描述了PLLE,PE,PLLEc,PLE算法。第四章详细介绍了PCP、K-means方法以及聚类有效性指标NMI,给出了PCP-PLE,PCP-KPCA和PCP-PLE~*算法。第五章提出了PPCP,PCP(PPCP)-Kmeans,active-PCP(PPCP)以及扩张的PCP(PPCP)算法。第六章总结了全文的工作,并对后续的研究课题加以展望。