论文部分内容阅读
在当前机器学习的研究中,面对真实世界应用场景开放性的分类已经受到越来越多的重视,且已经出现了一些研究领域,如零样本学习(Zero-Shot Learning)、类别增量学习(Class-Incremental Learning)等。本文对一种新的面对真实世界开放性的学习框架——新类别发现学习展开研究。新类别发现学习将来自已知类别的标记数据和来自已知类别和新类别的无标记数据共同作为训练样本进行学习,学习目标是构建一个能够分类包含所有已知类别和新类别的多类分类器。新类别发现学习和半监督学习有很大的相似性,可以看做半监督学习面向真实世界开放性的一种拓展。但是,半监督学习的无标记数据均来自标记数据中的类别,因此现有的半监督学习方法无法挖掘出新类别发现学习中的新类别知识,学习到能够分类包含新类别在内的所有类别的多类分类器。本文在现有半监督学习方法的基础上,对半监督学习基于图的方法中著名的局部和全局一致性方法局部和全局一致性方法进行了改进,提出了一种基于半监督图方法的新类别发现学习方法。该方法通过(1)迁移标记数据中用于区分已知类别的知识至用于区分所有类别,(2)挖掘无标记数据中的新类别信息并构建类别球模型,(3)建立所有类别标记与无标记数据的联系,使原有的局部和全局一致性方法具有学习新类别发现学习中新类别知识的能力,通过借助样本的近邻样本使原有的局部和全局一致性方法具有分类新样本的能力,弥补了局部和全局一致性方法在解决新类别发现学习问题时的不足,并保留了原有方法利用局部和全局一致性假设发挥出借助无标记数据的数据分布进行学习的优势。实验表明,该方法很好地发挥出了无标记样本帮助已知类别学习、提高分类性能和模型的泛化能力的作用,也挖掘并学习到了无标记数据中包含的新类别知识,总体上有着良好的分类性能,可以较好地解决新类别发现学习问题。