论文部分内容阅读
目前计算机视觉领域在分类、检测、分割等多个方向实现的显著成就大多是基于监督学习的方式,即要求每种类别需要包含大量的已标注样本。然而随着研究范围的扩大,为每个未训练类别收集大量的标注数据需要耗费大量的时间和人力,因此如何在少量标注类别的条件下,对大量的未标注类别加以利用无疑是一个重要且具有挑战性的课题。参照人类具有仅通过高层描述识别未见物体的能力,zero-shot学习问题由此提出。当给定一系列带有语义描述的已标注数据时,zero-shot学习的目标为从已观测类别中迁移信息作用于未见类别并实现对未见类别的识别。本文研究的内容便是zero-shot学习问题。现有的zero-shot学习方法通常将图像投影到由属性构成的语义嵌入空间中,通过计算投影函数实现类别间的信息迁移。虽然此类方法已经取得了一些进展,但其中仍然存在着一些问题。首先,学习投影函数的方法通常忽略了嵌入空间中类别间的关联信息,且在训练数据和测试数据分布不一致时易产生域偏移。此外,现有的zero-shot学习算法均针对传统的zero-shot学习而提出,即要求测试样本均来源于未见类别,而在测试样本类别来源不受限的广义zero-shot学习场景下,现有算法对未见类别的识别表现则显著下降。本文针对以上问题进行了相应的研究,具体地:(1)针对现有方法忽略嵌入空间的类别关联关系且容易产生域偏移的问题,本文提出一种新的zero-shot学习方法,所述方法通过挖掘并利用语义嵌入空间中更多的结构化关联,将更好地控制嵌入属性空间的结构与约束分类推理做了统一的结合。本文假定来自相似类别的语义表示将被投影到嵌入空间中的相邻位置,而该假定有助于预测不可见类别的分类器。因此,本文提出通过提取输入图像的属性特征构建语义嵌入空间,在语义嵌入空间挖掘语义嵌入关联关系并构建局部线性相关的图结构,再利用语义嵌入空间的结构化限制对已知类别的分类模型作约束,最终可合成未见类别的模型并实现未训练样本类别的有效预测。所述方法在挖掘局部关系的同时保留了语义空间的全局结构,增强了邻域嵌入的影响并可获取更有效的语义信息表示。公开数据集上的实验结果论证了本文提出的方法的有效性,且实验结果表明所提方法可以超出当前国际领先的方法。(2)针对现有zero-shot学习方法在更实际的广义zero-shot场景下表现较差的问题,本文提出将后验概率估计和决策阈值合并到现有的传统zero-shot学习算法中,通过估计测试样本的类别来源解决广义zero-shot识别问题。本文假定已见类别样本的分类器输出均为有下界的,而该假定有助于估计测试样本来源于已见类别的类别包含概率。因此,本文提出通过将广义zero-shot问题定义为在决策边界上对正训练样本输出建模的问题,从而估计已见类别的非归一化后验包含概率,进而对测试样本的类别来源作划分,即预测其来源为已见或未见类别,然后再应用现有的zero-shot学习分类器对测试样本作进一步的区分。本文提出的方法有助于将正类别与已知的负类别区分开来,并可对决策边界进行调整,使未知类不会经常被误分类为已知类。实验结果证实了所提方法的有效性并可增强现有zero-shot学习算法在广义zero-shot学习场景下的性能表现。