论文部分内容阅读
图像特征表示是计算机视觉和模式识别领域重要的研究方向。图像特征表示对图像识别与检索具有重要的影响。目前大多数浅层的图像识别与检索算法直接利用提取好的特征来进行识别与检索,然而它们存在明显的不足与限制。基于稀疏表示的图像分类算法以及核范数矩阵回归分类算法每一类训练样本的重构残差具有判别性,可以利用来表示一张图像。此外,基于哈希学习的图像检索算法也同样没有充分利用已学习到的二进制紧凑特征。深度学习作为一个多层次的特征学习方法可以学习到强有力的判别图像特征,因此在图像识别与检索方面取得了非常好的效果。然而,深度学习依赖于大数据、高性能计算设备以及回传的优化方式去训练大量的参数。显然,在小规模数据集上训练深度神经网络难以实现期望的效果。基于上述问题,本文提出了适用于小数据集的深层模型框架,用于图像特征的判别与紧凑表示。与此同时,由于数据稀疏问题,即感兴趣域中数据量不足难以学习到有效的特征哈希函数,借助于迁移学习的思想,本文又提出了一种最优投影指导的迁移哈希模型,用于异构图像的紧凑表示和图像检。本文内容如下。(1)基于深度级联的人脸识别模型。该模型利用基于稀疏表示的图像分类算法以及核范数矩阵回归分类算法计算误差向量,利用图像金字塔结构,将误差向量进行级联。该算法继承了深度学习的优点,也就是分层学习、特征非线性转换、多层连接。该算法主要的贡献有四点:1)提出了的端到端的没有反向回传的深度级联模型,它更适用于小规模数据集;2)采用多层金字塔结构进行局部图像表示;3)为了在分层学习中引入非线性转换,该算法提出带有判别性的误差软最大值函数向量来表示图像;4)已有的表示学习方法可以很容易整合到本文提出的基于深度级联的人脸识别模型中,提高分类识别率。(2)多层级联哈希模型。该模型主要利用有监督哈希学习作为基础哈希学习模型学习到高维度哈希特征,然后串联初始输入特征,再作为基础学习模型的输入继续学习到新的哈希特征,以此类推,经过多层次的级联得到最终的判别紧凑哈希特征。该模型的主要三个贡献。1)提出了一种哈希特征学习哈希特征的结构,同样继承了深度学习的优点;2)提出了将哈希码与前层的特征串联作为下一层的输入,这样简单且有效的特征连接方式提升了深层模型的训练效率;3)提出了一种新的预测标签正则模型作为基础模型,并且已有的有监督哈希模型可以整合到hashing in hash的结构中。(3)最优投影引导的迁移哈希模型。近年来,由于紧凑的二值编码(哈希码)在计算和存储上的高效性,哈希学习被广泛研究并用于图像检索。现有的方法需要足够数量的样本数据来学习获得准确的哈希码。然而,在一些实际应用场景中,兴趣域中训练样本数量通常是不充足的,因此难以学习得到准确紧凑的哈希码。此外,一些有监督方法还需要大量的有标签样本数据,但是给数据做标签需要大量的时间、人力、专业的知识。为了解决上述问题,受迁移学习的启发,本文提出一种简单而有效的最优投影引导的迁移哈希,该方法是一种无监督的哈希方法。该方法主要使用另外一个语义相关但分布不同的源域样本集来帮助感兴趣域(即目标域)学习更有效的紧凑的哈希码。本文旨在学习适用于源域和目标域的域不变哈希投影,从投影误差的角度入手,并寻求误差的最大似然估计来减少域差异。同时,本文采取变量迭代优化的方式来学习源域和目标域的哈希投影,两者相互影响和促进,最终获得最优哈希投影函数。实验结果证明了本文提出的最优投影引导的迁移哈希方法优于很多现有的哈希学习方法。