论文部分内容阅读
现有的大规模图像检索系统依赖于鲁棒的局部图像特征及Bag-of-Words(视觉单词集合)图像表示模型以获得适用于大规模数据库的可扩展性。然而,Bag-of-Words表示模型的不足在于:图像在转化为“视觉单词”的过程中,损失了许多信息;通用的图像特征无法很好的表示图中某些重要物体的特殊属性。本文针对这些不足,提出了一个包括“视觉单词”、“视觉短语”到“视觉主题”的图像表示整体框架:(1)我们通过保持更多的底层图像信息,生成更具表达力的“强视觉单词”;(2)组合多个“视觉单词”以构成稳定的“视觉短语”,并在其上定义鲁棒的匹配准则;(3)根据图像内容定义“视觉主题”,抽取更适于对应主题的图像特征。本文的主要具体研究内容及创新成果如下:1.提出了基于“多采样,多量化树”的“强视觉单词”图像表示模型。基于对从图像到“视觉单词”过程中信息损失的分析,我们对同一特征进行多尺度采样,在特征抽取时保持更多的图像信息。同时,我们提出“多量化树”方法,在各采样组成的混合特征空间中构建精细的视觉词表以降低量化误差。2.提出了一种基于Bundled特征(组合特征束)的“视觉短语”表示模型。利用鲁棒的区域检测算法,我们在图中组合局部互邻的“视觉单词”构成稳定的Bundled特征,并定义鲁棒的部分匹配准则以刻画特征点之间的局部几何位置关系。由此构成的“视觉短语”具有较高的可重复性,且较单个“视觉单词”具有更高的可区分性。3.构建了适于人脸图像搜索的图像表示模型,并提出“基于参照身份”的量化方法以及“多参照”重排序等方法以适应人脸姿态和表情的变化。我们讨论了“视觉主题”在底层图像特征抽取中的作用。针对人脸图像这一重要的“视觉主题”,我们提出了一个结合局部特征和全局人脸识别特征的大规模人脸检索系统方案。即先用局部特征高效的检索倒排表索引,获得具有高召回率的候选图像。再用全局特征对候选图像进行重排序,从而提高检索精度。综上所述,本文提出了一个新颖的图像表示框架,并针对框架中的每一部分提出具体的解决方案。我们将这些方案应用于基于内容的大规模图像检索问题上,通过实验验证它们的合理性及有效性。