论文部分内容阅读
随着深度学习的迅速发展,目前主流的图像检索方法大多利用深度神经网络来提取图像的特征,取得了引人注目的成绩。然而这些方法采用人工标签和图像的所有像素信息进行深度网络的训练,存在以下缺陷:(1)使用人工标签不仅需耗费大量的人力和时间去完成标注工作,且人为设定的标签集无法描述图像细粒度的语义信息,无法为深度网络提供高质量的标签数据,影响图像特征的提取结果。(2)将整幅图像用于深度网络的训练,掺杂了大量与检索目标无关的背景信息,在极大增加计算负荷的同时还降低了图像特征对检索目标的表征能力,且过度关注图像的全局语义信息,忽略了对图像局部细节的描述,不能有效定义包含多个实体的图像,使得检索结果不尽如意。针对以上问题,本文提出了一种基于社会化标签和显著性区域的深度学习图像检索方法(Deep Learning Image Retrieval Based on Social Tag and Salient Region,STSRDLIR)。该方法的主要特色如下:(1)非视觉代表性标签的过滤。利用“内聚性”和“分散性”的距离策略对社会化标签进行过滤处理,去除与图像视觉内容无关的标签。(2)提取显著性区域的社会化标签。首先提取图像的显著性区域,去除与检索目标无关的背景图像;然后对社会化标签进行两次向量化处理,使得语义相似的社会化标签获得相同的向量表示;最后提取每个显著性区域的社会化标签向量,为深度网络的训练提供高质量的图像数据和标签数据。(3)深度网络结构设计。输入:将社会化标签向量的异同作为判断显著性区域是否相似的依据,构建显著性区域的三元组,使得前两个显著性区域相似,第三个显著性区域与前两个显著性区域不相似,并将该三元组输入深度网络;网络结构:采用VGGNet(Visual Geometry Group Net)深度网络作为基础模型并对其进行结构优化;目标函数:设计了基于显著性区域三元组的目标函数来指导深度网络的参数优化,使得生成的特征向量能很好地继承显著性区域的语义相似性;参数训练:结合迁移学习来训练网络参数,提高模型的泛化能力,生成具有强表征能力的显著性区域高层语义特征。(4)基于显著性区域的图像哈希检索方式。对深度网络提取的显著性区域的特征向量进行哈希化,以提高检索速度、节省存储空间。将获取的显著性区域的哈希编码以区域所在图像为单位生成此图像的hashlist存于数据库中,通过计算待检图像的哈希编码与数据库中哈希编码的汉明距离,将汉明距离排序转化为图像排序,返回相似图像。本文使用NUS-WIDE数据集进行实验,通过与BRE、MLH、KSH、BRE-CNN、MLH-CNN等先进算法做对比,有力地证明了本文方法STSRDLIR不仅能够克服当前主流检索方法的缺点,而且能够准确提取图像的高层语义特征,获得理想的图像检索结果,优于当前主流方法。