论文部分内容阅读
多媒体检索技术研究的是如何快速和准确地找到有效的数据,该技术已经深入到了许许多多的领域,并为人们的生活生产提供了极大的便利。因此,如何快速和准确地检索信息,使之有效地应用于公共安全、电子商务、医学诊断、版权维护等方面,已经成为多媒体检索技术研究的重要问题。由于多媒体检索技术的重要应用价值,目前已成为计算机视觉和模式识别领域的研究热点。近年来,由于深度学习可以更好的获取信息和提高检索的效率,因而它更适合于大规模多媒体数据的检索。虽然基于深度学习的多媒体检索技术均取得较好的发展,但是仍然存在以下问题:1)图像检索算法中深度特征信息不够丰富;2)没有充分利用深度特征的相似关系;3)没有考虑哈希码的排序信息;4)忽略图像和声音的相对语义相似关系和多尺度上下文信息。针对上述问题,本文主要从四个方面开展了基于深度学习的检索技术的研究,主要的研究内容和贡献点如下:(1)基于组内相关性增强的孪生膨胀哈希网络的检索算法。由于深度特征信息不够丰富而无法充分利用哈希码的组内相关性,这会造成相似哈希码的相关性降低。本论文从特征的角度出发,利用提出来的初始扩张卷积结构和类别信息去学习特征的多尺度上下文信息,从而利用丰富的特征信息使得哈希码的相关性增强。(2)基于语义相似学习的类别级正则哈希检索算法。由于没有充分利用深度特征来学习语义相似关系,从而导致哈希码之间的相似性降低问题。本论文利用深度特征相似性学习去提高哈希码的相似性,使得在学习深度特征表达的过程中融入数据的相似性,从而使学到的哈希码更具有相似性和判别性。(3)基于语义排序的离散深度哈希的检索算法。哈希码排序信息对哈希技术是至关重要的,然而存在哈希码排序信息利用不够充分的问题,本文提出了通过将哈希码的离散化过程和哈希码排序信息集成到一个整体框架中,从而得到具有明显判别信息的离散哈希码。(4)基于四元组深度哈希的跨模态图像声音检索算法。针对忽略了图像和声音的相对语义相似关系和多尺度上下文信息导致检索性能较差的问题。该算法利用图像和声音的相对语义相似关系和多尺度上下文信息去提高图像和声音的语义关联性,使跨模态检索性能提升。