论文部分内容阅读
随着互联网和多媒体技术的飞速发展,网络上各种形式的媒体内容(文本、图像、音频、视频)大量涌现并呈爆炸式增长,如何让计算机能够快速准确地理解多媒体信息内容并挖掘不同模态媒体之间的关联信息以实现跨媒体的检索,成为人们快速从混杂而又庞大的多媒体信息中获取到自己所需有效信息的关键。近年来,深度学习在信息检索领域发展迅速,因其强大的功能,也越来越多地被人们用于跨媒体检索的研究中。由于成熟的深度神经网络模型参数数量大,计算量大,所以跨媒体检索信息的速度会受到相应限制,直接影响使用者检索信息的体验感。本文简要分析了跨媒体研究现状,对已有的跨媒体检索方法进行总结。在综合分析了已有的跨媒体检索方法的基础上,以图像和文本的双向检索为切入点,针对深度卷积神经网络模型计算量大的问题,提出将压缩卷积神经网络用于图像和文本双向检索的跨媒体检索方法并取得了较好效果。本文的主要工作如下:(1)分别采用预训练的通道剪枝的VGG-16(Channel Pruning VGG-16)压缩卷积神经网络和经过目标数据集微调的Channel Pruning VGG-16压缩卷积神经网络来提取数据集图像底层特征,采用狄利克雷(Latent Dirichlet Allocation,LDA)文本主题模型来提取数据集文本主题特征,然后在更高抽象语义层次上表示图像和文本,将“异构”的图像底层特征和文本主题特征分别送入多类逻辑回归模型进行分类训练,得到在同一语义空间的图像类别概率特征向量和文本类别概率特征向量,再利用文本类别概率特征向量对图像类别概率特征向量进行正则化,使得图像特征更有语义判别能力,最后利用去均值化的余弦相似度度量算法计算图像类别概率特征向量与文本类别概率特征向量之间的相似度,采用相似度大小矩阵计算平均准确率均值(Mean Average Precision,MAP)评估实验结果。在不同数据集上进行验证,其结果表明,将压缩卷积神经网络运用到图像和文本的双向检索中,能够在保证检索结果准确率的基础上提高了检索速度。(2)在上述算法的基础上,利用基于数量积的相似度度量方法来计算图像特征向量与文本特征向量之间的相似度,进一步提高图像和文本的双向检索结果的准确率。两个向量的数量积不仅表征两个向量之间的夹角,也表征一个向量在另一个向量方向上的投影,既考虑到了两向量之间方向上的差异,又考虑了两向量模大小的差异。因此,将数量积用于计算图像特征向量与文本特征向量之间的相似度,可以从方向和绝对数值两个方面区分图像与文本的差异。在不同数据集上的对比实验结果表明,使用数量积相似度度量算法计算图像特征向量与文本特征向量之间的相似度能够进一步提高检索的准确率。