基于卷积神经网络的快速图片检索算法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:qazaq1313
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,智能照相设备的普及带来图像数量的激增,如何从海量图像中快速准确地查询到用户感兴趣的内容,已成为多媒体信息检索领域的一大研究热点。基于内容的图片检索,允许用户通过输入样本图片检索出语义上相似的图片,已在电子商务、媒体设计、公共安全等领域获得广泛应用。对于大规模图片检索,检索准确率、资源消耗、检索效率是需要考虑的主要因素。卷积神经网络能够学习图片的深层语义信息,基于卷积神经网络的图片检索能大幅度提升检索准确率。哈希算法将任意长度的向量映射为较短长度的二进制码,可解决资源消耗和检索效率两大问题。基于卷积神经网络的哈希算法是当前图片检索的一大重要研究方向。由于现有的有标签图片的缺少以及人工标注的高成本,本文首先从无监督深度哈希方面展开研究。接着,由于现有的有标签图片通常拥有多个标签信息,如何充分利用图片的多标签信息来提升检索准确率也是本文研究的一大重点。本文针对无标签图片提出了基于数据增强的无监督深度哈希算法(UTH)。我们首先介绍两大常用的度量学习模型:Siamese和Triplet,并设计实验证实Triplet在检索准确率方面优于Siamese。为了让模型学习到无标签图片的辨识信息,UTH利用数据增强将原始图片进行不同程度的旋转,并随机在数据集中抽取一张图片和旋转图片匹配。原始图片、旋转图片和随机图片构成了具有辨识信息的三元组训练样本。在训练中,本文中提出的判别损失函数用来学习三元组训练图片的辨识信息。量化误差损失函数和均匀分布损失函数分别用来控制输出特征向量的分布,降低量化误差并提升哈希码的表达能力。在三组开源数据集CIFAR-10,MNIST和In-shop上大量的实验结果证实UTH能够学习到具有辨识性的哈希码,提升模型的检索准确率。本文针对多标签哈希提出了基于mLogTriplet损失函数的多任务多标签深度哈希算法。针对triplet损失函数非处处可导的问题,我们提出一个处处可导的mLogTriplet损失函数。另外,WContrastive损失函数被用来学习多标签图片之间的多级相似特征,提升检索返回列表的质量。为了更加充分地利用图片的多标签信息,交叉熵损失函数被用来进行多类别分类,直接学习每个类别在特征空间内的分类超平面。在多标签数据集VOC2007和MIRFLICKR-25上大量的实验结果证明本文提出的方法在检索准确率方面的有效性。
其他文献
目的:通过对比分析经穴与非经非穴针刺对功能性便秘(Functional Constipation,FC)患者边缘系统脑区低频振荡振幅(Amplitude of Low-Frequency Fluctuation s,ALFF)和静息态功
随着线上信息数据的大量增长,“信息过载”成为不可忽略的问题,推荐系统是克服此问题有效的手段之一。其中,用户与商品间关系的建模在推荐系统中扮演着重要的角色。但现存的方法中,大多数模型是采用了一种线性的方式对此建模,这可能会限制模型的性能。尽管最近的一些工作已经运用深度学习技术去捕捉用户与商品间的非线性关系。但当神经网络被使用时,这里仍存在两个潜在的问题。第一个问题是随着神经网络层数的增加,整体算法的
圆周SAR(Circular SAR)是能全天时全天候工作的一种新兴成像雷达,其雷达随着载体在某一高度做圆周运动,天线波束中心始终指向成像区域中心。在这种运动模型下,雷达能够全方位的获得目标的反射信息,使得方位向的频谱信息扩展到最宽,不仅获得了更多目标信息,也大大提升了方位向的分辨率,有着传统直线SAR无法比拟的优势。现有的圆周SAR成像算法中,时域的后向投影算法(Back Projection,
背景:重症肌无力(myasthenia gravis,MG)是一种自身免疫性疾病,由针对神经肌肉接头突触后膜蛋白的自身抗体导致神经肌肉接头传递障碍。重症肌无力在发病年龄、受累肌群、病程
随着信息时代的飞速发展和用户数据量的快速增长,数据库的性能变得越来越重要。主存哈希连接算法作为数据库连接操作的一种实现,具有速度快、应用范围广的特点,一直受到国内外学者的普遍关注。根据哈希连接算法是否针对硬件架构特性进行优化可以将其分为两大类型,分别是硬件非敏感哈希连接算法和硬件敏感哈希连接算法。新一代众核处理器Knights Landing Processor(KNL)具有与多核处理器不一样的架
自由空间光(Free-Space Optical FSO,)通信,又称无线光通信,是一种具有通信频带宽、保密性强、容量大及功耗低等多种优点的新兴通信方式,在目前的通信领域中受到了极为广泛的关注。准循环LDPC(Quasi-Cyclic LDPC,QC-LDPC)码作为一种实用性极强的码,其校验矩阵拥有准循环特性,能够在降低构造复杂度的同时获得优异的码性能。将比特交织迭代译码编码调制(Bit-Int
目的:探讨circEPSTI1在胃癌组织和细胞中的表达及功能,并分析其在胃癌中的临床意义。方法:采用qRT-PCR法检测circEPSTI1在胃癌组织与非癌胃粘膜组织以及不同胃癌细胞与正常胃
在大数据时代,越来越多的视频数据等待着被处理、分析和挖掘。然而,很多视频在产生时并没有进行有效的标注甚至没有标注,这给人们搜索并处理他们感兴趣的视频部分带来了极大
基于地理位置的社交网络随着互联网技术的发展而逐渐被人们所接受,其提供了发布即时消息、与他人分享定位等功能,形成了更加具有现场感的线上社交圈。庞大的用户量和互动信息为海量数据的提取和挖掘奠定了基础,因此吸引了不少学者的关注。但这不仅是给业界学者的研究提供了一个良好契机,同时更是带来了大数据时代背景下的一个具有现实意义的挑战。其中,兴趣点推荐算法以其应用的广泛性和使用的便捷性,在基于地理位置的社交网络
预测控制作为一种新型计算机控制算法,近年来得到快速发展,在工业控制中以模型精度要求低、计算方式简单、控制品质优良的特点,取得了十分成功的应用。但是由于工业过程对象的非线性模型难以建立以及控制要求不断提高,基于单模型的预测控制算法已经难以满足时变,大时滞系统的控制要求。因此,对于多模型预测控制的研究可以有效地拓宽预测控制在工业控制领域中的适用范围,提高其对复杂工业过程的控制品质。本文从预测控制的产生