基于深度学习的图像检索算法研究

来源 :中国科学院大学(中国科学院西安光学精密机械研究所) | 被引量 : 0次 | 上传用户:LYXTTKX
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像检索技术研究的是如何在海量的图像数据中检索出与输入最为接近的图像,这一技术在电子商务、公共安全、城市规划等方面有着广泛的应用,已经成为人工智能领域研究的重要问题。与此同时,随着航空航天技术与遥感技术的不断发展,遥感图像检索问题也成为近年来研究的热点。特征提取与相似性检索是遥感图像检索技术最关键的步骤,当处理海量的高分辨率遥感数据时,现有方法没有充分考虑多光谱遥感图像的多通道特性,导致特征提取不充分;也没有充分学习特征的多尺度信息,不能捕捉更多的上下文信息,导致特征信息丢失;此外,现存的跨模态检索方法没有很好地学习图像与声音之间的一致性对应关系。因此本文利用深度学习能够提取高层语义信息和哈希算法快速及低内存的优点,分别针对遥感图像的单模态检索和图像与音频之间的跨模态检索问题进行深入的研究与探索。具体的,本文的主要工作内容包括以下三个部分:1)提出基于多通道特征融合的无监督变分自编码器哈希算法(VAEH),通过采用多通道特征融合(MCFF)的方式提取图像特征信息,以充分考虑多光谱遥感图像的多通道性质,并将变分构造过程和自动编解码器应用到哈希函数的学习过程中,使用变分自编码器的KL距离对哈希码的生成进行约束,从而使得局部保持映射过程中的判别性加强。该算法在两个大型公开遥感数据集SAT-4和SAT-6上取得了良好的效果,实验结果验证了所提算法的有效性。2)提出基于多尺度扩张卷积的变分自编码器哈希检索算法(MECH),该算法引入了一种新的基于多尺度扩张卷积的上下文特征增强模块,该模块由多个具有不同扩张因子的扩张卷积组成,可以使得卷积过程中感受野的面积扩大,从而可以从特征中获得更多的语义信息,解决了现存无监督遥感图像检索方法不能充分学习特征的多尺度信息,不能捕捉更多的上下文信息,导致生成的哈希码有效性降低的问题。该算法也在SAT-4数据集和SAT-6数据集上进行了实验,实验结果证明该算法具有较好的检索精度。3)提出基于深度相似学习的跨模态检索算法(CRDSL),分别提取图像数据和音频数据的特征信息,并基于深度相似网络训练模型,从而解决图像与音频之间的跨模态检索问题。该算法在PASCAL语句数据集和Wikipedia数据集上进行了实验,实验结果验证了所提算法的可行性。
其他文献
在高功率激光系统中,激光波前参数是用于系统特性评价的重要指标,随着我国惯性约束聚变(ICF)高能激光装置的规模越来越大,装置对运行的单发次激光波前的测量及精密调控要求越来越高,因此对瞬态波前高精度测量提出了迫切需求。然而,传统相移干涉测量技术需要多幅相移的干涉图,达不到瞬态测量的要求;基于空间载频的傅里叶变换无法实现采样间隔的自定义,对宽带光场的信息提取精度差。为了实现宽带瞬态激光波前的相位恢复,
视线估计技术是一种新兴智能人机视觉交互方式,是通过构建眼部图像中眼动特征和注视点之间的模型,来解算人眼注视方向或注视点位置的技术。本文在分析头戴式系统集成化结构特性下,重点研究两部分内容,包括近红外光照明下瞳孔特征提取算法和建立基于此特征的视线估计模型。本文主要工作和研究成果如下:(1)本文阐述了视线估计技术的国内外研究现状及趋势,依据头戴式系统特性引出了课题研究背景与意义,具体分析了眼动特征定位
测量是利用某种工具实现对目标的客观认识,随着科技的进步,高精度微位移的测量变得至关重要,对测量仪器的要求也越来越高。电涡流位移传感器是能够进行非接触、高精度测量的一种测量仪器,其主要是利用电磁的互感效应进行工作的,能够适应复杂的测量环境,抗干扰能力强,目前对电涡流传感器的研究主要是单频位移量测量的性能改善和多频探伤的信号处理,该论文主要是对双频激励的电涡流位移传感器进行研究,通过对双频的解耦运算剔
生物柴油作为21世纪最有前景的代用燃料,可以以任意比例和柴油混合使用,使用时无需改变柴油机结构,生物柴油自含氧,可以有效降低颗粒物排放,燃用生物柴油来降低颗粒物排放已经被证明是一种切实可行的方法。然而,燃用生物柴油在降低颗粒物排放的同时,也会使颗粒物粒径分布和碳质组分发生改变。本文采用一台满足国V排放标准的某型号四缸电控高压共轨柴油机,在选定工况下,进行燃用柴油和三种不同原料生物柴油(大豆油、棕榈
声源识别在噪声控制工程,声学故障诊断等方面都有重要应用。目前基于传声器阵列测量的声源识别方法主要包括波束形成和近场声全息,这两种方法都需要声信号相位作为信息基础来识别声源。工程中还存在声源辐射白噪声的情况,这种情况下各测量点处的声信号并不相干,无法使用以相位信息为核心的的声源识别方法来识别声源。本文提出利用各测量点处的有效值信息进行内积运算来识别球面波声源的方法,其基本原理是用传声器阵列测得声压信
深空探测已经成为世界科技强国追逐的热点。中国计划在未来实现载人登月,载人月球车将辅助宇航员在月球表面行驶并完成探测、考察、收集和分析样品等复杂任务。月球表面环境复杂,将平视显示器(HUD)应用于载人月球车可以给宇航员带来较大的便利。月球车载平视显示器可将月球车仪表盘信息、导航、预警信息等投影在宇航员前方对应位置,融合显示于月球表面真实视景,来增加宇航员对周围环境的感知和理解。本文针对月球车载平视显
随着成像技术的发展及广泛应用,彩色图像成为各项科研探测活动中信息的一种重要载体及重要探测技术手段,彩色图像处理研究凸显出了及其重要的应用价值。覆盖了彩色滤波阵列的彩色相机是最为常见实用的一种成像手段,其数据量和灰度图一样多,在经过插值还原后可以重现彩色信息,是目前彩色相机广泛采用的一种方式。本文对彩色滤波阵列彩色相机进行相关技术研究。从应用场景分析出发,由于彩色成像相机光学镜头,滤光片参数,传感器
激光熔覆技术利用高能激光将粉末材熔覆在基体表面,形成具有特殊性能的冶金结合层,以此来改善金属零部件的表面性能。激光熔覆过程是一个复杂的物理化学反应过程,其中熔池是其最小的成形单元,熔池由高能激光束、金属粉末和基体相互作用而产生,熔池的质量直接决定了整个熔覆层的质量好坏,而熔池凝固后的裂纹数量、致密性及粗糙度等都与熔池的温度有着直接的关联。目前国内外有一些学者对熔池温度与激光熔覆质量之间的影响关系进
天基红外系统避免了地球大气对红外谱段的吸收、水汽环境对低温光学系统的影响和较短观测时段这些地基观测的缺点。本文提供了一种低成本,小型化的天基红外光学系统方案,可以实现高信噪比探测,通过获取实时的光度变化,推演红巨星时期的恒星结构变化,了解恒星的演化过程,本文的主要任务:1)验证低温红外光学系统自身背景辐射模型,对系统自身背景辐射进行定量的计算;2)验证低温红外光学系统在微小卫星平台的实现可能性,验
作为承载信息的重要载体之一,图像在国家重点需求和人类的日常生活中都有着重要的作用。但是由于光照条件、拍摄设备等因素的影响,采集到的低照度图像无法高效传递信息。这些图像往往伴随着对比度低、颜色失真、噪声影响和细节缺失等一系列问题,不但会影响人类的视觉感知,而且限制了基于计算机视觉等的后续处理和应用。因此,开展有关低照度增强算法的研究具有重大的理论意义和应用价值。近年来,基于深度学习的低照度图像增强算