基于弱监督信息的细粒度图像识别方法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:wangjie198811
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
细粒度图像识别是计算机视觉领域中一项颇具挑战性的研究课题,目的是区分同一大类下各个不同的子类。与跨物种的粗粒度图像识别任务相比,细粒度图像数据集内不同种类的目标外观相似程度较高,而同一种类的目标由于姿势、视角和光照等因素导致视觉差异显著,因此使用普通的深度学习图像识别技术难以精准地判断细粒度目标类别。强监督细粒度识别算法借助目标边界框或部位标注点等额外的监督信息构建检测模型,从而对图像判别性区域进行定位,促使识别精度显著提升。然而,这种手工标注的监督信息获取代价高昂,致使这项技术无法应用于大规模真实场景。与此同时,弱监督细粒度识别算法仅利用图像级标签即可较为准确地完成图像分类任务,引起学术界与工业界的广泛关注。本文从基于弱监督信息的细粒度图像识别问题出发,针对现有技术的弊端与缺陷,设计出三种优化网络结构,具体内容如下:
  1. 针对双线性细粒度识别模型Bilinear CNN中局部小尺度细节信息丢失和特征表达能力不足的问题,提出一种交叉多流融合多尺度特征的混合阶卷积神经网络。该网络首先依据深度神经网络特征金字塔结构,采用多尺度特征融合策略将同一基础网络中不同卷积层的输出特征进行合并,之后通过混合阶池化操作汇聚原始卷积特征的一阶和二阶统计信息,增强特征学习能力,最后利用建立在三路非对称基础网络之上的交叉多流网络框架进一步组合特征多样性。实验结果表明,与现有算法相比,交叉多流融合多尺度特征的混合阶卷积神经网络在CUB-200-2011、FGVC Aircraft和Stanford Cars细粒度图像数据集上识别准确率有所提升,达到行业领先水平。
  2. 针对双线性细粒度识别模型Bilinear CNN中图像特征描述向量维度过高引发的模型参数量与计算量增加的问题,设计出一种适用于真实场景的跨层特征交互的轻量级卷积神经网络。该网络利用多层聚合分组卷积运算代替常规卷积构建出一种新型残差模块,并将其直接嵌入深度残差网络框架,从而减少基础网络的存储空间和计算成本。此外,该网络结合张量分解思想推导出一种计算高效的新型池化方案,能够有效压缩图像特征描述向量维度,进而缩减全连接层权重参数矩阵的尺寸。最后,该网络通过跨层特征交互网络框架汇集各特征层之间的交互信息,增强网络的特征学习与表达能力。实验结果表明,在未牺牲识别准确率的情况下,基于跨层特征交互的轻量级卷积神经网络的参数量和计算量显著降低,能够满足实时性识别任务要求,在识别准确率、计算复杂度和技术可行性三个方面获得更优的平衡。
  3. 针对多数弱监督细粒度识别算法割裂判别性区域定位与细粒度特征学习之间的联系导致后续发展受限的问题,构建出一种包含student-model、teacher-model和classification-model模块的基于自注意力机制的循环卷积神经网络。该网络结合区域建议网络的锚框思想与基于排序学习算法的Teacher-Student循环反馈机制搭建出自注意力区域推荐网络,能够在仅使用图像级标签的情况下较为准确地检测细粒度图像判别性区域并提取对应特征信息。此外,在多任务联合学习过程中,该网络通过参数硬共享机制降低过拟合风险,并采用动态权重分配机制根据每一子任务自身损失函数变化情况自适应地调整其权重系数,减少人为设定超参数量,促使权重分配更加合理。实验结果表明,基于自注意力机制的循环卷积神经网络通过相互增强、彼此促进的方式加深判别性区域定位和细粒度特征学习间的关联,使得网络具备自主检测目标及局部关键部位的能力,从而降低图像背景干扰,在CUB-200-2011、FGVC Aircraft和Stanford Cars细粒度图像识别任务中表现优异,同时整体网络通过端到端的单阶段训练方式即可完成优化,极大地减轻设计负担。
其他文献
随着人类步入信息时代,信息安全获得了越来越多的关注,因此研究安全高效的生物识别技术具有重要意义。指静脉识别凭借其内部特征、活体识别、安全性高等优异性能而成为生物识别领域的研究热点。本文从传统方法和深度学习两个方面对指静脉识别进行研究,对图像预处理、特征提取以及识别匹配的全过程进行了详细探讨。本文的主要研究内容如下:  第一,概述了常见生物特征识别技术的特点,分析了指静脉识别的优势;阐述了指静脉图像
学位
近年来,随着深度学习和图像处理技术的飞速发展,目标检测成为了计算机视觉领域中研究的热点之一。目标检测的任务是检测出图像中感兴趣的目标,确定目标的所属类别和位置大小。由于视觉图像中多样的目标外观、尺寸、姿态,不同的拍摄角度、光照条件等问题,依赖于手工特征的传统目标检测算法一直有很大局限性。而随着深度学习理论的不断发展,算法和网络结构的不断创新,深度学习在各类目标检测公开数据集中取得了优异的成绩,为很
学位
基于视觉的即时定位与地图构建(Simultaneous Localization and Mapping,SLAM)技术,作为实现全自主移动机器人的关键技术之一,引起了自动驾驶、增强现实等新兴领域学者的广泛关注。结合语义分割与视觉SLAM ,开发基于深度学习的语义SLAM技术成为突破传统视觉SLAM算法瓶颈的重要方向。针对环境感知与实时性需求,文章提出了基于深度学习的语义SLAM系统方案,利用深度
学位
实正弦信号频率估计不仅是现代数字信号处理领域重要的研究课题,而且在军用和民用雷达系统、通信系统、生物医学等领域都有着广泛的应用,因而高斯白噪声背景下实正弦信号频率估计问题的研究有着重要的理论意义与应用价值。并且,离散傅里叶变换(DFT)因物理意义直观明确和计算量小等优点,逐渐成为重要研究方向之一。本文对插值DFT(IpDFT)和智能DFT(SDFT)相关算法进行研究,发现实正弦信号DFT存在栅栏效
学位
毫米波大规模多输入多输出(Multiple-input Multiple-output, MIMO)通信是未来无线通信的关键技术之一。大规模 MIMO 系统利用波束成形技术不仅可以弥补毫米波信号传输的路径损耗又可以充分挖掘空间自由度。本文针对毫米波大规模 MIMO 中的波束训练和波束跟踪开展研究工作,具体如下。  研究了基于码本的波束训练技术,提出了一种利用辅助计算设计的自适应码本并基于该码本提出
随着大数据时代与互联网时代的发展,多媒体数据在人们生活中扮演着重要的角色,极大地便利人们的生活。然而在数据的传输与处理的过程中,信息安全问题显得尤为重要。尤其是随着云计算技术的普及与应用,云端存储的海量数据的安全保护问题更为严峻。如何保障信息传递过程的安全性、信息内容的完整性,成为学者们广泛研究的方向。图像加密域可逆信息隐藏技术结合了图像加密技术与可逆信息隐藏技术,在图像传递过程中对图像内容进行加
学位
近些年随着汽车的普及,道路交通安全日益成为人们普遍关注的焦点问题。科学技术的发展带动了汽车核心技术的革新,其中提供辅助驾驶功能的毫米波车载防撞雷达因其体积小、功耗低、精度高、抗干扰能力强等优势,成为目前车载传感器的主流方案。本文将以毫米波车载防撞雷达为研究对象,对现阶段毫米波雷达信号处理中的关键技术展开研究,并针对目标检测与参数估计中存在的问题提出具体有效的改进算法,最终形成一套完整的、可行的毫米
学位
随着深度卷积神经网络的兴起,自然场景中的文本检测得到了广泛关注。场景文本检测具有很大的应用价值,比如广告过滤,场景理解,文档分析以及机器人导航等等。但是,因为尺寸、长宽比和方向的巨大变化以及图像扭曲、极端的照明情况和遮挡问题,场景文本检测仍然面临着巨大的挑战。本文的主要工作和创新如下:  1.本文研究了基于语义分割的文本检测算法EAST,并提出了一种含有空洞卷积的场景文本检测算法AC-EAST。A
学位
本文针对毫米波大规模多输入输出(Multiple-Input and Multiple-Output,MIMO)系统,分别研究了基于经典方法与基于深度学习方法的信道估计。其中经典方法包括过采样与基于旋转不变技术的信号参数估计(Estimating Signal Parameters via the Rotational Invariance Techniques,ESPRIT)。  首先对于使用过
近年来,随着医疗水平的快速发展,先进的医疗设备开始广泛应用,众多医疗数据得以有效保存。临床医学作为医学研究与临床诊断的桥梁,数据具有多样性、高维性、冗余性等特点,合理的医疗数据分析手段对了解发病原因、辅助医生诊断、疾病预防等具有重要意义。  心身疾病作为一门新兴的临床科学,确诊过程不仅需要精密仪器的检测,还需要医生凭借丰富的临床经验问诊,数据收集繁杂,具有临床实践的特殊性。抑郁症是一种常见的心理疾
学位