基于深度卷积神经网络和双域注意力机制的细粒度图像分类研究

来源 :西北大学 | 被引量 : 0次 | 上传用户:muagie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像分类是计算机视觉领域最基础的研究任务之一。近年来,随着人们日常生活场景需求的变更以及市场化因素,研究者们从对猫、狗、花、鸟等大尺度粗粒度图像分类任务的研究关注,逐渐过渡到这些基本类别子类的细粒度图像分类任务上。但是由于细粒度图像样本间极高的相似度,使得在传统图像分类任务上表现优异的深度卷积神经网络却难以有效地胜任细粒度图像分类任务。如何构建分类性能高、计算复杂度低和迁移能力强的细粒度图像分类网络成为该领域研究的重点和难点。本文的研究目标是构建具有高分类性能的弱监督细粒度图像分类网络模型,仅需要提供图像级别的类别标签就能够完成网络端到端的训练和测试过程。通过结合多尺度特征金字塔的思想并引入双域注意力机制,对现有的经典算法模型B-CNN(Bilinear CNN)和CBP(Compact Bilinear Pooling)进行改进。取得的主要研究进展和成果如下:(1)针对目前主流的细粒度图像分类网络仅仅使用单一卷积层提取的顶层特征进行分类而导致识别精度损失的严重缺陷。本文首先从卷积神经网络的工作机理出发,构建多尺度特征金字塔融合网络,其能够充分提取并融合网络浅层和深层输出的表征细粒度图像全局和局部判别性区域信息的一阶和二阶特征用于分类过程;其次,在网络结构中分别嵌入由不同数量1?1卷积核构建的瓶颈层模块和批量归一化层模块。并在CUB-200-2011、Stanford Cars和FGVC-aircraft三个公开的细粒度图像基准数据集上进行了大量的消融实验。实验结果表明:本文提出的多尺度特征金字塔融合网络能够分别大幅度提升两个基线模型B-CNN和CBP的分类性能,同时在网络结构中进一步嵌入瓶颈层和批量归一化层两个模块后,可以实现多层特征的有效降维、大幅度缩减了模型的参数量,并加快了网络的训练收敛速度。(2)针对现有的主流细粒度图像分类网络在训练时仅仅是将各个卷积层提取的特征图以级联的方式进行逐层映射,在此过程中忽略了对于初始卷积特征图更为细粒度层面的特征值分布的关注,从而造成网络模型分类性能的瓶颈。本文分别从卷积特征图的通道域和空间域等不同维度引入注意力机制,并同时考虑双域混合,设计出四种高效、灵活的注意力关注模块。同时为了验证各个注意力关注模块的性能,将其分别嵌入到之前构建的各个特征融合网络中,并在CUB-200-2011、Stanford Cars和FGVC-aircraft数据集上进行实验。实验结果表明:在网络结构中分别嵌入这些轻量级的通用注意力关注模块后均能够稳定提升各初始特征融合网络的分类性能。尤其是基于串行级联方式的各双域混合注意力网络在相应测试集上分别取得了86.2%、93.02%、91.0%的分类精度,优于目前的Mask-CNN、RA-CNN、HIHCA等知名算法,充分验证了本文的双域混合注意力特征融合网络方法是一种性能优良的基于弱监督信息的细粒度图像分类算法。
其他文献
混沌现象是一种自然的非线性现象,在工程、生物学、物理学等领域有着广泛的应用。由于其具有无周期性、不规则性的规律性和灵敏度受初始值的影响等特点,故混沌控制成为近三十
随着科学技术的发展,信息安全成为了网络安全不可或缺的一部分,也成为与我们的生活息息相关的一部分,伴随着信息安全,数字签名应运而生,成为保护信息安全的一道屏障.在传输信息的过程中确保通信双方互相信任以及保证传输的内容是安全真实的数字签名,又有保证信息的完整性、机密性及防伪造性等功能,使得数字签名技术在商业、军事等方面有着重要的作用和特殊的位置.代理签名方案是数字签名的一部分,也是签名数字化体现.多重
大庆油田经过长期的开发建设,使其不但面临着油田持续稳产的严峻形势,而巨油田开发建设对生态环境影响的问题也日益突显.本文从大庆油田开发建设中的生态环境问题出发,针对石
如今各种视觉传感技术应运而生,但是技术的专注性也决定了,为了得到契合人类视觉感官系统或者利于计算机识别应用的图像,需要统筹来自于不同成像技术的源图像的信息,这就是多源图像融合技术。本文的研究重点由红外可见光图像的融合算法展开。本文的主要内容和创新点概括如下:1.以人类的注意力机制作为引导,对视觉显著性检测进行了基础说明,同时列举了不同时期相关的算法。并且进行了两组小实验,加深对5种经典算法的认识,
近年来,随着互联网产业的快速发展以及智能手机和移动运营网络的广泛普及,大量涌现的即时通讯类软件使人与人之间的联系更加紧密,交流效率得到大大提升。随着网络建设的提速
本文从公共数据预测的研究背景入手,在现有机器学习方法的基础上,阐述了深度学习方法以及相关领域公共数据分析的研究现状,针对音乐领域和气象领域的公共大数据预测,主要开展
目前,我国中小企业发展迅猛而急速,不仅带来税收增加、就业岗位增多并呈现多样性、许多新兴行业的出现,让国家注意到了中小企业,同时针对中小企业下发了相关政策和优惠利好的
近年来,视频监控领域下的人脸识别得到了广泛关注,通过视频监控来追踪犯罪分子,大大提升了案件的侦破率。但是犯罪分子可能通过伪装,来逃避监控系统的追查。伪装人脸识别作为
本课题针对非真实感渲染算法研究中的问题,研究并提出了基于单张图像的两种风格化渲染算法——人脸卡通画风格和低模风格。对于人脸卡通画风格的非真实感渲染分为很多不同的类型,本课题针对简单线条人脸表达及夸张的风格进行模拟,旨在绘制出能够充分表现人脸特色的漫画效果。对于低模风格的渲染,我们用颜色大小各异的三角形抽象地表现参考图像,渲染的难度在于利用有限数量的三角形还原参考图像的主要内容,同时保证渲染结果的美
基于金兹堡-郎道理论的相场法(Phase Field,PF)是目前凝固组织模拟中最有潜力的有效计算技术之一,不必跟踪固-液界面,还可方便地将流动等外场引入到相场控制方程中。格子Bolt