细粒度图像分类方法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:fellting
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像分类技术在生产生活中有着广泛的应用。然而,在许多应用场景中,需要对外观十分相似的类别进行分类,传统的图像分类技术难以满足这一需求,因此细粒度图像分类就成了图像分类领域一个重要的研究方向。细粒度图像分类也有广泛的应用场景,比如自然保护区的生物识别、无人超市的商品识别、交通路口的车辆识别等,但是由于“类内差异大,类间差异小”等问题,细粒度图像分类仍然是一个具有挑战性的任务,尚无法满足实际应用的需求。本文基于细粒度图像分类技术的研究现状,结合该领域相关的理论和方法,从注意力机制和数据增广两方面出发,对现有的细粒度图像分类方法进行改进,提高了图像分类模型的判别性区域定位能力以及判别性特征提取能力,取得了良好的细粒度图像分类效果。本文的研究内容主要分为以下两点:(1)基于注意力机制的细粒度图像分类方法。卷积神经网络中的注意力机制包括通道注意力和空间注意力,是定位图像中判别性区域的有效方法。通道注意力常用全局平均池化作为通道的全局信息提取方法,但全局平均池化会丢失部分通道信息。本文则通过将一个通道的不同的频率分量结合,设计了更优的全局信息表示方法,使通道的权重分配更合理。对于空间注意力,本文用带位置信息嵌入的自注意力机制实现对空间全局信息的提取,提高了空间注意力模块所提取的特征的表达能力。本文同时使用通道注意力和空间注意力,并在Stanford Cars数据集上取得了94.7%的分类准确率,优于当前先进的方法。(2)基于数据增广的细粒度图像分类方法。细粒度图像数据集由于样本收集、样本标注方面的困难,容易遇到训练数据不足的问题,因此有必要采用数据增广方法来补充训练数据。但传统的数据增广方法没有考虑图像分类模型对数据的偏好,导致增广样本对模型的分类效果提升作用有限。本文则使用注意力机制定位判别性区域,基于判别性区域对数据进行增广,使得增广样本可以有效利用判别性区域的信息,也使得图像分类模型可以充分学习到判别性区域的特征。该方法在Stanford Cars和FGVC Aircraft数据集上分别取得了95.5%和93.4%的分类准确率,优于当前先进的方法。本文进行了一系列的消融实验,验证了上述研究内容所提出的方法的有效性。
其他文献
毫米波雷达因其探测性能稳定,器件尺寸小,受天气影响小,能够全天候工作等特性,成为了实现高级驾驶辅助系统(ADAS)和自动驾驶汽车中的关键组件。区别于合成孔径雷达(SAR)只能应用于车载平台正侧视或斜视方成像,国内外学者将多输入多输出(MIMO)概念引入车载前视成像,通过毫米波雷达的阵型变化改善其分辨率性能。近年来,传统车载毫米波雷达成像方法存在低分辨、高旁瓣的问题,此外,采用现有的超分辨算法需要对
随着社会的飞速发展,信息爆炸时代的来临,大量不规则的高维数据和复杂的结构不断涌现。对于这些高维数据和复杂结构,如何挖掘其潜在特征以及如何在尽量保证不丢失原始信息的情况下对其进行降维,是近年来一个比较热门的研究课题。如今,数据降维已经成为处理不规则高维数据、解决“维度灾难”的重要方法,而图信号处理技术作为处理离散不规则域上信号的手段,凭借图与数据之间的关联性,同样可以为高维数据降维提供有效的手段。其
非侵入式的大脑功能区活动状态检测是当今脑科学领域的主要议题之一,利用微波技术对大脑功能区活动状态检测研究,对人类脑科学的发展有着重要的意义。论文的主要工作如下:1.结合大脑功能区的生理特性,分析了脑功能区神经元细胞在神经兴奋时细胞膜内外钠、钾离子浓度会发生周期性变化及脑组织电参数随之变化的原因。建立传输模型,分析推导了散射信号与时变介质的介电常数、电导率之间的函数关系。通过推导结果可以得出介质的动
大规模多输入多输出(MIMO)和设备到设备(D2D)通信技术在实现高频谱效率方面发挥了巨大的优势,已成为5G和B5G无线通信网络中具有前景的关键技术,并有望成为6G的重要组成部分。准确信道状态信息(CSI)的获取是实现高频谱效率的基础,目前CSI由基站接收导频利用信道估计技术来获取。受限于相干时间,导频序列无法满足大规模MIMO系统的所有用户实现导频正交。因此,用户不可避免的共享相同的导频,导致了
随着社会化商务的发展,人们在电商平台购物后通常会分享一些购物评论。这些评论包含着消费者对商品的观点、态度和情感,能够对其他消费者购买决策产生重要影响,也是生产者和商家获取用户需求、改进产品设计或销售策略的重要依据。论文使用深度学习的方法,利用大规模评论数据进行细粒度情感分析获取用户痛点,旨在帮助商家寻找用户需求达到精准营销的目的。为获取细粒度情感研究用户痛点,论文使用了两种属性级情感分析方法,以期
第三代半导体中氮化铟(In N)、氮化镓(Ga N)、氮化铝(Al N)和由其组成的多元合金化合物等III族氮化物的研究最为广泛,该类材料统称为Ga N基半导体材料。Ga N基半导体材料的带隙由0.7 e V(In N)到6.2 e V(Al N)均可调控,且热导率较高、电子饱和漂移速率较大、易制备异质结、易在沟道处形成二维电子气(2DEG),目前在高温大功率、高频微波、激光器、LED照明等功率电
由于网络系统内部用户了解网络结构及其安全协议,对网络资源有访问权限以及其威胁行为难以被辨识,其发起的攻击造成的后果甚至远远大于外部攻击,这也使得内部威胁成为近年来异常检测领域最具挑战性的问题之一。现有的内部威胁检测算法存在误报率高、精度受限、对样本需求量大且很少考虑“人”作为内部威胁这一主体因素的问题,忽略用户间的相似性对发生威胁攻击的影响。基于此,论文针对内部威胁检测及预警方法进行研究,旨在提高
近年来,智能手机安全性的问题越来越受人们关注,用户识别认证在保证智能手机安全方面扮演着重要的角色。随着对便携式设备安全性要求的提高,针对智能手机已经提出了各种各样的用户身份认证技术,其中包括基于加速度计数据的身份认证。然而,基于加速度计数据采集的时间序列信号非常复杂,信号具有高度非平稳特性,信号的统计量特征随时间变化很大,因此给用户识别研究带来了挑战。在这项工作中,采用十个不同用户在步行、下楼和上
在现代军事和民事通信领域中,VHF/UHF频段车载天线应用愈加广泛,而传统的窄带天线已无法更好地适应日益复杂的电磁环境和通信需求。因此,车载天线的主要研究方向就是宽带与小型化。本文根据实际工程需要,利用多工器,设计一副单端口VHF/UHF频段宽带小型化天线。主要研究内容如下:1、VHF频段宽带天线的设计。为满足车载架设环境,该天线类型为鞭状天线。本文利用天线辐射体共用思想,设计一种单、偶极子辐射体
HDR(High Dynamic Range,HDR)图像从出现到走进大众的日常生活中,一直是显示领域的关注焦点。由于普通成像设备中光学采集模组进行实景拍摄时捕获到的动态范围远低于实景动态范围,在成像时难以将实景的光影轮廓完整显示出来。基于多曝光的高动态范围成像技术能够有效克服成像设备硬件的局限性,通过在实景中连续拍摄一组图像,利用加权融合的方式,使得图像能够记录下更高的动态范围。因此,本文对高动