基于注意力机制的目标检测技术研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:tank12134
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目标检测任务是图像视觉领域一项具有重大挑战性的研究课题。它要求计算机在一幅含有多目标物体的图像中,对感兴趣的物体进行分类,并且通过边界框标注出每个物体的具体位置。在实际应用中,目标检测在智能监控、空间遥感及医疗辅助诊断等方面具有非常重要的研究意义与价值。随着GPU计算性能的不断优化以及人工神经网络的深入研究,基于深度学习的目标检测算法在通用目标检测任务上取得了较为瞩目的成就,但对小目标物体的识别精度仍不甚满意。此外,与公共数据集上的通用目标检测任务不同的是,对于现实中一些特定场景下的目标(如商品目标检测),由于背景环境以及分布等具有一定的特点,还具有其特有的识别难点,仍然有较大的提升空间。为此,本文在当下流行的检测算法的研究基础上,从通用的目标物体以及特定场景下的目标物体两方面进行研究,具体主要包括以下两个方面:
  虽然目前在通用目标数据集MSCOCO上的检测任务已经取得了不错的性能,但由于该数据集中目标物体种类多以及尺寸多变,整体的识别效果仍有较大的提升空间,尤其是对其小尺寸目标物体的识别精度。为此,本文提出了基于双注意力模型引导来优化目标特征的检测算法框架,具体包括多尺度特征级联注意力模块以及显著通道自注意力模块,多重注意力共同作用使得特征图更具表征性和判别性。通过与当前先进算法对比,表明所提方法具有一定的有效性。
  随着消费升级,对超市及仓库智能化的管理日益重要,为了促进商品目标检测任务的发展,本文构建了一个以奶茶为目标对象的货架稠密小商品数据集,并采用多种检测算法对其进行评估。然后针对该数据集中目标物体小且分布密集,并且平均目标数目多等识别难点,提出了一个多感受野信息融合的注意力模型。该模型通过自下而上的前馈神经网络构建出多尺寸特征金字塔,然后自上而下将不同尺度的特征进行融合操作,用来丰富特征的语义信息。并通过对卷积神经网络各阶段特征图的每一个区域进行不同重要性加权,增强特征图中目标物体的信息,缓解背景信息以及非目标物体的噪声干扰。同时,还提出一个可自动分配权重的损失函数,使目标类别分布不平衡的问题得到了有效解决,取得了较好的检测效果。
其他文献
目标检测作为一项重要的计算机视觉任务,用于对图像所包含的物体进行分类和定位。近年来,深度学习技术的快速发展使得目标检测迎来了新的契机,产生了许多经典算法。一般来说,从是否产生候选框的角度出发,可以将目标检测算法划分为两个分支:实时性良好的单阶段检测算法以及准确率相对出色的基于区域提议的算法。多尺度的目标检测一直都是这两种算法优化的基本挑战,尤其是对于小目标的检测。  本文针对特征金字塔网络(Fea
学位
随着基于位置服务需求的增长,室内定位成为国内外学者研究的重点领域。研究发现采用多传感器信息融合方法可以提高定位准确度。针对室内定位的发展趋势以及惯性和视觉定位的各自优缺点,从不同融合结构角度出发,本论文主要提出了以下三种融合定位算法:  第一种算法是利用极限学习机融合惯性和视觉信息进行室内定位。在基于单层极限学习机的视觉定位方法中,引入图像模糊判断解决采集的图像模糊时视觉定位算法误差大的问题。同时
在当今的信息化时代,随着人类对高质量图像和视频的主观需求越来越强烈,图像和视频处理技术越来越广泛地应用在各个领域。图像复原技术是指在现有硬件条件下,从软件层面对退化图像和视频进行处理,使其尽可能地复原出目标场景的细节信息以提升图像和视频质量。近年来,深度学习由于具有强大的自学能力,可以端到端地学习不同质量空间的特征映射,为图像复原领域带来了全新的发展理念。  在图像复原任务方面,现有的深度卷积神经
学位
目标检测与角度估计技术是数字图像处理研究的热门之一,伴随着深度学习框架的逐渐成熟,目标检测与角度估计技术在学术界掀起了一股新的热潮。此类技术被广泛应用于诸多场景中,然而在应对不同场景需求时,目标检测与角度估计技术经常遇到信息观测维度的问题:在某些有限的信息观测维度下观测,目标之间或目标与背景之间差异较小,进而导致分辨效果较差。因此为提升目标检测与角度估计效果,需要结合场景特点,在场景内寻找最有效的
学位
傅里叶变换红外光谱(Fourier transform infrared spectroscopy,FTIR)显微成像是一种同时涵盖精细光谱信息和空间信息的微区分析技术,具有上百个光谱波段的探测能力,光谱分辨率可达到λ/Δλ=100个数量级的光谱立体图像,最近一些文献中也称FTIR显微成像为FTIR高光谱显微成像。依据化学计量学定性剖析光谱信息时关注光谱维度,是因为FTIR显微成像数据具有丰富的特
水声通信技术作为智慧海洋工程中的一项重要技术,经历了近半个世纪的发展。针对水声通信网络层技术的研究层出不穷,大大提升了水声通信系统的可靠性和有效性。随着水声通信技术的发展,水下节点间无线组网通信受到了广泛关注,使水声传感器网络(Underwater acoustic sensor network,UASN)的工程化成为可能。在UASN中,端到端可靠传输一直是该领域备受关注的研究热点之一。论文以国家
无线通信网络正处于一个机遇与挑战并存的深度变革期。为了满足呈指数级增长的用户业务需求,无线通信网络的布设结构正逐渐向密集化和不规则化演进。与此同时,为了提高日益紧缺的可用频谱资源的使用效率,无线通信网络中的多址接入技术由正交模式向非正交模式转变。面对标新立异的通信技术,亟需充分挖掘网络参数与网络性能之间的内在联系,探究网络性能随网络参数的变化规律,并以此为理论依据进一步指导优化网络设计。然而,在形
近年来,随着多媒体技术的发展,立体图像受到越来越多的关注,而立体图像在采集、压缩、传输、显示等过程中均会产生降质问题,立体图像的质量会直接影响人们的观看体验,因此,亟需一种有效的评价方法对立体图像质量进行评估,好的评估方法还可以刻画与之相关的各种图像处理技术的优劣,并据此加以改进。  深度学习,尤其是卷积神经网络在最近几年得到了快速发展,在图像分类和物体检测等领域中都得到了很好的应用。卷积神经网络
随着计算机网络和移动端通信设备的长足发展,社交网络作为人们相互沟通的一大载体,在人们日常生活中占有着至关重要的部分。社交网络的数据载体很丰富,无论是文字、图片以及视频都可以作为其传播的载体。越来越多的人倾向于从不同的社交网络来获取一个事物的评价,比如从团购应用的评论来获取对一个店面的评论,从视频中对产品的评测获取产品的信息等。所以对多模态的数据的处理,并且从多模态数据中获取情感标签中获取有用的信息
面部表情识别是计算机视觉领域的经典问题,它在人机交互、辅助驾驶、远程教育、医疗诊断等领域存在广泛的应用。随着卷积神经网络以及深度学习技术的发展,基于深度学习的面部表情识别取得了比传统方法更加出色的性能,但是依然存在着一些棘手的问题:  第一,小规模的面部表情数据集在卷积神经网络中容易产生过拟合。第二,面部表情特征与身份特征等其他非表情因素混合在一起,导致较大的类内差异,一些表情难以区分。第三,面部
学位