【摘 要】
:
目标检测是目前计算机视觉中重要且基础的问题,有广泛的应用背景和实用价值。该任务是在输入图像中定位目标,并在图像中识别出每个物体的类别和位置。近年来,随着大规模数据的出现以及计算机算力的不断提升,具有强大数据拟合能力的深度神经网络方法逐渐成为目标检测研究领域中的主流方法。在现有的目标检测方法中,检测器实现了先进的性能。但是,当前目标检测模型对上下文信息和多尺度信息感知能力仍存在提升的空间。另外,现有
论文部分内容阅读
目标检测是目前计算机视觉中重要且基础的问题,有广泛的应用背景和实用价值。该任务是在输入图像中定位目标,并在图像中识别出每个物体的类别和位置。近年来,随着大规模数据的出现以及计算机算力的不断提升,具有强大数据拟合能力的深度神经网络方法逐渐成为目标检测研究领域中的主流方法。在现有的目标检测方法中,检测器实现了先进的性能。但是,当前目标检测模型对上下文信息和多尺度信息感知能力仍存在提升的空间。另外,现有的方法通常是在正常光照的环境进行检测,而缺乏在暗光环境下的检测工作。基于以上两个问题,本文的主要工作总结如下:针对目前的目标检测模型中存在对上下文信息和多尺度信息感知能力仍有一定不足的问题,本文提出了堆叠特征金字塔注意力网络模型。该模型中,基于多种注意力机制,设计了两个轻量级模块,即自上而下的特征图注意力模块和自下而上的特征图注意力模块。通过学习通道注意力和空间注意力,每个模块都可以有效地在相邻尺度的特征之间建立连接。通过将这两种注意力模块逐步集成到两个编码器-解码器结构中,可以构建两个新颖的特征聚合分支。两个分支充分利用了浅层特征的定位能力和深层特征的分类能力,从而在保持模块轻量化的同时提高了检测精度。此方法在两个具有挑战性的基准数据集(PASCAL VOC和MS COCO)上进行的大量实验并证明其有效性。针对将现有目标检测方法直接应用于暗光环境而导致的性能下降问题,本文提出了一种基于暗光图像增强的一阶段实时目标检测器。该检测器从三个方面适应暗光检测任务。首先,引入暗光增强模块作为图像预处理器,从暗光图像中产生增强的输入。其次,设计了两个模块,即暗光和增强特征融合模块,以及尺度感知的通道注意扩散卷积模块。这两个模块旨在从隐藏在黑暗中的各种尺寸大小的物体中学习强大而有判别力的特征。在实验中,通过消融研究验证了本研究中此模型各部分的有效性。本文将该检测器与当前主流的各种目标检测方法在暗光数据集Ex Dark上的检测性能进行了比较,表明本文提出的模型性能在速度和准确性之间取得了最佳平衡。
其他文献
随着遥感技术的发展,遥感数据融合受到广泛关注。其中,高光谱与多光谱图像融合是一个研究热点。高光谱与多光谱图像融合的目的是获得一幅高空间分辨率高光谱图像,解决直接从传感器获取的高光谱图像空间分辨率低的问题。融合的任务是在保证较低光谱畸变的同时增强图像的空间信息。基于此,本文通过字典学习的方法对融合算法进行研究。本文在现有优秀算法的基础上,通过分析目前融合结果普遍存在的问题,提出两种基于字典学习的融合
随着互联网和大数据技术的发展,许多应用领域如新闻检索、淘宝购物和银行交易等产生海量的流式数据。不同于传统数据挖掘任务中采用的静态数据,这些数据流具有海量、快速、标签缺失、概念漂移或概念演化的特点,同时,由于存在多标记加剧类不平衡与类标签噪声问题,使得数据流的分类研究工作面临巨大挑战。因而如何从标签缺失的数据流中高效精准地挖掘潜在的、富有价值的信息成为数据流分类问题研究的重要任务之一。本文旨在充分利
近年来,我国国民经济发展很快,带动了我国电信行业稳定增长,目前正在研发5G关键技术和产品,需要打造系统、芯片、终端、仪表等完整产业链,重点推进骨干网、城域网、固定宽带接入网、移动宽带接入网、国际通信网和应用基础设施建设,要求升级改造国干网光缆线路,推进双向网、光纤化改造。因此,进入通信电缆人孔内布放光缆、光缆管路施工或障碍维修工作情况日益频繁。通信电缆人孔属于传输网络必经场所。类似于通信电缆人孔的
遥感卫星携带的传感器受到自身性能的约束,采集的单一遥感影像数据的无法兼得高空间分辨率和高时间分辨率的问题。遥感图像时空融合技术是当前解决此问题的重要手段之一,该技术通过结合多个卫星传感器的不同优势得到高时间、空间分辨率的影像数据。就融合数据而言,由于时间间隔较大,预测时刻图像相对于先验时刻图像局部区域发生了地物变化,造成基于先验时刻图像对在变化区域构建的高低分辨率先验失效。就稀疏表示方法而言,方法
在互联网发达的信息化时代,海量文本信息的表示、存储、传输和利用已非常普遍,但有价值的信息获取却让人们陷入困境,导致“信息发达,知识贫乏”。如何在我们生存环境周围,从海量数据中挖掘出有潜在实际意义和价值的信息成为目前亟待解决的研究热点问题之一。在日常工作和生活中,我们接触到绝大多数数据信息都是以文本格式存在的,人们一直渴望能够找到一种高效的工具,能够依据文本信息主体的不同特征,对这些海量文本数据进行
无线传感器网络(Wireless Sensor Network,WSN)在交通管理、智能监控、智能建筑、军事侦察、环境监测领域都有着广泛的应用。无线传感器节点的电池能量有限,特别是在特殊监测的环境中,更换电池的难度增加,导致电池的能量消耗殆尽,网络质量变差。因此,如何延长WSN的寿命,保证节点的能量供应是尤为重要的研究话题。此外,随着网络规模的不断增大,节点间传输数据时产生的干扰也越发严重,由于无
在大数据驱动下的数字化社会中,个人的身份认证变得尤为重要,在此背景下,越来越多的身份认证方式应用在各个领域。掌纹识别作为一项新兴的生物特征识别技术,在过去的二十年里,多种传统掌纹识别方法被提出应用于相关场景中。近年来,深度学习的兴起为多项任务实现了新的突破,掌纹识别也逐渐在深度学习领域展开研究。然而,目前大多数深度掌纹方法往往只是简单的使用存在的经典神经网络完成识别任务,并没有充分的学习掌纹本质特
视觉问答是一种跨模态分析推理任务,其目的是回答基于图片内容提出的自然语言表述的问题。一个完整的视觉问答过程通常被分为三个过程:特征提取、特征选择与融合、预测分类。其中特征选择与融合过程负责跨模态特征交互和对齐,是视觉问答任务的核心。为了实现跨模态特征的更细粒度交互与筛选,本文对视觉问答的特征选择与融合算法展开研究。本文的主要工作如下:(1)现有的视觉问答模型普遍使用注意力机制来选择跨模态输入中的关
随着互联网的发展,越来越多的创作者在社交媒体上发表文章。如何从大量的多媒体文章中自动过滤出高质量的内容,是信息推荐、搜索引擎等系统的核心功能之一。然而,现有的方法存在三个局限性:(1)已存在的方法一般将内容建模为词序列,从而忽略了长距离单词依赖以及非连续短语。(2)由于现有的方法大多只关注文本内容,忽略了社交媒体平台上的内容具有多模态信息(如:文本、图像)。(3)它们依赖大量人工标注的数据来训练质
迁移学习是一种利用从源领域数据中提取的模型对目标领域数据进行辅助训练的方法,旨在解决分布不同以及标记缺失的目标领域训练问题。已有的迁移学习方法大多基于特征表示学习将不同领域中的数据特征映射到一个不变的特征空间,从而增强目标领域训练。在基于特征表示学习的迁移过程中,其目标函数通常需要从多方面来进行领域间的分布差异度量,常见的有边缘分布、条件概率分布以及类别分布。现有的方法对不同的特征差异度量采取固定