基于边缘引导和注意力机制的显著目标检测研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:w18asp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为计算机视觉任务中的一个重要分支,图像显著目标检测旨在研究让计算机模拟人类的视觉注意力机制提取图像中最感兴趣的目标或区域。近年来,随着卷积神经网络在不同计算机视觉任务中的广泛使用,基于卷积神经网络的显著目标检测吸引着越来越多人的关注。基于传统机器学习方法的可见光显著目标检测在遇到场景复杂、目标与背景相似等挑战时,目标边界模糊现象较为严重。而热红外成像仪可以根据物体表面的热辐射成像,不会受到雨雪、光照、烟雾等影响,所以近年来热红外图像在计算机视觉任务中得到了较为广泛的利用。热红外图像同样也可以很好地协助可见光图像中的显著目标检测,然而现有的可见光-热红外(RGB-T)显著目标检测数据集、场景简单,数据量少,并且已有的RGB-T显著目标检测算法几乎是基于传统的机器学习算法,检测效果及效率都不够令人满意。针对上述问题,本文研究主要分为以下三方面内容:第一,为了得到图像中显著目标的准确边界,本文提出了边缘引导的非局部全卷积神经网络ENFNet来进行边缘引导特征学习,以实现对显著目标的精确检测。具体来说,我们在全卷积神经网络中提取层次化的局部特征,然后合并非局部特征,从而实现有效的特征表示。同时,还提出了一种引导模块,将边缘先验知识嵌入到层次特征中,不仅可以进行特征级别的操作,还可以进行空间方向的变换,从而实现有效的边缘特征嵌入。实验结果表明,本文提出的边缘引导块能有效细化显著目标的边缘。第二,由于缺乏大规模的RGB-T显著目标检测数据集,本文在不同的场景和环境中采集RGB-T图像对,构建了一个新的较大规模的RGB-T显著目标检测图像数据集(VT5000),包括5000对手工校准的RGB-T图像及其手工标注的真值和11种挑战标注。该数据集可以更加客观深入地反映不同算法的优缺点。第三,为了能更为准确地检测出RGB-T图像的显著目标,本文设计了一个基于卷积神经网络的端到端训练框架,可以提取每个模态中的多层次特征,并利用注意力机制将两个模态的特征聚合起来。为了进一步解决边缘模糊的问题,本文同时使用了边缘损失函数来细化显著目标的边界。在VT5000等多个数据集上的实验结果表明本方法实现了RGB-T显著目标的精确检测。
其他文献
车辆在行驶过程中会发送包含位置的消息从而达成以下目的:告知周边车辆自己的实时位置,减少交通事故的发生;向基于位置服务的服务器请求新闻资讯、社交、娱乐等网络服务,改善驾驶体验。而由于车联网具有大规模的网络结构和开放的无线信道,车辆位置隐私信息每时每刻都暴露在网络中,如果这些隐私信息不能得到保护,用户的隐私将会泄露。传统的位置隐私保护方案提出使用假名来保护车辆的位置隐私,然而简单地假名更换并不能满足车
全息视频显示的核心器件是空间光调制器(Spatial Light Modulator,SLM),现有的SLM设计都是基于经典的光学原理,无法满足全息视频显示所需的大空间带宽积及大视场角等需求,因此我们需要借助最新发展的等离激元学和微纳技术来解决全息视频显示所面临的核心问题。但目前的微纳光场调控器件大多集中在无源,而有源微纳SLM器件的研究及技术开发仍然面临很大的挑战。区别于现有的利用光程差原理的硅
面对大幅度提高5G频谱效率的要求,一种新的多址接入技术被提出,即非正交多址接入(NOMA,Non Othogonal Multiple Access)。在3G时代使用的码分多址(CDMA,Code Division Multiple Access)技术中,多个用户共享一个信道资源,用户的地址码具有一定的相关性,这就导致解码时,用户之间相互干扰。而在正交多址(OMA,Othogonal Multip
与传统干涉测量方式相比,激光回馈干涉法凭借灵敏度高、结构紧凑、无需准直等优势,成为了检测微弱信号的计量学方法之一。但现有激光回馈干涉系统中低频噪声严重限制了该技术的应用场合。因此,我们提出一种基于移频技术的全光纤结构的激光回馈干涉位移传感系统,通过结合声光调制技术有效解决低频噪声对待测信号的干扰,成功实现了非合作目标几十皮米级的微小位移传感。同时,通过建立激光回馈移频干涉位移传感系统中探测灵敏度的
随着信息化时代的到来,全球学术研究活动快速发展,学术文献的发表数量日益增长。为了解决海量学术文献难以管理这一难题,以互联网技术为核心的大规模文献数据库、学术检索平台等应运而生,极大地改变了科研学者对文献数据的检索方式。然而,来源于不同文献检索系统的作者存在同名现象,使得许多同名作者的学术文献无法进行正确的归属,降低了学术检索的准确性。目前大量学者提出了基于机器学习或基于图的作者同名消歧算法,但存在
中文篇章级金融事件抽取是事件抽取领域的一个重要研究方向,旨在从篇章级金融文本中抽取出对应的金融事件信息。现有的中文篇章级金融事件抽取研究热点是如何在篇章级别文本下进行跨句事件抽取。其主要研究如何构建端到端的模型进行事件抽取,大部分研究都是在模型层次上。然而这些工作忽略了词表、特定领域和标签层次等外部知识。这些外部知识对中文篇章级金融事件抽取的性能提升有很大帮助。为了解决上述问题,本文提出了以下两个
车载网络中的信息交互给用户带来了诸多便利。随着5G时代的到来,网络服务的传输速度有了明显的提高,车辆在车载网络中交换的内容不再局限于交通信息。高速行驶状态下的车辆可以共享各种内容。然而,由于车辆的快速移动特性,安全、高效地共享内容仍然具有挑战性。条件隐私保护和消息认证一直是车载网络安全研究的主要课题,在新的技术背景下,车载网络面临的主要问题依旧是满足用户对于安全性的需求。在许多现有的认证方案中,车
DRAM由于单元尺寸小、容量大、耐久度高等优点,被广泛应用于移动设备、服务器、PC等领域。其市场规模超过600亿美金,占全球集成电路市场十分之一以上。在工艺不断进步的过程中,DRAM电容大小不断降低,为SA识别位线间的电压差带来巨大挑战。受随机掺杂波动的影响,SA的失调电压逐渐增大,因此对DRAM低失调灵敏放大器的研究非常有意义。本文首先对DRAM结构和原理进行介绍,然后分析了SA失调电压产生原因
最近十几年,互联网发展的速度超乎想象,以前都是通过信件或者面对面交流,而现在,基本被互联网取代。由于互联网已经成为日常生活中的一部分,所以网络信息安全就被广大网络用户密切关注。信息是否安全,这完全由密码的可靠性决定,密码的保密性的高低又是由密钥复杂程度决定,随机数的随机性越好,生成的密钥越复杂,反之生成的密钥就比较简单,容易被破解,所以随机数发生器的研究就极其重要。本文介绍了直接频率平均(Dire
存储器,是一种有效存储数据的芯片,它是集成电路产业的关键部分,更是电子设备上必不可少的组成部分。随着便携式电子设备的兴起,例如手机、平板电脑、无线蓝牙耳机等,电子设备上日益增加的功能与迟滞不前的电池技术产生了矛盾,所以在电路设计层面,低功耗技术变得越来越重要,用非易失性存储器替代易失性存储器是一个很好的解决方案,但是现存的主流非易失性存储器如FLASH,读写速度慢,写入功耗大,无法替代SRAM、D