基于无锚点框的目标检测及实例分割方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：vict1234

【摘要】

：

深度神经网络作为实现人工智能的重要方法之一,近年来已获得广泛应用。其中,卷积神经网络极大的促进了计算机视觉领域的发展。随着研究的逐渐深入,计算机已经可以实现对图像

【作者】

：

刘新宇

【出处】

：

哈尔滨工业大学

【发表日期】

：

2004年期

【关键词】

：

目标检测实例分割无锚点框方法卷积神经网络激活函数

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

深度神经网络作为实现人工智能的重要方法之一,近年来已获得广泛应用。其中,卷积神经网络极大的促进了计算机视觉领域的发展。随着研究的逐渐深入,计算机已经可以实现对图像从实例级到像素级的处理。目标检测和实例分割作为最基本也是难度最大的两个任务,因为受制于庞大的模型和复杂的算法一直无法在实际生产中发挥有效的作用。本课题基于无锚点框方法提出了更为高效和精确的目标检测和实例分割方法,在大幅减少模型的超参数和训练参数的同时,通过将检测框编码为矢量进行回归,提出了矢量编码损失,可以大幅提升在公开数据集上的准确度。此外,本课题提出了新的激活函数以帮助网络更快速地收敛到全局最优值,减少训练时间。本课题在图像分类、目标检测、实例分割的多个公开数据集上进行了设计完备的实验以验证所提出算法的有效性,结果表明本课题的方法可以在不增加额外训练参数的情况下,更快地得到更准确的检测框和分割掩膜。首先,研究了现有激活函数的设计思想。由于激活函数是一个非线性函数,因此它具有帮助神经网络拟合一个从输入到输出的非线性映射的能力。然而在实现非线性的同时还要考虑到激活函数的计算复杂度、梯度更新幅度、对收敛效果的影响等等。本课题综合了分段激活函数和非分段激活函数的优点,同时摒弃了二者的缺点,设计了一个连续非分段的激活函数,在大大减少计算量的同时,能够显著地提高网络的准确率和鲁棒性。其次,针对基于无锚点框的目标检测任务中的回归过程,设计了基于全局及基于中心距离的回归算法,同时考虑到包围框向真实框回归的过程中需要回归方向作为监督的这一事实,加入了方向的矢量信息。最终,设计的矢量编码损失可以同时为交并比为0的预测框、真实框和相互包含的预测框、真实框提供监督信息。通过在目标检测的数据集上进行的实验,证明了所提出算法的收敛的速率和最终效果显著地优于之前的其他算法。然后,针对基于无锚点框的目标检测网络结构的设计没有得到完全优化的问题,结合上述所提出的连续非分段激活函数和基于矢量编码的回归损失,提出了改进的目标检测网络。改进的结构包括检测头部的模块和回归分支的损失函数。在常规场景上验证了网络结构的有效性之后,还迁移到了难度更大的遥感数据场景中对网络进行效果测试。实验结果表明所提出的改进的基于无锚点框的目标检测算法可以在不同数据集上都保持鲁棒,且在几乎不增加训练和测试时间的前提下能有效提高检测的精度。最后,分析了基于无锚点框的实例分割算法结构设计上存在的问题。由于一阶段的实例分割算法无法用区域建议网络为感兴趣区域的分割提供权重重分配的信息,因此空间注意力指导模块的带来的效果不够显著。考虑到分割部分网络是用感兴趣区域为自己重新加入空间注意力,因此加入了通道自注意力机制模块进行指导分割。实验结果表明使用并行的自注意力机制比单独使用空间注意力对分割效果的提升更为显著。

其他文献

装配式橡胶混土耗能节点力学性能研究

装配式结构具有节能、环保、建造周期短等的特点。为了响应“十三五”规划的号召和实现建筑工业化的目标,大力推行装配式结构是我国建筑业可持续性发展的必然之选。目前,存在

学位

装配式结构新老混凝土橡胶电镜扫描粘结滑移ABAQUS

智慧课堂在七年级英语读写课中的应用研究——以外研版七年级下册Module 9 Unit 2为例

随着新课程改革的推行,各种新型教育方式逐渐出现在课堂教学中。智慧课堂是通过先进的教学理念与先进的教学设施开展的一种新型教学模式。因此,在初中英语教学中,构建智慧课

会议

智慧课堂英语读写课任务型教学

基于深度学习和关键帧提取的哑语手势识别算法研究

随着人工智能在科研领域的快速发展,深度学习技术得到了普遍应用,手势识别技术在日常生活中提供了很大的便利。哑语手势识别技术有助于聋哑人与非聋哑人之间的智能交流。然而

学位

深度学习关键帧提取动态哑语手势识别卷积神经网络循环神经网络B3D ResNet

多轴汽车起重机液控随动转向技术研究

本文开发了一种控制精度高、操控灵活、传递精度高、方便实用的转向控制系统以代替中大吨位汽车起重机底盘机械拉杆转向技术,并解决多拉杆系统存在的整机布置困难、杆系占用整机空间大、杆系转向变形大、操纵稳定性差、轮胎易磨损、转向系统维修性差等问题。论文完成的主要工作内容如下:(1)转向机构运动学优化分析。通过多体动力学理论,建立了转向机构模型,完成了约束设置、驱动仿真和设计优化分析。(2)根据优化分析后的转

学位

汽车起重机多体动力学液控随动转向

直线电机型地铁转向架用橡胶弹性元件国产化研究

广州4,5号线直线电机型转向架是我国中车青岛四方股份有限公司(以下简称四方股份)引进欧洲庞巴迪的转向架技术,具有过曲线能力强、爬坡性能好、工程造价低、振动噪声低等特点

学位

直线电机型转向架橡胶弹性元件锥形橡胶弹簧牵引球铰国产化

基于l_p范数的压缩感知和深度学习磁共振图像重建研究

如今,磁共振成像(Magnetic Resonance Imaging,MRI)是一种不可缺少的临床诊断工具。它没有电离辐射,可以提供良好的软组织对比度和多方位成像。然而它的发展受限于其较慢的成

学位

磁共振成像压缩感知图像重建l_p范数深度学习

永磁同步电机随机调制策略的研究

固定开关频率脉宽调制已经被广泛应用于工业控制中,但是由于固定开关频率从而产生高频的离散谐波和电磁噪声,针对这一问题,随机调制技术近年来引起了学者们广泛的关注,并且已经证明随机调制技术能够有效降低电磁噪声,本文将从理论、仿真以及实验对随机调制技术进行研究。本文首先对永磁同步电机的相关理论进行研究,分别研究了永磁同步电机的数学模型、控制方式以及调制方式,并重点对比分析了永磁同步电机的SPWM调制和SV

学位

永磁同步电机随机调制SVPWM双自由度随机调制

李群空间下采用滤波方法的视觉惯导定位研究

近几年,移动机器人技术发展迅速,并在工业、农业、军事等领域得到广泛应用。机器人精确的位姿估计是实现自主导航和智能控制的基础,也是该领域研究的热点问题之一。视觉传感

学位

机器人导航视觉‐惯导定位视觉惯导标定不变卡尔曼滤波

两层无线传感器网络多维数据隐私保护范围查询协议研究

数据查询是无线传感器网络完成监控和侦查任务主要手段。因此,无线传感器网络需要通过数据隐私保护技术防止信息泄露和被篡改,利用数据管理技术来完成数据查询和访问控制等任

学位

两层无线传感器网络范围查询密钥交换左向0-1编码加密索引链

基于生成对抗网络的人体局部图像合成方法研究

在医疗康复、人机交互和公共安全等领域,利用计算机技术理解人体局部图像具有重要意义。为此,一些人脸属性合成和编辑方法以及3D手势估计方法相继提出,并逐渐在相关领域得到

学位

人体局部图像人脸属性合成和编辑3D手势估计手部深度图像合成

基于无锚点框的目标检测及实例分割方法研究

与本文相关的学术论文