基于深度学习的3D物体目标检测算法研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:liongliong546
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
3D目标检测是近几年来计算机视觉领域中备受关注的前沿方向,在机器人、自动驾驶、增强现实和虚拟现实中具有广泛的应用前景,如何精确地进行3D目标检测具有很大的研究意义和实际的应用价值。为了有效避免传统方法的弊端,充分发挥深度学习强大的特征学习能力,本文研究了基于深度学习的3D目标检测算法,融合了不同数据源的数据,构建了多模态特征融合框架,弥补了单模态点云语义信息不足的缺陷,以提升远小物体及遮挡物体的检测性能。本文的主要工作和研究成果有以下几个方面:(1)为了解决单模态点云数据语义信息不足以及点云稀疏性造成目标检测性能不佳的问题,本文提出了一种双注意力机制的多模数据融合的3D目标检测网络(Dual Attention-based Multi-modal Fusion Net,DAMFNet)。首先,设计了图片特征提取分支,多层图片语义信息有效保留了物体的结构与语义信息。然后,设计了体素的多邻域上下文信息提取器,扩大体素的感受野,融合体素多个上下文信息,以提高体素特征对物体空间结构和语义信息的表征能力及提高特征鲁棒性。最后,设计了一种多模态特征融合模块,使用通道注意力融合不同模态特征,体素注意力增强有效目标物体特征表达,抑制无用背景物体特征表达。在KITTI数据集上的实验结果表明,本文较基准算法Voxel Net在检测性能上得到有效提升,同时相比较于现有多个主流单模态方法和多模态方法,本算法取得较大性能提升。(2)为了解决传统残差网络不适用于3D目标检测任务的缺陷,本文进一步对DAMFNet算法的图片分支模块进行改进。本文设计了一种更适用于3D目标检测任务的空洞残差模块,使用空间卷积提取图片多层语义特征的同时,在低分辨率特征图中有效保留了远小物体的结构细节信息。同时设计了强语义特征模块,每层图片的特征图通过来自所有后续特征图的语义信息进行语义增强。在KITTI数据集上的实验表明,较基准算法DAMFNet相比,本文在在远小困难物体的检测性能上取得有效提升,同时与许多主流的多模态检测方法相比,本文在远小困难物体的检测性能上取得较大提升。(3)本文提出了一种基于Transformer的通用和鲁棒的体素特征编码器,以解决基于Point Net方法的体素特征提取器忽略点之间的空间关系和上下文交互,无法自适应地提取鲁棒的体素特征的缺陷。首先,探究了自注意力网络对序列数据的排列不变性,并将其应用于点云数据处理。其次,基于Transformer构建了体素特征层,体素特征层根据体素内所有点之间的空间关系和上下文信息交换来自适应地学习体素的局部和鲁棒上下文。最后,构建了以体素特征层为核心的通用3D目标检测框架,特别地,体素特征层可以嵌入任何其他基于体素方法的3D目标检测框架中。在KITTI数据集上进行的实验结果表明,本方法在3D目标检测方面达到了优异的性能。
其他文献
在当今社会的各个领域中,智能化是未来发展的大趋势;生活中的各类物联网产品、汽车飞机的无人驾驶技术、雷达系统、设备结构监测、基础建筑的安全检测以及工业生产自动化及其机器人系统都需要更加智能的感知技术;这就对传感器的感知精度和速度提出了更高的要求,且需要覆盖范围更广、覆盖密度更高的传感器网络。以工业生产中智能机器人为例,智能机器人需要代替人类在极端的环境下进行大量的危险性高、重复率高、难度大以及长时间
近年来,工业以太网技术促进了工业控制系统(Industrial Control System,ICS)和信息技术(Information Technology,IT)网络的集成,使得ICS信息化程度不断加深。信息网络集成虽然提高了系统生产效率,但也带来了更多新的信息安全问题。同时系统中设备节点数量众多且拓扑结构呈现分布式的趋势,传统中心化信息控制的方式中的性能瓶颈和安全问题将会日益明显。就关键基础
表面等离子体共振(SPR)传感器是一种免标记、高灵敏的光学传感器,它的原理是当入射光引起金属与介质界面的SPR时,可获得与共振波长一一对应的介质折射率。目前商用的SPR传感器均为棱镜耦合型,虽然灵敏度很高,但体积庞大,价格昂贵。随着纳米制备工艺的成熟和人们对传感器小型化的迫切需求,光栅耦合型SPR传感器应运而生。目前的光栅耦合型SPR传感器存在灵敏度较低,无法检测不透明溶液的问题,这限制了此类传感
随着车辆数量日益增多,道路交通问题密切影响着日常生活。交通监管部门需要通过视频数据实时监控路况信息。无人机技术的快速发展,使从空中视角获得数据成为可能。无人机能提供更加广阔灵活的视角,包含更多的信息,同时也能胜任长距离监控。在无人机场景下通过图像和视频对车辆目标进行跟踪,也有望成为交通监控的新方式。无人机视角下跟踪场景不够稳定,目标容易产生大幅度的形变,也可能被环境所遮挡。无人机的硬件平台也决定了
基于视觉的微小振动放大技术是一种通过处理图像时空信息,放大微小但重要变化的技术。机器视觉振动放大技术被用来揭示肉眼难以察觉微小变化,在工程结构模态识别、医疗心率检测,故障损伤检测等领域有重要价值。论文对视频微小振动放大技术进行详细的分析和研究,从多角度对微小振动放大算法进行优化,并将优化后的算法应用于非接触式心率检测,具有较好的工程应用价值。论文针对微小振动视频中存在大运动干扰,导致视频放大结果出
自NB-IoT(Narrow-Band Internet of Things,窄带物联网)技术提出以来,各项技术标准逐步得到完善,当前已经成为低功耗广域物联网中最具潜力的技术之一。在与各领域逐渐实现深度融合的过程中,NB-IoT设备将被大规模部署,考虑到NB-IoT系统的180KHz有限频谱资源,海量设备接入时将有可能发生资源竞争现象,使系统出现接入拥塞,从而导致网络接入量降低、资源浪费等问题。因
人脸表情识别是一项极具挑战的模式识别任务,在例如医学研究、交通安全、公共安防、刑侦审讯、影视娱乐等领域有重要的现实意义。对于可预见的未来世界中的高效人机交互,正确快速的识别用户表情也是一项必不可少的技术。近十年来,表情识别的研究进度突飞猛进,从小数据的室内研究转向了具有更大数据量的室外研究,研究方法也从传统方法变革为深度学习方法。深度表情识别的主要难点有以下几点:缺乏有效训练数据、存在大量表情无关
聚类是在无标记的条件下将数据分组,从而发现数据的天然结构的一种技术。聚类在数据分析中扮演了重要的角色,它可以发现数据的潜在结构、对数据进行自然分组或压缩,是人工智能的重要分支之一。2019年,Nie Feiping等人在ACM SIGKDD上提出了指定k个聚类的多均值聚类算法(a multiple-means clustering method with specified K clusters,
行人检测作为计算机视觉研究领域的一项关键技术,在智能监控、车辆辅助驾驶、运动分析与人机交互等领域有广泛的应用价值。但由于姿态、穿着、尺度、光线的变化以及相互遮挡等复杂场景的影响,行人检测仍是一个有挑战性的问题。融合多个特征能加强人体特征表达、提升行人检测算法性能。本文针对多特征融合、候选区域的提取、行人尺度多样性等问题以及行人检测算法的应用进行了研究,主要研究工作如下:(1)针对结合方向梯度直方图
图像超分辨率(Super-Resolution,SR)是一种将低分辨率图像(Low-Resolution,LR)处理为高分辨率图像(High-Resolution,HR)的技术,旨在提升图像的像素密度,并且在一定程度上还原图像中的细节。超分辨率算法对人类世界产生的影响极其深远,其应用场景十分广泛,包括卫星成像、医学成像、视频监控、自动驾驶等诸多领域。同时,随着近年来深度学习的发展以及人们对于图像质