轻量级视觉目标检测技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:guhiayan123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智慧城市的大力建设,监控摄像头等终端设备的体量暴增,对于终端设备的智能化分析需求也越来越大。作为计算机视觉任务中不可或缺的基础,目标检测因其重要的应用价值而获得广泛的关注与研究。近年来,深度学习的飞速发展使得目标检测的性能得到了极大的提升。然而,现有的目标检测网络由于其较大的计算量和参数量,大多不能应用于计算能力和存储资源有限的设备,如电子芯片、手机等。
  为了实现专用于资源限制场景的轻量级视觉目标检测网络,基于深度学习方法,提出了两种轻量级视觉目标检测算法:(1)利用深度卷积等轻量高效的卷积技术,提出一种新颖并有效的结构,名为双路合并的轻量级密集块(2-way MLDB),主要创新点是在骨干网络的密集块中合并两个独立分支的重复部分,以获得具有较少参数和较小计算量的多视野域特征,将其应用于精心设计的骨干网络框架中,能够获得较高检测精度的轻量级模型。表现最好的网络结构被称为基于分支合并的轻量级目标检测网络。(2)针对轻量级目标检测网络中存在的由于参数量急剧减小而导致的精度下降等问题,构建了一种基于注意力预测块(APB)的类FPN的SSD检测头部,通过较少的参数量与计算量的增加,进行多尺度特征融合,并获得每个尺度上最具有判别力的检测特征,从而获得了检测精度上的较大提升,尤其是小目标的检测精度。其中表现最好的网络称为BMNet。
  在两个经典数据集(PASCALVOC和MSCOCO)上的广泛实验证明了本文所提出的两种算法在参数大小、计算量(FLOPs)和精度方面优于最先进的轻量级目标检测解决方案,如TinySSD、MobileNet-SSD、MobileNetv2-SSD和Pelee等。具体来说,融合本文提出的两种算法之后,最好的模型在PASCALVOC2007test数据集上实现了77.05%的检测精度,而模型仅有1.49M参数量和1.51B计算量,资源需求相对较低且模型不需要分类预训练,能够很好地应用于资源限制场景。
其他文献
为了确保不同种易燃危险物体以及延伸管道结构的安全性,本文提出了由超声波导和微控制器建立的管道防火控制系统,并对其可行性进行分析。如今,用于监测泵站外部延伸管道部分的消防安全设备还十分稀少,这正是本研究主要解决的关键问题。文中对已有的设备结构进行详细分析与对比后,选定由柔性耐热线制成的超声波导为敏感元件,并使用物理现象驻波作为该监测器的工作原理。本文制定了技术规范,创建了电气结构和电气功能图,并在此
用户通常通过应用市场获取Android应用来满足生活娱乐需求,现有大量为Android用户提供应用下载服务的第三方应用市场。为争取用户,应用市场通常对进入市场的应用进行严格的审查,尽可能让用户获取安全的应用。为提高用户使用体验,各大应用市场急需一套自动化的方案来避免应用中出现一些影响用户体验的流氓行为,例如诱导用户点击和下载应用的流氓广告,不能正常关闭的流氓弹框和干扰用户的流氓悬浮窗等。  目前应
学位
推荐系统在各大在线服务中具有广泛的应用场景,它的作用在于基于用户的兴趣为其推荐相匹配的项目,提升用户体验的同时也为系统带来更多的收益,实现用户与系统的双赢。基于深度学习的推荐算法是一个热门的研究方向,这些方法将特征映射为低维度的隐向量,但它们无法精准的衡量隐向量之间的相似关系。推荐系统中的信息之间存在关联关系,依据这些关系可以构建出图网络。采用网络表示学习方法可以提取图中的非结构化信息,丰富特征隐
学位
Android系统占据了智能终端系统的大部分份额,吸引了恶意应用开发者,对用户构成安全威胁。现有检测方法主要判断恶意代码存在性并分析恶意家族。然而,混淆技术会改变应用特征,恶意开发者利用该技术,生成恶意应用混淆变种,可以绕过现有检测方法,显著降低检测准确性。  针对Android恶意应用混淆变种,设计和实现了一种高效且抗混淆的Android恶意应用检测系统AOMDroid。针对不同混淆技术,AOM
学位
在互联网时代,各大网站充斥着海量文本信息。问答型情感分析任务旨在从电商评论、微博动态、知乎问答等用户交互的问答对中,挖掘其情感态度。  目前问答型情感分析任务的处理方法,会将问题和回答文本切分为不同句子,对每个句子单独编码,忽略了句子之间的联系,造成了信息损失。为了解决这个问题,提出了分层循环注意力(Hierarchical Recurrent Attention, HRA)模型,在文本切分后,使
学位
动态环境下无人机的路径规划就是在复杂环境下为无人机规划出一条从出发点到目标点的最优航线,应考虑环境中动、静态限制因素,搜索空间的指数级增长会带来非常大的计算消耗,为了降低计算消耗成本,现有方法将动态的限制因素在一定的规则下转为静态因素。针对动态栅格环境,首先设计了扩展层次图(Extended Hierarchical Graph,EHG),将目标环境的动、静态限制因素数据转换为对应每个栅格的可通行
学位
随着社交网络的快速发展和全球定位系统(GPS)的出现,人们越来越倾向于在位置社交网络(Location-based Social Networks,LBSNs)上以签到的形式分享他们的日常生活和旅游体验,兴趣点(Point-Of-Interest,POI)推荐则是快速发展的LBSNs中最重要的服务之一。在考虑签到行为周期性的基础上,时间感知的POI推荐旨在为给定的用户在一天中的指定时间推荐该用户未
随着社会的发展进步,各类高新技术、产品不断面世、落地、推广,人们的生活越来越便利,而支撑着这一切的关键便是电能。研究设备运行参数的异常检测技术,以保证电厂机组设备安全、可靠地运行,具有十分重要的现实意义。对电厂设备运行参数的异常检测,即使用设备在正常工况下的运行参数建立模型,要求该模型能识别出设备运行时发生的异常,尽早发现设备的劣化趋势,为故障诊断提供可靠的依据。  首先,提出了结合特征强化的深度
学位
随着互联网的普及和智慧城市的发展,视频资源日渐丰富,基于视频的行为识别受到大家的广泛关注,其应用场景包括视频监控、视频审核以及智能安防等。最新的研究趋势是采用3D卷积神经网络进行视频行为识别,然而其增加的时间维度极大加重了模型的计算负载,使其难于应用终端设备。另一方面,视频行为识别模型与图像识别模型相比,更迫切得需要时序全局信息,因为它要求模型所提取出的行为特征具有整体连贯性和显著性,即要符合视频
学位
随着互联网的快速发展和智能手机用户数量的增长,通过Internet访问和传播敏感(色情)图片变得非常容易,识别并过滤互联网上的敏感内容对于未成年人的健康成长和互联网的发展至关重要。近年来,基于卷积神经网络的敏感图像识别方法已经基本取代了传统方法,此类方法通常将敏感图像识别当作一般的图像分类任务,即从整幅图像中提取特征并进行分类。但是由于敏感图像的特殊性,敏感部位一般出现在整幅图像的局部,因此仅依赖