面向边缘计算环境的轻量级目标检测技术研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:violence211
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,目标检测在智能安防、智慧城市、智能工厂、智能汽车等多个领域应用广泛。由于目标检测的核心技术是深度学习,所以目前大多数的目标检测模型部署在服务器端,但这种方式存在两个弊端:一是随着部署的需求量骤增,大量配置高性能服务器在经济上会造成巨大压力;二是摄像机等边缘设备采集的待检测数据需要经过网络传输才能到达服务器,当数据量非常庞大时会影响到检测的时效性。随着边缘设备的日渐流行,其小体积、高性价比、低功耗等优点,促使边缘设备成为目标检测模型的运行环境的新选择。Faster RCNN、SSD、YOLO等优秀的目标检测算法能达到很好的检测精度,但由于计算量较大,在边缘计算设备等性能较差的运行环境下检测速度通常无法达到工业应用的高水准。迁移学习、网络裁剪、微调等模型优化技术目前已经发展成熟[1][2],可以借鉴它们以便优化模型并提高模型在边缘设备上的性能。在此背景下,本文的目标是提出一种面向边缘计算环境的轻量级目标检测模型的优化思路,并以某特定的应用场景为实例,通过完成下列工作和研究来验证思路的正确性。(1)提出一种适合在边缘环境上运行目标检测的紧凑型软件环境。针对边缘设备的有限资源条件,在主流的深度学习框架和目标检测模型中筛选并构建了适合边缘设备的软件环境。(2)提出一种基于迁移学习的面向通用目标检测模型的模型裁剪方法。主要思想是分析实际应用场景中待检测物体的分类,通过迁移学习的方法将通用的目标检测模型中的不相关分类的神经元剔除。该方法能够在水平方向上缩小模型,在维持检测精度不降低的前提下显著提升检测速度。(3)提出一种针对检测不同尺度的层的裁剪方法。主要思想是分析实际应用场景中待检测物体的大小尺度,对于网络中检测不同尺度的层进行调查,剔除其他过大或过小尺度的检测层。该方法能进一步在垂直方向上缩小模型,提升检测速度。(4)针对用上述方法裁剪过的目标检测模型,数据集也做出相应地调整优化。标准数据集中与当前实际应用场景相匹配的数据太少,所以主要通过两个方法增加当前应用场景的数据,以便在模型重训练时能迅速收敛。一是调整优化标准数据集,将标准数据集中与当前目标检测应用场景匹配的图像数据挑选出来,再用数据增强的方法来增加数据量;二是定制数据集,直接在实际应用场景下采集数据,再同样用数据增强的方法增加数据量。本文的实验中,以NVIDIA Jetson TX2开发板(8GB)作为边缘计算设备的代表,从模型文件大小、检测精度和检测速度等三个方面选定SSD300(VGG16)作为轻量级目标检测模型,一方面因为Faster RCNN等高精度模型因为边缘设备的内存不足而无法运行,另一方面与SSD(Mobilenet)轻量级目标检测模型相比,检测精度与速度的权衡下SSD(VGG16)更优秀;通过上述的迁移学习裁剪方法和层裁剪方法,将SSD模型裁剪成只检测“person(人)”分类并且还裁剪掉检测大尺度目标的conv7_2、conv8_2和conv9_2层,优化后的模型的检测速度达到了约2.42FPS(0.413秒/帧),与原始模型的检测速度约1.56FPS(0.64秒/帧)相比加速了约55%;通过使用优化后的标准数据集MSCOCO2014-Human和自制数据集训练得到的模型,在实际应用场景下其检测精度达到了90%,比原始模型的70%精准度提升了约20%。实验结果证明本文提出的面向边缘计算环境的轻量级目标检测模型技术具有显著成效。
其他文献
基于通用X86架构的纯软件网络监控系统多采用抓包API,从网卡捕获数据包,并在用户空间完成数据包的识别和控制。由于数据包需要经过网卡驱动、内核态和用户态的多次CPU中断和内存拷贝,系统开销大,处理带宽不高,无法满足企业网络大流量环境,因此,网络监控系统的性能问题是急需解决的问题。本文的主要工作是找出传统软件网络监控系统性能瓶颈,利用SDN相关技术,设计实现可以满足企业成本和带宽需求的纯软件网络监控
晕动症是人们日常生活中经常发生的生理现象,例如人在乘坐车、船等交通工具时。随着虚拟现实技术的飞速发展,各种虚拟现实设备出现在我们的日常使用中。但是人们在体验虚拟场景时经常会感到头晕、恶心等晕动的相关症状,这极大的降低了用户体验,并且阻碍了虚拟现实技术的推广和发展。因此,对于晕动症的研究变得十分迫切。如何去判断晕动症是否产生或者去预测晕动症的程度成为了晕动症研究领域的重要问题。针对上面的这两个问题,
随着基于图像引导的术中导航技术的不断发展,不同模态的医学图像配准技术在心脏介入手术中发挥着越来越关键的作用。术前CT和术中超声的配准可以帮助手术医生诊断患者的病情,更好地进行介入手术。本研究在深入了解不同模态医学图像配准的研究现状的基础上,针对传统的配准方法的优点和缺陷,提出了具有创新性的CT与超声的配准方法,与电磁导航系统相结合,用于心血管介入手术的术中引导。本研究的配准方法主要分为三个阶段。首
比特币,承载对中心化节点的不信任,在金融危机中诞生。贯彻比特币思想的一众加密货币(不包含瑞波币等),核心意愿是一方面以共同维护账本代替中心对支付数据不可见的存储与处理,另一方面将铸币权依去中心化程度不同分散到不同数量的参与者。工作量证明(Po W)作为占据主导的一种共识协议,设计愿景能够实现较高程度的去中心化,但由于参与者获得稳定收益的诉求,自发组成矿池,导致了算力的中心化;不诚实参与者对协议的多
在传统设计施工模式中,基于平法施工图进行配筋信息表达,具有几何信息不明确,信息数据难以协同共享等局限性。通过BIM技术,可以有效弥补上述不足,减少材料浪费和工期延误等问题。然而BIM应用过程中,由于各方数据标准的私有性,其钢筋数据信息难以协同共享。目前,依靠人工翻模或数据接口的数据交互模式,其效率低下,费用高昂,且不可避免存在数据丢失或误差。因此,基于一种通用的数据标准,提取结构设计阶段的配筋数据
智能门锁系统是智能家居的一重环节,是提高家庭、宾馆和办公室等场所安全、管理效率的有效措施。据此,论文研究、设计并实现了一套面向B端市场(公租房、酒店和企业办公等)的智能门锁系统,该系统具有多元鉴权认证、视频监控、云端集群管控、移动端应急处理与无线升级等功能。此外,为了保障信息安全,论文提出了一种针对本系统改进的嵌入式终端信息传输加密方案。首先,信息传输加密层面:论文选用SM4+CTR对称加密算法,
人体目标的身份识别是无人商店应用场景中的一个重要环节,从用户入店时的身份验证,再到店内的用户身份识别,需要同时保证识别的实时性和准确性。首先,相对于传统的目标检测与跟踪的解决思路,借鉴“仅看一眼就知道目标分类”的YOLO目标检测思想,以YOLO算法和图像特征识别算法为基础,提出了“仅看一眼就知道是谁”的研究思路,设计了室内监控对象身份识别模型。其次,对VOC数据集进行重新标注,使得标注后的数据集包
随着硬件设备、网络传输的不断发展,多媒体内容已经成为我们日常生活的重要组成部分,人们可以随时随地通过各种便携式显示设备观看图像/视频。图像/视频内容通常是在考虑特定目标分辨率的情况下制作的,而不同的显示设备往往没有统一的长宽比。图像/视频重定向技术就是将图像/视频适配到目标屏幕上进行更好的播放。但是目前所广泛采用的朴素的重定向方法缺乏了对图像/视频内容特性的考虑,都有着不同的本质上的缺陷。因此,基
对于图像去噪问题的研究长期以来都在计算机视觉领域中占据十分重要的地位,这是因为基础图像的质量将在很大程度上制约后续图像信息处理的效果。图像噪声的类型多种多样,而高斯噪声的特性使其成为图像去噪算法研究中最为核心的一种,本文的研究重点也正是图像的高斯去噪问题。过去传统的图像高斯去噪方法建立在图像先验知识模型的基础上,这依赖人的经验,可能导致在建模的过程中难以利用到图像的一些高级特征,存在一定的局限性。
随着VR技术的发展,VR游戏逐渐盛行,线下出现了一批VR体验店、VR自助机,同时也有越来越多的VR游戏爱好者,入手VR设备开启VR游戏。游戏发展到一定阶段也往往伴随着游戏平台客户端的产生,但是当前VR游戏市场不健全,玩家挑选游戏耗时费力,VR游戏运行需要安装各类插件,入手难度高;以及账号过多难以管理,游戏的下载、安装更新比较繁琐,这时一款合适的VR游戏平台客户端显得尤为重要。国内VR游戏客户端如造