埃塞俄比亚街景视频中的交通标志检测和识别

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:hahaho520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目标检测是计算机视觉中一个基本但又至关重要的研究课题,该研究旨在使机器自动学习检测识别输入的视觉信息中是否存在某目标并定位目标的位置。该研究涉及图像及视频的语义理解、自动驾驶等诸多应用领域。而交通标志检测是基于计算机视觉的特定目标检测任务,是道路安全设施检测、无人驾驶等应用中的关键核心技术。本文重点研究埃塞俄比亚道路交通标志检测与识别,研究成果可直接移植针到对埃塞俄比亚道路交通安全检测及自动驾驶等相关应用领域,同时对其它国家的交通标志检测与识别也有一定的指导和借鉴作用。交通标志检测和识别是针对特定目标的计算机视觉任务,与动物、植物等其它目标检测任务不同,交通标志因各国采用的规范不同,且各国的交通状况有非常大的差异,此外,在道路特点、气候变化、人文环境等方面也存在较大不同,因此,在该研究领域存在通用性不强、鲁棒性不足等问题。在埃塞俄比亚,这种情况更为突出。我国交通标志规范与中国、美国等国家不统一,存在交通标志设置不规范、交通标志日常破损严重等问题,加之道路状况复杂,气候种类丰富,拥塞和复杂的道路背景以及不良的视觉条件都对基于计算机视觉的交通标志检测与识别提出了极大的挑战。基于此,本文针对埃塞俄比亚道路交通标志的检测和识别任务,开展了如下三项工作:1)全天候条件下交通标志自动检测模型的研究与构建;2)埃塞俄比亚道路交通标志数据集的采集、标注与构建;3)全天候条件下埃塞俄比亚道路交通标志自动检测模型的训练与测试。具体研究工作如下所述:一、全天候条件下交通标志自动检测模型的研究与构建本文首先对目前主流的目标检测方法进行了深入的调研和分析,通过深入的调研分析发现,目前目标检测方法分为两种,基于区域推荐的目标检测方法和基于回归的目标检测方法,这两种方法各有优劣。对于基于区域推荐的方法,具有代表性的包括R-CNN,Fast R-CNN,Faster R-CNN。这三种方法的主要思想为,对输入图像处理获得目标的推荐区域,对推荐区域进行分类得到检测结果。基于区域推荐的方法的特点为检测效果好,其中Faster R-CNN是这三种方法中效果最好、速度最快的方法,也是目前最好的目标检测模型之一,但计算量大,检测速度慢。具有代表性的基于回归的方法为YOLO,SSD。这两种方法的主要思想为,输入图像,提取特征,将图像划分成网络,每个网络回归输出固定数量的检测结果,通过非极大抑制方法得到最终结果。基于回归的方法的特点为检测效果较好,检测速度非常快,特别是YOLO,可以进行实时检测。其中SSD网络既能取得和FasterR-CNN接近的检测精度,还能达到YOLO的检测速度。SSD(Single Shot Multibox Detector)是一种采用单一神经网络进行目标检测的方法。该方法基于神经网络的前向传播过程,产生固定大小的目标边框并对框中的目标的详细类别进行打分,再加入非极大抑制方法得到最终的检测结果。该网络使用了VGG作为其基础网络,然后在VGG后增加了辅助结构用于目标检测,其中多尺度特征检测器将多个卷积层加到了 VGG去除全连接层后的末尾,这多个卷积层特征图大小依次减小,得到多个尺度的预测值;而在基于卷积的检测预测中,每个添加的卷积层都用了 一组卷积核来产生固定的预测集合,这些预测中包括每个类别的得分以及边框的坐标。通过这样的结构设计,SSD网络能够直接进行端到端的目标检测,给定图像及其标签即可进行训练,并且计算量小,结果涉及多尺度,检测效果好、速度快在广泛的调研和比对分析基础上,针对全天候条件下交通标志自动检测的这一具体任务,SSD网络因其具有检测精度高及检测速度快的优势,更适用于本文的研究内容,因此本文采用SSD作为全天候交通标志自动检测的基本模型。首先,我们在Caffe框架上构建了SSD模型。Caffe是一种深度学习框架,该框架由伯克利人工智能研究所和社区贡献者共同开发。Caffe代码模块化程度高,主要由四部分组成:数据存储对象Blob,网络的基本单元Layer,完整的深度网络Net和网络优化器Solver。在Caffe框架中配置SSD首先要从github上下载SSD代码,再根据服务器本身的配置对SSD的配置文件进行修改,然后编译并测试SSD代码,最后下载预训练好的模型完成SSD的配置。本文构建SSD模型所采用的服务器的软件环境为:Ubuntu Mate操作系统,Python 2.7,Cuda 7.5,gcc 4.8;硬件环境为:NVIDIA TESLA K40c(12GB)两块,Inter(R)Xeon(R)CPU E5-2630v3 @ 2.40GHz,内存 128GB 2133MHz。通过第一部分的研究,确立了全天候条件下交通标志自动检测模型的选型以及原理和结构分析,并在Ubuntu服务器的Caffe框架上构建了 SSD模型二、埃塞俄比亚道路交通标志数据集的采集、标注与构建如前所述,埃塞俄比亚道路交通标志具有自己的特点,因此,现有的公开交通标志数据集不能适用于本论文的研究。本文作者对埃塞俄比亚交通标志的特点进行了详细的分析和调研,制定了数据集的构建方案,通过现场多次采集,历时两个多月,采集了近三千幅图像,通过筛选和处理、标注,完成了对埃塞俄比亚道路交通标志数据集的构建,该数据集具有以下特点:a)交通标志为埃塞俄比亚独有;b)交通标志图像在埃塞俄比亚街道现场采集,具有埃塞俄比亚加同特色,如标志设置环境背景信息繁多等;c)交通标志的各个类别具备不均衡性,符合埃塞俄比亚交通标志比例不均的特点;d)交通标志图像为全天候多种气候条件下采集,包括不均匀光照、低光照、模糊、遮挡等情况。下面分别从采集、标注和构建三个方面来说明本文在埃塞俄比亚道路交通标志数据集数据集构建方面的工作。(1)图像采集数据集采集地点为埃塞俄比亚,时间为2017年7月10日至2017年9月2日之间,图像的大小为832*624,通过筛选,数据集中最终收入图像2394幅,涵盖六类常见的埃塞俄比亚道路交通标志,各个类别的图像分布与埃塞俄比亚交通标志分布一致。这些图像在全天候多种视觉条件下采集,包括白天、夜晚、不均匀光照、模糊、抖动、遮挡等多种情况。(2)Ground-truth标注本文利用基于Python的BBox_Label_Toolbox,对采集的图像中出现的所有交通标志进行逐一标注,得到图像中所有交通标志的边框的坐标及类别标签,共标注2394幅图像。(3)数据集构建完成数据集的标注工作后,由于本文采用的Caffe框架进行实验,需要构建LMDB格式的数据集。SSD模型中提供了VOC数据格式转换成LMDB格式的脚本。因为本文构建数据集的主要工作是将数据图像及标签转换成VOC格式,再转换为LMDB格式。主要步骤包括:1)将数据分别存放于VOC格式的文件夹中;2)利用txt转xml代码将标签的txt格式转换为对应的xml格式;3)生成训练和测试图像索引,其中训练集1894幅,测试集500幅;4)构建LMDB格式训练集和测试集5)通过第二部分的研究,构建了本论文研究所需的埃塞俄比亚道路交通标志数据集,为后续的研究奠定了数据基础。三、全天候条件下埃塞俄比亚道路交通标志自动检测模型的训练与测试在研究内容一和研究内容二的基础上,完成和实现全天候条件下埃塞俄比亚道路交通标志自动检测模型的训练与测试。(1)模型训练模型训练超参数的设置:1)根据SSD模型所用服务器的配置,首先根据服务器的GPU数量设置训练GPU数量:GPU数量为2;2)网络的输入的大小设置为300*300;3)类别数量设置成7,其中六类为交通标志类别,一类为背景;4)权重衰减设置为0.0005;5)初始学习率为0.0004,采用多步调整的方式,在训练迭代到80000、100000次分别将学习率缩小10倍;6)迭代次数为120000次;7)设置学习方法为随机梯度下降方式,批数为32;8)学习动量设置为0.9。模型采用在ILSVRC数据集上训练好的模型作为预训练模型,并采用正负样本平衡策略指导训练,IoU阈值为0.5,正负样本比例为1:3。基于研究内容二建立的埃塞俄比亚道路交通标志数据集,采用如上设置的SSD模型进行了训练,训练结束后,模型训练损失为0.809852,模型收敛,训练成功,获得了埃塞俄比亚道路交通标志自动检测网络模型。(2)模型测试基于第一步训练得到好的迭代120000次的埃塞俄比亚道路交通标志自动检测网络模型模型进行交通标志检测测试,模型在500幅测试图像各个类别的模型的平均正确率(mAP)为86%,查全率为81.2%,查准率为78.3%,F值为0.784。针对埃塞俄比亚交通标志自动检测问题,本文对当今主流目标检测模型、数据集以及深度学习模型的训练及测试方法进行了研究,重点分析了SSD模型的结构和原理,并基于SSD模型构建了埃塞俄比亚交通标志自动检测模型,从埃塞俄比亚交通特色出发,自行现场采集了埃塞俄比亚交通标志图像,并进行了处理和标注,构建了埃塞俄比亚交通标志图像检测数据集,在此基础上,完成了 SSD模型的训练,通过测试实验验证了模型的有效性。本文从模型选择到数据集,再到模型的训练和测试,完整地实现了一个埃塞俄比亚交通标志自动检测模型。本文的研究可进一步推广至更多类别的交通标志检测,并应用到埃塞俄比亚交通安全检测以及自动驾驶任务中,下一步的工作展望如下:(1)本文构建的基于SSD的交通标志检测模型在一定程度上解决了埃塞俄比亚交通标志检测问题。但是仍存在着进一步的改进空间,随着计算机视觉技术和机器学习理论研究的发展,可替换为更加准确高效的模型;(2)本文构建的埃塞俄比亚交通标志数据集,可以满足当前模型训练测试的需要,但是图像的数量、种类等仍需扩充,深度学习模型是基于数据驱动的,进一步完善数据集对于提高模型的训练效率和提高最终的检测准确度是非常必要的;(3)本文的所采用的SSD模型是针对通用目标进行设计的模型,下一步考虑结合交通标志的先验信息,对网络进行改进,构建更具鲁棒性的检测模型。基于计算机视觉的目标检测和识别技术目前正在广泛地应用于各智能系统中,在实际的应用领域还有许多进一步研究的问题,本文的研究是对交通标志自动检测识别问题的一个有益的尝试,期待以后有更深入的研究,并能最终服务于人们的生活。
其他文献
随着中国文化软实力的不断增强,许多优秀的国产纪录片逐渐走向海外,让越来越多的外国观众了解中国。纪录片《共筑未来》简要介绍了丝绸之路的起源和发展,以及“一带一路”倡议的形成和发展。为了促进中国文化的传播和“一带一路”倡议的推进,该纪录片被翻译成英文以便让更多的海外观众可以倾听中国的历史,了解“一带一路”倡议。本文是笔者根据对纪录片《共筑未来》字幕的翻译实践撰写的报告。本报告探讨了以功能对等理论为指导
国有企业和非国有企业的政治关联存在天然的不对等性,会导致企业在社会责任信息披露的内容和形式选择上有不同的倾向;媒体报道既能反映企业披露的社会责任信息,也能代表公众对企业的社会责任行为进行监督和指导。因此,处理好企业与政府和媒体之间的关系,充分发挥三方内外联动的协同效应,对改善企业社会责任信息披露现状有很大帮助。本文以2009至2018年的沪深A股数据为样本,结合组织合法性、利益相关者等理论,建立了
目前我国高校教育基金会呈快速发展的态势,其资金主要来源于以校友为主的社会各界的捐赠,对于捐赠者来说捐赠体验是影响其产生捐赠行为的重要因素,而捐赠体验恰恰体现在公益
综合能源系统是能源高效利用的主要实现方式,在未来社会能源生产与消费中占据重要地位。随着近年来综合能源系统建设规模的不断扩大,如何实现综合能源系统的清洁低碳与安全高效运行成为亟待解决的工程问题;另一方面,综合能源系统安全稳定运行是扩大综合能源系统经济效益的基础,然而在当前综合能源系统静态安全问题中缺少针对多能耦合影响的分析;其次,综合能源系统混合潮流计算多采用忽略管网延时特性的稳态模型,使系统混合潮
《普通高中英语课程标准》(2017)强调教师要创设有意义的真实的语境,为学生实践和运用英语创造条件。只有通过真实语境和基于语篇的教学,学生的综合语用能力才能得到发展。因此,在高中英语教学中,英语阅读教学一直扮演着重要的角色。英语阅读不仅是巩固和扩大英语语言知识的重要途径,也是获得信息和语言学习的重要举措。英语教师们一直在实践中反思阅读教学,从而能找到更好地提高学生英语阅读兴趣和阅读理解能力的教学模
由于轮式移动机器人(Wheeled Mobile Robot,WMR)在未知环境下有较强的适应能力,因此越来越受到研究人员的重视并被广泛应用在实际生活中。但WMR的工作环境复杂,工作中不确定
随着低碳经济理念深入人心,社会公众、政府以及投资者等利益相关者开始重视企业碳排放问题,企业必须进行环境治理,采取减排措施来减少碳排放污染,以提升企业碳绩效,从而实现企业的长期可持续发展。除了外部的监督和约束机制外,董事会作为公司内部治理机制的核心,是企业主动减排提升碳绩效的关键,直接影响碳减排战略的制定、执行以及监督。基于以上考虑,本文从董事会特征方面来研究对企业碳绩效的影响,并考察不同产权性质下
内蒙古自治区呼伦贝尔市东部的莫力达瓦达斡尔族自治旗(以下简称莫旗)是全国仅有的三个少数民族自治旗之一,拥有着从事渔业生产和游牧业生产的悠久历史,因而形成了许多依据这种生产方式为基础衍生出来的传统文化和节日习俗等。新中国成立后,农业和工业的发展,地区产业结构的变革带来的是人们生活方式的变革以及文化的变迁。本论文分为五章:第一章为导论,对本文的研究意义、研究背景、国内外相关文献综述、研究方法、创新与不
我国北方地区日光温室越冬生产时低夜温现象普遍存在,低夜温能够导致光抑制的发生,进而引起叶片光合效率的降低。PGR5(Proton Gradient Regulation 5)/PGRL1(Proton Gradient Re
村上隆的作品色彩艳丽、整个画面活泼富有视觉上的动感,并带有强烈的装饰性。其作品明显地融合了美国的波普风格和日本文化元素,在世界范围内深受人们的喜爱。本文通过作品的视觉的流动感、斑驳的色彩、夸张的造型等方面进行分析村上隆的艺术语言,从创作角度、色彩、题材方面来论述对装饰绘画的启发。将研究成果应用到笔者现代装饰绘画十二生肖创作中来,思考在现代装饰绘画的过程中去寻找传统图案如何与现代艺术之契合,探索现代