基于判别式分类器的视频目标跟踪算法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:pzchh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目标跟踪是计算机视觉领域中的一个重要研究方向,已广泛应用在城市视频监控、城市智能交通、移动机器人目标跟踪、无人机飞行、虚拟现实和医学检测等多个研究领域。在实际应用中,常常出现目标遮挡、运动模糊、背景与目标相似、背景杂乱等情况,这些情况对跟踪算法的性能提出了很大的挑战。基于判别式分类器的目标跟踪算法因其效率高、效果佳的优势逐渐成为目标跟踪领域的主流研究方向,基于此,本文对基于判别式分类器的目标跟踪算法进行了深入的研究,主要工作和研究内容如下:(1)系统全面的从生成式和判别式两个方面对目标跟踪的研究现状作了概述,然后对目前主流且典型的两种基于判别模型的跟踪算法-相关滤波和深度学习进行了深入分析,最后从算法的鲁棒性和适用性等多个角度指出现有的生成式和判别式方法的不足之处。(2)针对目标跟踪任务中目标跟踪鲁棒性较差的问题,本文提出了一种改进的基于相关滤波的判别式目标跟踪算法。首先通过分析深度神经网络中不同卷积层提取的特征差异,对不同层的特征在不同属性下的跟踪性能进行比较;然后将不同分辨率的卷积特征通过双线性插值进行融合,以此来作为跟踪过程中的特征表示;最后在传统相关滤波跟踪算法的框架下设计了多分辨率卷积特征融合的目标跟踪算法,以此来提高跟踪精度。实验采用OTB50跟踪数据集对改进算法进行评测,实验结果表明,本文算法相比核相关滤波算法(KCF)和基于分层卷积特征算法(CF2)表现出更强的鲁棒性,能够适应目标发生低分辨率、超出视野范围、快速运动和运动模糊等复杂情况。(3)针对目标跟踪在不同的应用场景下对跟踪精度和跟踪速度的要求不同,以研究的基于判别式分类器的跟踪算法为对象,选取了六种经典且具有代表性的算法从跟踪速度和跟踪精确度两个方面进行了基于属性的判别式目标跟踪算法性能比较分析。实验结果给出了算法在OTB50数据集中不同挑战属性的视频中跟踪性能的对比,并对这些算法从跟踪精确度和跟踪速度这两个方面进行了全面深入的比较分析和总结。实验的结果可以作为基于属性的判别式视频目标跟踪算法的优化参考,以此为用户根据具体的实际应用场景条件的差异,在不同场合下选择合理高效的跟踪算法提供选择依据。
其他文献
随着人工智能的发展,基于深度学习的众多领域不再过分依赖于大量数据,其能够利用以往的经验针对新的问题从少量的样本中进行有效的学习。在现实中,人们也将必然面临更多数据不足的问题,因此如何让机器像人类一样能够通过已有的学习经验快速从少量标签样本中进行有效学习实现分类,成为一个重要的研究方向。在近几年,小样本的分类算法层出不穷,从迁移网络、度量空间以及数据增强等方向的研究都有了很多突破性的进展。但是,基于
近年来,随着智慧城市的不断建设,目标跟踪越发重要。视觉目标跟踪需要在视频序列的每一帧实现对目标的定位与跟踪。复杂环境及目标自身变化等问题是目标跟踪技术面临的困难。因此,视觉目标跟踪领域的重点任务就是研究具有较高精确度与稳定性与目标跟踪算法。相关滤波类跟踪算法由于兼具高速与高精确度,受到了学者们的广泛关注和研究。然而,现有相关滤波类跟踪算法仍存在以下问题:一是边界效应会使训练样本对目标表示偏离真实,
[db:内容简介]
随着无人机技术的发展,无人机拍摄在航空摄影,地形测绘,军事侦察等方面具有广泛的应用前景。本文主要研究无人机俯拍视频中的目标识别问题,分析现有的运动目标识别方法,提出融合目标跟踪与图像识别的运动目标识别方法。以无人机俯拍视频中的运动目标作为研究对象,进行跟踪标定及分类识别。针对识别方法的实时性问题,提出基于数据去冗余的改进方法,通过仿真实验验证基于视频流的无人机目标识别方法。本文主要研究内容如下:(
图像质量评价在数字图像处理技术中占据着重要地位,分为主观图像质量评价和客观图像质量评价两种。主观图像质量评价需要消耗大量的人力,且无法嵌入到实时应用的系统中去,因此需要研究能够适用于多种场合的客观图像质量评价方法。客观图像质量评价方法分为全参考、部分参考和无参考三种。在多数情况下,参考图像难以获得,因此无参考图像质量评价方法具有更广泛的应用场景。无参考图像质量评价算法BRISQUE(Blind/R
数字图像是大数据时代人类感知与传播信息的重要载体,在数字图像产生与保存的过程中会引入不同程度的噪声,图像质量差会对信息的获取产生很大的影响,使得后续对于图像的处理存在极大的不确定性,阻碍图像处理技术的发展。图像技术在多领域的普遍应用,使得数字图像质量增强技术的研究已经成为图像处理方面十分具有现实意义的内容,图像去噪作为进行图像研究的预处理问题,具有十分深远的意义。图像去噪判别模型由于其良好的去噪性
受到传感器成像机理与材料工艺的限制,由传感器采集到的单一类型图像数据难以全面、准确、清晰地描述场景中的信息。多源成像传感器可提供同一场景下类型不同的图像数据。多源图像融合技术的目的是尽最大可能提取来自多源信道图像数据的互补信息,生成包含更多场景信息的融合图像。现阶段,多源图像融合技术在数码摄像、视频监控、医疗诊断和遥感目标检测等领域得到了广泛应用。本文针对多聚焦图像融合和红外与可见光图像融合中信息
随着深度学习的发展,人工智能对人类社会生活带来了很大的便利。视频文本描述作为视频内容分析的重要分支,推动着视频检索与视频个性化推荐的进一步发展。视频文本描述算法需要对视频中包含的视觉内容使用自然语言进行文本描述,且要求该描述语句具有准确性、可读性与流畅性。目前在基于编解码模型的视频文本描述算法的研究中,将视频高级语义信息作为视频语义特征,能够有效地辅助解码模型更准确的将视频视觉特征转化为文本描述。
面部表情识别在情感计算中占有重要地位,已被广泛应用于人机交互、驾驶者异常监测、疼痛估计、远程教育等领域。人类表达情感的方式并不相同,即使传递同一种情感,面部表情也因人肤色、性别等身份属性的不同存在差异。目前常用的深度学习方法能够有效地提取图像语义特征完成表情识别,但由于现有的表情数据集样本偏少,仍难以学习到与个人身份无关的表情特征。本文研究了基于情感特征解耦学习的表情识别方法以解决表情特征与身份特
大数据时代,数据以维数高、知识体系混杂、数据量大等特点呈现,给基于数据的研究带来巨大的挑战。维数约减是从高维数据中抽取知识、形成组织、发现内在规律,进而减小冗余、增强特征价值密度、提高后续计算效率的有效方法。非负矩阵分解(Non-negative matrix factorization,NMF)作为非线性且带有非负约束的矩阵分解降维方法,具有可解释性、计算简便、大规模处理数据等优点,因此广泛应用