基于深度学习的鲁棒视觉跟踪算法研究

来源 :西安邮电大学 | 被引量 : 0次 | 上传用户:chenzenghua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉目标跟踪是近年十分热门的研究方向之一,由于遮挡、光照变化、快速运动等挑战,要实现快速、准确且鲁棒的跟踪仍是一项艰巨的任务。基于深度学习的视觉跟踪算法受到了研究人员的广泛关注,并且已经产生了大量优秀的算法。但该领域仍然存在一定的发展空间,待解决的问题包含以下两个方面:首先,大多数目标跟踪使用的特征是利用现有主干网络提取到的单一特征,未关注到利于跟踪任务的关键特征,难以充分发挥网络的非线性建模能力。其次,跟踪目标的外观、大小在跟踪过程中不断变化,而多数的目标跟踪算法仅使用第一帧特征作为模板,无法适应不断改变的目标。因此,如何对网络的特征表达能力进行加强、如何对模型进行更新是本文旨在解决的问题。针对上述问题,本文基于现有的优秀跟踪算法,从特征增强与模型更新方面对其进行改进,目的在于提高算法的成功率和跟踪精确度,主要工作如下:1.针对视觉目标跟踪在复杂背景下因特征利用不全面等原因造成的跟踪失败问题,提出了一种基于高阶统计量和模板更新的跟踪算法。首先通过提取特征的二阶信息,来提高模型对相似物的辨别能力;其次设计了模板存储更新模块,在跟踪过程中利用多个预测框的Io U均值判断当前帧的跟踪状态,将跟踪效果较好的帧进行保存,合并序列第一帧及保存的帧来对模板进行更新,使跟踪器能够适应跟踪目标的外观变化,有效提升了算法对于动态目标的适应能力。为评估所提算法的有效性,在OTB100,VOT2018、UAV123和La SOT数据集上对其进行测试,实验表明所提算法的跟踪性能有明显提升。2.针对现有的视觉目标跟踪算法无法完全利用目标局部特征与全局特征等问题,提出了一种基于混合注意力的Transformer视觉目标跟踪算法。该算法通过在主干网络中间层嵌入混合注意力使网络更关注于包含较多目标信息的空间与通道;使用空洞卷积实现图像的多尺度特征提取,增强局部特征的表达能力;通过Transformer对全局特征的建模能力,使用编-解码器在搜索分支和参考分支之间进行特征信息传递;在Transformer中使用卷积核对特征进行卷积,赋予特征更灵活有效的位置编码。所提算法在数据集OTB100、VOT2018和La SOT上进行测试,实验表明通过对Transformer架构的利用,算法的精度与成功率都有了显著提升,特别是在长时数据集上表现较好。3.针对目标跟踪算法并未针对性处理主干网络每一层特征以及分类回归两分支独立优化的问题,提出了一种基于无锚框的分层特征强化目标跟踪算法。该算法首先对主干网络不同层的特征使用特定的特征细化模块对其处理并融合,充分发挥各层特征的优势,提高网络的特征表达能力和跟踪的准确率;其次,在分类分支和回归分支间建立连接,消除了回归和分类分支训练不同步的问题。在多个数据集上测试,实验结果表明,作为短时跟踪算法,该算法在短时数据集上的精度、成功率及算法速度方面具有一定竞争力。
其他文献
深度神经网络(Deep Neural Network,DNN)作为人工智能最杰出的代表,被广泛应用于各个领域。然而,近期研究表明,高精度DNN模型极易受到对抗样本的攻击。对抗样本是人为经过特定对抗攻击算法所生成的恶意攻击样本,能在不影响人类正常视觉辨别的同时,使DNN模型产生高置信度的预测错误或分类错误。对抗样本揭露了DNN易被攻击的特性,是DNN巨大的安全漏洞。因而提升DNN对对抗样本的防御能力
学位
引线框架作为半导体芯片的载体,是半导体封装领域所用到的重要基础原材料,主要用来保护半导体芯片免受外界物理或化学因素的损害,并同时用作导通介质。引线框架的生产方式是利用引线框架掩模在曝光机上对生产原材料(铜基板)进行曝光,将曝光后的半成品进行显影、蚀刻、电镀等工序后获得成品。若曝光环节出现的缺陷未被检出,会导致后续环节中的错误进一步扩大,所以生产厂商都会在曝光环节设立检测点。引线框架曝光缺陷尺寸微小
学位
极化合成孔径雷达是一种高精度成像雷达,可以获得丰富的目标和土地覆盖信息,极化合成孔径雷达不仅成像分辨率高,而且还具有全天候对地观测的特点,在运转时不会因为光照、气候等条件而受到干扰,甚至可以穿透掩盖物获取其覆盖的信息。合成孔径雷达这些优点使得其在农业、环境、地质和军事等领域得到了广泛应用。传统的极化SAR图像分类方法通常会忽略掉极化SAR图像像素点之间的空间信息,分类效果常常达不到预期。本文的主要
学位
学位
生物特征识别在信息安全领域发挥着重要作用,掌纹识别作为一种新型生物特征识别方式,具有低失真、非侵入性和高唯一性等优势。传统掌纹研究大多使用自然光成像系统以灰度格式获取,识别精度很难进一步提升。为了获得更多的身份鉴别信息,利用多光谱掌纹图像代替自然光掌纹图像,根据不同波长的光谱对皮肤的吸收和反射率不同,捕获每个波段中特定和互补的掌纹特征。因此,本文探讨了基于多光谱图像的掌纹融合识别方法。1.针对传统
学位
随着智能物联网时代的来临,边缘计算作为一种新的计算方式,凭借其超低时延和超高可靠性的优势被应用于各个领域。然而,传统的CPU和GPU平台无法满足边缘计算实时和功耗的需求,急需高效低功耗的平台对应用进行加速。因此,本文设计并实现了基于异构多核FPGA平台的加速器,并对设计空间进行探索与寻优,以满足上述的需求。本文的主要研究工作如下:1.卷积运算中普遍存在数据读写依赖,导致执行过程无法完全并行,而串行
学位
喉癌作为头颈部常见的癌症,其早期症状通常不明显,当其开始影响患者的生活质量时,往往已经发展到了中晚期。因此,尽早发现可疑病变,有利于病情的及时确诊和后续治疗方案的确定。目前,在喉部检查过程中广泛采用的是内镜白光成像技术,其对于发生在粘膜浅层的病变敏感度较低,窄带成像技术由于能够清晰显示粘膜浅层的微小病变,成为发现早期癌变的有力工具。但这种成像技术依赖于特定设备以及检查医师的操作,视觉感知的微妙差异
学位
报纸
极限学习机(Extreme Learning Machine,ELM)是一种训练单层前馈神经网络(Single-hidden Layer Feedforward Neural Networks,SLFNs)的机器学习方法,对于解决分类和回归问题具有明显的优势。ELM是对反向传播算法(Backward Propagation,BP)的改进,不仅有效地克服了BP算法存在的训练速度慢的缺点,而且具有很好
学位
随着5G时代的到来,快速和安全的云端数据共享正吸引着越来越多的关注。关键字搜索以其可以识别用户和搜索密文而无需解密在数据共享中起着重要的作用。然而,现有的可搜索算法有许多局限性,如强大的中心权限、匹配进程只在云服务器上执行、容易造成中心损坏和单点故障等问题,使得关键词搜索的公平性仍然是一个挑战。此外,随着互联网的不断发展和生活水平的逐步提高,对数据分享的安全性要求以不再是特殊机构的专属,而现有的研
学位