论文部分内容阅读
近年来,人工智能的发展异常迅猛,作为视频与图像序列智能化分析处理的最重要方式之一,视觉目标跟踪逐渐成为了计算机视觉领域中一大热门研究方向,在诸如交通监管、无人驾驶、智能导航、人机交互甚至军事领域等大量场景下均拥有广阔的发展与应用前景。由于自然拍摄环境下存在诸多干扰,目标跟踪算法面临包括形变、旋转、被遮挡、尺度变换、光照变化、运动模糊、相似物体干扰等各种困难与挑战。本文基于孪生结构的卷积神经网络构建的视觉目标跟踪算法模型,利用基于元学习梯度下降的训练优化方法,提高了跟踪模型在面临自然场景各类干扰挑战时跟踪的精确度与鲁棒性,并结合视频文字跟踪任务,针对其难点做出相应改进,实现跟踪模型在文本场景中的应用。本文主要贡献包括以下几点:1、在目前孪生网络跟踪模型基础上,提出了一种新的基于元学习梯度更新的目标跟踪算法,通过对回归分支的卷积核参数的内部优化,充分利用模板帧目标坐标监督信息,使得跟踪模型可以更准确地拟合目标位置坐标。2、采用了模型无关元学习法的训练方案对参数进行更新,得到的模型在面对新的跟踪视频时仅通过对第一帧图像的一次或少量几次梯度下降,就得到能够适应当前视频的最优模型参数,实现对当前视频良好的目标跟踪效果。3、根据文本视频场景的特点与文字目标表征的特殊性,对目标跟踪模型进行了有针对性的定制化改进,包括文字特征强化、坐标框分割注意力机制、在线模板更新等,实现了视觉目标跟踪算法在文本场景中的应用,对目标跟踪与文字跟踪两者相关领域的研究都具有一定推动作用。