论文部分内容阅读
随着各种智能终端设备的广泛普及和社交媒体的快速发展,自然场景视频的采集、存储、处理和传播越来越方便,这导致了视频数据的迅速增长,同时也对有效的视频信息提取提出了迫切的需求。作为一种关键和直接的信息来源,自然场景视频中的文本包含了关于视频内容丰富的语义信息,对于视频索引、检索、分类、理解等各种基于内容的视频应用具有重要的价值,因此得到了计算机视觉、图像处理等研究领域的广泛关注。视频中的文本具有和静态图像中文本共同的部分特点,例如文本大小、方向、颜色、样式等方面多变的外观,以及复杂的文本背景、光照条件等上下文的干扰。此外,视频中的场景文本还具有不同于图像文本的特性,例如由文字所依附的物体或相机的运动导致的模糊、视角变化以及相邻视频帧间文字外观和位置上的时间相关性等。因此视频中场景文本的检测成为了一项具有挑战性的任务。近些年来,针对静态图像的场景文本检测研究发展迅速,而针对视频中文本检测的研究结果较少。因此,本文针对视频中场景文本的有效检测方法进行了深入的研究和探索,并提出了两种具有创新性的视频文本检测方法。为了有效利用文本在相邻视频帧间的相关性,本文提出了一种结合帧内基于卷积神经网络的文本检测与帧间基于相关滤波算法的文本跟踪的视频文本检测方法。首先,本文设计并实现了一种可靠的静态图像文本检测网络,用于得到单帧图像的文本检测结果,该网络包含多个新颖的refine模块,利用低层特征改进高层语义特征,从而更加精细地融合高低分辨率的特征,以提高文本检测的性能。接着,本文利用基于相关滤波的跟踪算法对检测获得的文本对象进行跟踪,得到跨帧的文本跟踪结果。最后,本文设计了一个有效的合并算法对检测结果与跟踪结果进行合并,过滤掉静态图像文本检测网络误检测的文本对象,并补全其未检测到的文本对象,提高了视频文本检测的准确率和召回率。针对因视频中文字所依附的物体或相机的运动导致的模糊等图像退化情况,本文提出了一种新颖的结合视频去模糊的视频文本检测方法。本文首先设计并实现了一种鲁棒的视频去模糊网络,用来对视频帧进行处理,得到去模糊后的清晰图像,其中视频去模糊网络使用包含长跳跃连接和短跳跃连接的多层卷积块结构,融合多个相邻帧的信息以渐进地学习中间视频帧的残差细节,并且使用空间注意力机制有目的地聚焦于视频帧中模糊的区域,从而得到更加清晰的中间视频帧图像。然后,本文设计了两种有效的文本检测网络,用于在去模糊后的视频帧基础上进行文本检测。第一种文本检测网络在EAST检测模型的基础上引入可变形卷积和反卷积层用来更好地捕获文字多变的外观,并从去模糊后的视频帧图像中得到最终的视频文本检测结果。第二种文本检测网络采用Mask R-CNN模型作为基础的文本检测器,并利用特征选择机制自适应地选择输入的原始图像或去模糊后的清晰图像的特征用于视频文本检测。为了验证本文提出的视频文本检测方法的有效性,本文在多个公开的视频场景文本数据集上对本文方法进行了深入地实验测试和对比分析。实验结果表明,相较于已有的基于单帧检测或者结合跟踪机制的视频文本检测方法,本文提出的两种视频中场景文本的检测方法具有优异的检测性能。