论文部分内容阅读
自然场景图像中的文本信息可以传达丰富而准确的高层语义信息,是理解场景内容的关键元素。随着图像和视频的数量呈现出快速的增长,自然场景图像中的文本检测技术得到了国内外研究人员的广泛关注。然而,自然场景图像中的文本检测具有相当大的挑战。一方面,自然场景中的文本具有不同的字体、大小、方向和颜色,甚至属于不同的语言。另一方面,自然场景中复杂的背景,以及噪声、模糊、曝光和遮挡等因素,给文本检测带来了很大的困难。因此自然场景中的文本检测仍然存在着许多技术难点。针对场景字符的多变性以及背景的复杂性,本文借鉴图像处理、目标检测、模式分类、机器学习等领域的最新进展,重点研究自然场景图像中文本检测相关的基本问题。具体而言,本文主要从以下几个方面展开研究:1)自然场景图像中光照不均匀、字符的扭曲、遮挡以及边缘检测算法的选择等因素,影响了以笔画宽度为基础的文本检测算法的性能,导致了字符检测结果中部分字符笔画缺失,甚至造成了字符的错检、漏检。针对字符笔画缺失、错检和漏检的问题,提出了一种基于笔画和颜色融合的文本检测算法。在字符提取过程中,以笔画连通域为基础,利用笔画的颜色信息对笔画连通域进行扩展,解决了字符笔画缺失和错检的问题。对于漏检字符的提取,以字符连通域为基础,利用相邻字符几何特征和颜色一致性原理对漏检字符检测,解决了字符检测过程中漏检的问题。通过对算法的每一个过程进行实验对比,证明了笔画和颜色融合的文本检测算法有效地弥补了基于笔画宽度检测算法的不足。2)自然场景图像中模糊和低对比度文本与背景难以区分,有效的文本特征很难被正确地提取。针对模糊和低对比度文本难以检测的问题,提出了一种基于极值区域的文本检测算法。该算法首先利用极值区域在图像的多个通道中对字符连通域提取,然后通过非字符连通域过滤、字符连通域召回等方法获得文本字符。最后结合文本行中字符的数量和类别提出了文本熵的概念,利用文本熵和卷积神经网络模型共同对文本候选区域的稳定性进行判断。通过实验证明了基于极值区域的文本检测算法解决了模糊和低对比度文本难以检测的问题。3)自然场景图像中背景的复杂性导致字符检测召回率较低进而影响了文本检测的性能,同时大多数检测算法对于检测任意方向的文本存在着一定的难度。针对复杂背景中字符检测较差以及任意方向文本检测较难的问题,提出了一种基于卷积神经网络的文本检测算法。算法以文本词语作为检测单元,避免了字符检测结果对文本检测性能的影响。同时根据词语几何特征对区域建议网络的尺度和比例大小重新设置。为了获得文本区域较强分辨能力的文本特征,融合了卷积神经网络不同卷积层之间的局部特征和全局特征。在候选区域进行类别判断和位置回归的多任务过程中加入文本的角度信息,使得模型具有预测文本几何坐标和角度的能力。最后利用基于蒙特卡洛的非极大值抑制方法,排除冗余的检测结果。通过实验证明了基于卷积神经网络的文本检测算法实现了对复杂环境中任意方向文本的检测。