论文部分内容阅读
场景文字检测与识别是计算机视觉领域的重要任务。场景文字检测的目标是在自然场景图像中定位文字实例。场景文字识别的目标是将只包含单个文字实例的自然场景图像转化为计算机可以理解的字符串。相比于传统的光学字符识别,场景文字检测与识别面临着图像背景复杂,文字样式多变,成像质量不佳等诸多挑战。为了解决上述问题,本文建立了一个工业场景的文字图像数据集,并提出了两种新的基于深度学习的场景文字检测与识别方法。首先,本文建立了一个工业领域的场景文字检测与识别数据集——设备铭牌数据集。该数据集包含502张自然场景下拍摄的设备铭牌图像,并对图像中的铭牌位置、文字位置和内容进行了详细的标注。该数据集涵盖了 175种不同种类的铭牌,包含中文字符、英文字符、数字、符号等多种字符,以及凸起文字、雕刻文字、印刷文字、手写文字等多种形式的文字,具有很强的挑战性。其次,本文针对透视变换影响文字检测精度的问题,提出了一种基于关键点定位的场景文字检测方法。我们设计了一种关键点定位网络,用于定位文字区域的关键点,并根据关键点位置对文字图像进行转正。该方法不仅解决了透视变换影响文字检测精度的问题,还抑制了复杂的图像背景对文字检测的干扰。最后,本文针对非水平文字实例识别精度下降的问题,提出了一种形状鲁棒的场景文字识别方法。我们引入了一种局部方向修正模块,用于获取更加准确的文字控制点,并利用薄板样条变换对文字图像进行矫正。该方法显著提高了场景文字识别模型对不同形状文字图像的鲁棒性。我们以铭牌文字检测与识别为例开展了大量实验,验证本文所提出的场景文字检测与识别方法的有效性。实验结果表明,关键点定位模块可以很好地解决透视变换影响场景文字检测精度的问题,局部方向修正模块可以显著提高非水平文字识别的精度。