论文部分内容阅读
随着科技的迅猛发展和智能手机与互联网的普及,人们日常生活中产生的图像数据的数量在快速地增长。自然场景图像中的文本通常都包含着丰富的语义信息,对于图像分析、图像分类、图像内容理解等有关图像的应用具有重要的价值。因此,如何准确地识别出自然场景中的文本得到了广泛的研究关注。然而,由于自然场景中文字的不规则外形、复杂背景以及拍摄条件导致的各类图像质量退化问题,与规整的扫描文档识别相比,想要准确地识别自然场景中的文本是一个十分具有挑战性的问题。因此,本文相应提出了两种针对场景文本图像的有效图像增强技术,从文本图像超分辨率、矫正和质量改善方面,提高了自然场景图像中文字的识别准确度。本文首先探索了图像超分辨率增强在场景文字识别中的作用,提出了一种创新性的关注于文本区域的文本图像超分辨率增强模型。以条件生成对抗网络为框架,本文利用了文字/非文字的二值分割图来计算一个作用于特征的掩码图来引入空间注意力机制,同时设计了相应的损失函数用于指导网络能够更加关注文本区域的特征,提高了超分辨率重建性能以及模型的学习效率;同时本文在网络中嵌入了通道注意力模块,增强有助于任务的通道特征并抑制无关特征,提高网络的特征学习能力。通过组合这两种注意力机制,帮助网络更有重点地提取和关注有助于本任务的特征,改善文本区域的重建质量。作为文本图像超分辨率增强工作的延伸,本文进一步提出了一个基于图像增强的端到端的场景文字识别模型。本文在识别网络之前增加一个自适应的图像增强模块,其中首先通过空间变换网络对图像进行矫正,使得文字的形状趋于更有利于识别的水平布局,减轻文本可能具有的不规则形状对于后续识别的影响;随后使用层次式的U形网络来对矫正后的图像进行像素级的质量改善,使得文字区域得以更加凸显,减轻图像模糊、复杂背景、低对比度等因素对识别造成的困难。包含了增强模块的整体文字识别模型可以仅依靠文本序列标签作为监督数据进行端到端训练,不需要引入额外的监督信息。本文在多个公开场景文本识别数据集上,对所提出方法的有效性进行了深入的实验验证。实验结果表明,与现有方法相比,本文提出的关注于文本区域的文本图像超分辨率增强方法和基于图像增强的场景文字识别方法,相对于已有方法均获得了更好的性能,从而验证了本文方法的有效性。