论文部分内容阅读
与一般的视觉元素不同,文字包含了丰富的高层语义信息,能够帮助计算机更为准确地解读图像内容。这对图像理解有着重要的学术意义。此外,工业界对自然场景中的文字识别技术也有着极大需求。文字识别技术在虚拟现实、人机交互、图像检索、无人驾驶、车牌识别、工业自动化等领域中有着广泛的应用。传统光字符识别技术(OCR)主要面向高质量的文档图像。此类技术假设输入图像背景干净、字体简单且文字排布整齐,在符合要求的情况下能够达到很高的识别水平。与文档文字识别不同,自然场景中的文字识别则面临着图像背景复杂、分辨率底下、字体多样、分布随意等挑战,传统光学识别技术在此类情况下几乎无法被应用。作为大量相关技术的基础工作,自然场景文字识别的不断发展和突破具有深远的研究意义和实际价值。本文结合深度学习技术,提出了一套针对自然场景文字的识别方法。本文主要工作如下:(1)提出了基于CNN和BiRNN的、结合上下文的图像编码方法。利用CNN从底层像素中获得高层视觉特征,并利用CNN局部感知特性建立起高层特征与底层像素的位置关系,然后利用BiRNN捕获图像全局信息。实验表明该编码方法具有良好的表达能力。(2)提出了基于ARSG的文字解码方法,同时完成字符定位和文字识别功能。ARSG利用RNN完成序列标注任务。并在逐字符分类过程中,利用注意力机制,对当前神经网络的关注点进行建模,从而得到每个字符在图像中的位置。同时,利用启发式规则和延迟生成技术,提高了识别的效率和精度。实验表明,该方法能够获得较好的字符定位和文字识别效果。(3)实现了一套高效的深度学习框架。该框架能够支持多种神经网络结构,并提供了一系列行之有效的训练策略。利用该框架初步验证了基于深度学习的自然场景文字识别算法的有效性。实验表明,本文算法相对其它算法,泛化能力和识别精度有着明显的提升。