论文部分内容阅读
图像中的文本作为高层语义信息的载体,在图像检索、视频摘要和智能交通等领域具有广泛的应用,高效且准确的识别图像中的文本已经成为当前科研热点。然而,图像文本存在背景复杂、分辨率低、字体差异大等特点,使其在传统扫描文本识别架构下性能表现很差。随着深度学习在很多领域上都取得了非常显著的效果,尤其在解决很具有挑战性的大数据视觉任务中的卓越表现,给图像文本行识别带了新的机遇。 本文主要关注深度学习在图像文本识别中的研究,主要创新成果如下: 1、提出了一种基于L1-范数PCA(Principal Component Analysis)的二值化方法,克服了传统方法中不能同时利用颜色区分性信息和像素之间位置关系信息的缺点。算法通过使用L1-范数PCA的降维技术最大程度上保存了文本像素和背景像素之间的区分性信息;通过背景复杂性度量准则、双边缘提取算子和全局阈值方法实现了整个二值化过程,既保证了性能又提升了速度。 2、提出了一个自动生成大规模带标注训练字符样本的实用方案,并采用深度学习模型实现了中文图像字符识别系统。具体地,训练样本生成方案首先从字库中自动地提取出相应大小、粗细和字体的纯净字幅图像,然后通过清晰度度量准则与自然场景背景图像进行随机偏移叠加而成。在此基础上,通过选择合适复杂度的深度学习模型-受限玻尔兹曼机-深度神经网络架构(RestrictedBolzmann Machine-Deep Neural Network,RBM-DNN)以取得最佳的识别性能。整个方案通过直接采用灰度图像进行字符识别,有效地避免了由于二值化算法性能差带来的识别性能不鲁棒问题。 3、提出了一种共享隐含层的卷积神经网络(Shared-Hidden-Layer Convolutional Neural Network,SHL-CNN)用于挖掘存在于不同语言字符之间的通用特征,并利用来自不同语言的图像字符训练集联合学习到的更具有区分性的共享隐含层,使得每一个具体语言的图像字符识别任务都可以从中受益,获得更好的性能提升。与单独在各自的训练集上采用相同配置的典型卷积神经网络(只有输出层不同)得到的性能相比,基于SHL-CNN的错误率降低16%到30%。而且,相比于目前在ICDAR-03公开数据集上得到的最好结果,错误率下降了35.7%。 4、提出了一种集成过切分识别架构用于图像文本行识别,克服了传统框架先二值化再OCR(Optical Character Recognition)引擎识别的缺点。该架构基于贝叶斯最大后验推断从理论上导出了融合多种上下文信息的统计框架,该框架融合了过切分、切分候选网络构建、字符识别、语言模型、路径评价准则、最优路径搜索6个模块进行图像文本行识别,直接在灰度图上进行,最大程度上保留字符的区分性信息。在13个新闻栏目的数据集上,与性能最好的图像文本行识别软件之一OCR ABBYY Fine Reader的结果相比,错误率相对下降了68.6%。