基于深度学习的图像文本切分与识别

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:longzhi2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像中的文本作为高层语义信息的载体,在图像检索、视频摘要和智能交通等领域具有广泛的应用,高效且准确的识别图像中的文本已经成为当前科研热点。然而,图像文本存在背景复杂、分辨率低、字体差异大等特点,使其在传统扫描文本识别架构下性能表现很差。随着深度学习在很多领域上都取得了非常显著的效果,尤其在解决很具有挑战性的大数据视觉任务中的卓越表现,给图像文本行识别带了新的机遇。  本文主要关注深度学习在图像文本识别中的研究,主要创新成果如下:  1、提出了一种基于L1-范数PCA(Principal Component Analysis)的二值化方法,克服了传统方法中不能同时利用颜色区分性信息和像素之间位置关系信息的缺点。算法通过使用L1-范数PCA的降维技术最大程度上保存了文本像素和背景像素之间的区分性信息;通过背景复杂性度量准则、双边缘提取算子和全局阈值方法实现了整个二值化过程,既保证了性能又提升了速度。  2、提出了一个自动生成大规模带标注训练字符样本的实用方案,并采用深度学习模型实现了中文图像字符识别系统。具体地,训练样本生成方案首先从字库中自动地提取出相应大小、粗细和字体的纯净字幅图像,然后通过清晰度度量准则与自然场景背景图像进行随机偏移叠加而成。在此基础上,通过选择合适复杂度的深度学习模型-受限玻尔兹曼机-深度神经网络架构(RestrictedBolzmann Machine-Deep Neural Network,RBM-DNN)以取得最佳的识别性能。整个方案通过直接采用灰度图像进行字符识别,有效地避免了由于二值化算法性能差带来的识别性能不鲁棒问题。  3、提出了一种共享隐含层的卷积神经网络(Shared-Hidden-Layer Convolutional Neural Network,SHL-CNN)用于挖掘存在于不同语言字符之间的通用特征,并利用来自不同语言的图像字符训练集联合学习到的更具有区分性的共享隐含层,使得每一个具体语言的图像字符识别任务都可以从中受益,获得更好的性能提升。与单独在各自的训练集上采用相同配置的典型卷积神经网络(只有输出层不同)得到的性能相比,基于SHL-CNN的错误率降低16%到30%。而且,相比于目前在ICDAR-03公开数据集上得到的最好结果,错误率下降了35.7%。  4、提出了一种集成过切分识别架构用于图像文本行识别,克服了传统框架先二值化再OCR(Optical Character Recognition)引擎识别的缺点。该架构基于贝叶斯最大后验推断从理论上导出了融合多种上下文信息的统计框架,该框架融合了过切分、切分候选网络构建、字符识别、语言模型、路径评价准则、最优路径搜索6个模块进行图像文本行识别,直接在灰度图上进行,最大程度上保留字符的区分性信息。在13个新闻栏目的数据集上,与性能最好的图像文本行识别软件之一OCR ABBYY Fine Reader的结果相比,错误率相对下降了68.6%。
其他文献
该文以马钢MIS综合查询系统为研究对象,介绍了马钢MIS系统的总体设计,并对马钢MIS查询系统进行了分析和详细设计.新系统的查询是建立在B/S基础上的.由于基于Web技术的应用可
该文研究了战术飞机数据融合系统的多传感器管理问题,主要工作如下:1.论述了数据融合的一般概念和方法,分析了目前常用的数据融合算法的优缺点和今后的发展方向;2.研究了多传
该文研究的是股票合理价格怎样确定.这项研究对于投资分析、产权交易、资产评估等工作具有理论指导意义.论文从分析股票合理价格的含义出发,得出了股票合理价格决定的一般性
容错控制是指当控制系统中某些部件失效时,这些部件在系统中的功能能够被其它的部件完全代替或部分代替,使系统能继续保持原有的性能或不丧失最基本的性能.该文首先对控制系
该论文研究鱼雷制导系统面向对象建模与仿真环境的设计和实现技术,它是雷制导系统一体化仿真技术的基础.该论文的研究采用了最先进的软件工程方法学和技术实现手段,由此设计
该文以某型飞机机载电源系统为例,阐述了建立复杂大系统数学模型的方法.首先采用微增量法和分段线性化,建立了该系统传递函数和状态方程形式的数学模型;其次将该机电源系统中
首先,该文指出系统开发方法对一个成功的信息系统的建设的重要性,遵循系统开发方法的原则和要求,是保证系统可用性和健壮性、提高可维护性、缩短开发周期、降低开发成本的关
该文在对现有的主要应用于数字信号处理中的神经网络模型和理论分析的基础上,针对目前数字信号处理中的困境与难点,提出了应用神经网络实现信号的方向估计和信号变换的新方法
青光眼是世界上的第二大致盲疾病,近些年其研究得到越来越多的关注。本文使用包括T1加权像、静息态功能磁共振成像(functional Magnetic Resonance Imaging,fMRI)在内的多模态医
该文对振动试验台电液伺服控制系统进行了详细分析,建立了控制系统的数学模型.根据结构不变性原理,设计补偿装置,减少伺服系统慢时变或未知非线性参数影响.对系统进行了模型