论文部分内容阅读
光学字符识别(Optical Character Recognition,OCR)识别技术始于上世纪六十年代,从对简单的印刷文本发展到现在各种复杂场景中的字符识别,其受到了越来越多的关注。随着工业进入4.0时代,工业生产升级为高度数字化、智能化的生产模式,信息化技术将实体与网络相结合为工业生产注入了新的活力,自动化字符识别成为工业生产中研究的热点之一。工业生产要求生产线上的产品信息能够被快速检测和识别,但过程中存在各种因素干扰,例如生产环境的噪声,光照条件以及工业字符的多样性等,都给字符识别带来了一定的难度。针对目前工业字符识别所面临的难点,本文将基于传统字符识别流程和基于深度学习字符识别流程分别对单个字符和整体字符序列识别进行研究,具体工作包括以下几个方面:(1)在传统字符识别流程中提出基于连通域与几何特征的字符分割方法,解决结构不连续或粘连字符的分割问题。该流程在字符分割之前采用Blob分析去除图像中的干扰信息,获取字符区域,并通过椭圆拟合与仿射变换对倾斜字符进行校正;使用基于连通域与几何特征的分割方法时,对于不连续字符先进行形态学填充与连通性分析,然后根据字符连通域得到第一次粗分割结果,第二次分割在粗分割基础上寻找每个连通域的最小外接矩形,以初始字符的宽高特征对最小外接矩形进行等间距矩形分割,从而获得单个字符;最后使用该方法对本文所采集的点阵字符图像进行分割并采用K近邻、支持向量机和多层前馈神经网络验证分割字符的有效性。实验结果表明,基于连通域与几何特征的字符分割方法与传统方法相比能更有效地分割不连续或粘连的字符。(2)提出基于CRNN(Convolutional Recurrent Neural Network)与CTPN(Connectionist Text Proposal Network)及注意力机制组合的端到端字符识别网络,对工业字符实现无分割以及多类字符识别。工业字符识别与一般文档识别难点不同之处在于其图像背景复杂、字符类型多样、排版不固定并且噪声干扰多,传统方法难以实现字符定位与分割,而本部分工作以目前流行的自然场景文本识别网络CRNN为基础加入CTPN网络,可在复杂的图像中直接检测出感兴趣的文本区域,同时CRNN通过引入注意力机制对字符序列特征进行权重分配,提高网络对长序列文本图像中关键信息的注意度,在字符序列过长和字符背景及噪声干扰时,依然能够保持稳定的识别。实验结果表明,基于CTPN与CRNN及注意力机制的组合与单一的CRNN网络相比,在工业字符的检测与识别中有更好的效果。(3)针对本文所用到的传统字符识别流程和基于深度学习字符识别流程分别设计了基于QT的点阵字符识别系统和基于Flask Web的字符识别系统。通过界面化的操作,使实验结果更加直观,更有利于对两种方法进行比较与分析。