论文部分内容阅读
光学字符识别(Optical Character Recognition,OCR)是机器视觉领域一个重要的研究方向。随着当前社会中生产生活的各个方面自动化程度越来越高,字符识别技术在复杂场景尤其是工业场景下的应用获得了越来越多的关注。由于工业生产线环境恶劣,存在运动模糊、遮挡、照明不足、物理损伤、划痕等因素的干扰,传统的字符识别方法很难做到高效、准确的识别,严重制约工业生产的自动化进程,因此,采用机器视觉技术进行自动准确的字符识别受到了越来越多的关注,成为工业生产流程中的一个重要环节。本文基于卷积神经网络算法,采用有监督的方式进行算法训练,针对工业字符识别中两个重要需求:更高的识别率和更短的训练时间,提出了一种CNN集成模型,它通过多级特征融合为CNN特征提取阶段建立更丰富的特征表达,并通过和集成学习方法的结合建立集成多个网络结构的更准确的分类决策系统,有效解决了特征提取过程中丢失全局信息、单一网络模型识别效果不稳定等问题。本文先通过有效的数据采集方案,建立工业场景字符数据集,进行数据增强和预处理工作,然后通过CNN网络结构对比,分析结构设计过程中各个参数对识别准确率的影响,从而构造出适用于工业字符识别的基本网络结构。利用多级特征融合和Bagging的集成学习方法对最终的算法策略进行优化,得到一般生产线字符识别解决方案。本文对模型的训练方式也进行了改进,利用离线训练和在线训练相结合的方式,引入一个更大的数据集提升模型的识别效果并缩短在线训练的时间。最后,本文结合识别准确率曲线和训练测试时间曲线,分析用于训练网络结构的数据量的影响,并将CNN集成模型与单一网络模型和其他文献中提出的CNN网络模型进行横向对比,在相同的处理平台上利用工业字符数据集进行测试,得到了在混合场景工业字符数据集上93%和单一场景工业字符数据集上99%的准确率,表明了本文提出CNN集成模型的有效性和准确性。