基于CNN的工业环境字符识别方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:guoyuan22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
光学字符识别(Optical Character Recognition,OCR)是机器视觉领域一个重要的研究方向。随着当前社会中生产生活的各个方面自动化程度越来越高,字符识别技术在复杂场景尤其是工业场景下的应用获得了越来越多的关注。由于工业生产线环境恶劣,存在运动模糊、遮挡、照明不足、物理损伤、划痕等因素的干扰,传统的字符识别方法很难做到高效、准确的识别,严重制约工业生产的自动化进程,因此,采用机器视觉技术进行自动准确的字符识别受到了越来越多的关注,成为工业生产流程中的一个重要环节。本文基于卷积神经网络算法,采用有监督的方式进行算法训练,针对工业字符识别中两个重要需求:更高的识别率和更短的训练时间,提出了一种CNN集成模型,它通过多级特征融合为CNN特征提取阶段建立更丰富的特征表达,并通过和集成学习方法的结合建立集成多个网络结构的更准确的分类决策系统,有效解决了特征提取过程中丢失全局信息、单一网络模型识别效果不稳定等问题。本文先通过有效的数据采集方案,建立工业场景字符数据集,进行数据增强和预处理工作,然后通过CNN网络结构对比,分析结构设计过程中各个参数对识别准确率的影响,从而构造出适用于工业字符识别的基本网络结构。利用多级特征融合和Bagging的集成学习方法对最终的算法策略进行优化,得到一般生产线字符识别解决方案。本文对模型的训练方式也进行了改进,利用离线训练和在线训练相结合的方式,引入一个更大的数据集提升模型的识别效果并缩短在线训练的时间。最后,本文结合识别准确率曲线和训练测试时间曲线,分析用于训练网络结构的数据量的影响,并将CNN集成模型与单一网络模型和其他文献中提出的CNN网络模型进行横向对比,在相同的处理平台上利用工业字符数据集进行测试,得到了在混合场景工业字符数据集上93%和单一场景工业字符数据集上99%的准确率,表明了本文提出CNN集成模型的有效性和准确性。
其他文献
立体视觉技术是计算机视觉领域中非常重要的研究方向,其通过匹配一对不同视角的图像来提取现实场景中的深度信息,该技术在无人驾驶、无人机、虚拟现实、人机交互以及3DTV等领域
随着人类经济社会发展,石油、天然气等资源的消耗与日俱增,陆地上这些资源正被开发殆尽。而占地球表面积三分之二的海洋中仍然有大量资源尚未被开发。由于深海环境对人类相当
随着通信业务的不断扩容、网络质量目标的不断提升,无线网络优化无论在学术研究或工程应用上都越来越受到重视。覆盖优化作为网络优化工程的一个重要分支,直接影响着各项与网
随着计算机仿真技术的发展,基于计算机仿真的模拟训练具有成本低、可以模拟多种场景的特点,因此模拟训练受到了广泛的重视。本文所描述的系统就是为模拟训练中心设计的飞行模
低压电力线载波通信技术是一种经济可行的配电网自动化通讯技术,其具有很高的经济效益和社会效益,受到了越来越广泛的关注。然而目前利用电压配电网建立数据通道还存在不少困难
论文以无刷直流电机的控制技术及应用为对象,对无刷直流电机建模仿真、电机调速系统的滑模变结构控制、无刷直流电机的直接转矩控制以及电动车用无刷直流电机的低损耗运行控制
运动人体的检测与跟踪已经成为计算机视觉领域的研究热点之一。本文分别对运动人体的检测和跟踪进行了研究。首先通过摄像头捕捉到视频图像,离散后得到视频序列,然后分别进行了
在城市夜景建设中进行户外音乐灯光表演将使城市充满活力,给人以美的享受。目前的户外音乐灯光表演中普遍运用了舞台灯光控制技术,虽然沿用成熟的技术会使系统构建简单,易于
陀螺稳定跟踪平台已成为现代军事装备中海、陆、空、天武器系统不可缺少的装备,在预警、火控、反潜、瞄准、警戒和侦查等多方面发挥着重要的作用。为了使平台的跟踪精度达到要
视频运动对象分割是数字视频处理和计算机视觉的重要研究领域之一,同时也是智能视频监控等关键应用中的核心技术。虽然人们已经做了大量研究工作,但目前还没有一种通用的方法