论文部分内容阅读
近年来,随着信息科学技术的发展,计算机运算能力的提升以及移动终端的普及,传统的工程领域在移动端的应用也越来越广泛。工程图纸作为工业、建筑等领域的重要元素之一,工程图纸字符的智能识别和匹配也有很大的研究价值,受到了国内外工程研究人员与专家学者的广泛关注。利用深度学习的平台处理大量数据,应对复杂场景的智能识别已经有了非常出色的成绩。传统的图像处理技术,结合深度学习进一步解决实际问题已经是人工智能发展的趋势,具有极高的研究价值和应用前景。光学字符识别(Optical Character Recognition,OCR)是一种在数字图像中将印刷或手写字符转换为文字的方式。随着字符识别技术的发展,OCR已经成为模式识别领域其中重要的应用之一,文档中的字符识别已经实现了很高的识别率。然而,对于复杂自然场景的字符识别,也依然存在一些挑战,主要是由于自然场景的图片存在分辨率低,失焦,背景对比不明显,干扰过多等问题。尤其是移动终端采集的工程图纸,复杂的光照问题,图纸的形变,褪色,遮挡,污迹等干扰因素给图纸的定位和识别带来了很大的挑战。由于国家法律规定,建筑图纸只有国家相关部门审核后盖章确认才能作为施工的依据,因此只有通过移动终端对盖章确认后的图纸拍照才能既方便查找又能真正应用到实际工作中,而不是直接采用电子版。本文提出一个基于传统图像处理以及深度学习的工程图纸字符序列识别系统。该系统能将盖章确认的工程图纸经过手机端的拍照,利用改进的RANSAC-table等方法自动对不同的图纸进行分类,根据不同的分类结果定位到该类别的图像特定的几何特征区域,提取几何区域内的字符。随后利用改进的VGG(Visual Geometry Group)卷积神经网络进行字符特征提取,双向循环神经网络BLSTM进行特征解码,联结主义时间分类器CTC(Connectionist Temporal Classification)进行识别,从而实现端对端的字符序列识别,智能提取图纸中的标识信息。后期存入数据库,可以实现工程图纸的快速检索,达到系统智能化,无纸化的目的。本文的创新点有:1)针对工程图纸问题,应用传统图像处理方法对图纸进行分类并使用神经网络进行识别,设计了一种用于移动终端的工程图纸端对端字符识别系统,能实现图纸的智能分类与识别,在工程应用上具有智能化,自动化,无纸化的特点。2)在本系统的工程图纸分类部分,结合蒙特卡洛思想以及随机采样一致性RANSAC算法,提出了一种改进的RANSAC-table算法,能有效解决具有形变、模糊、缺损的表格定位问题。根据与传统表格检测算法对比,针对移动终端采集的工程图纸,本文提出的算法具有更强的鲁棒性。3)在本系统的端对端识别部分,采用了改进的VGG卷积神经网络、双方向的循环神经网络BLSTM以及联结主义时间分类器CTC作为字符序列的识别算法,相对于传统字符识别方法在识别效果上有较大提升。