论文部分内容阅读
文字是表达人类思想和情感的重要载体,获取自然场景图像中的文字信息从而实现图像内容的理解,将为人们的生活提供极大的便利,因此场景图像中的文字定位和识别也一直受到学界业界的关注。铭牌图像是场景图像中的一个特殊领域,铭牌图像识别对于电力相关企业对设备进行管理、维护和检修等具有重要的意义,但由于铭牌本身材质特殊加之所处环境恶劣,铭牌图像常常存在着反光、污渍、模糊、划痕等退化,这为铭牌文字信息的获取带来了诸多困难。 传统的针对扫描文档的OCR方法很难做到复杂场景中的文字识别;现有的场景文字识别方法又通常只针对自然图像中的英文字符,虽已对英文有了不错的识别成果,但由于汉语文字类数多、结构复杂的特殊性,在汉字识别领域一直没有明显的突破。鉴于现有的识别方法无法直接满足铭牌文字在定位和识别方面的任务要求,因此本课题将围绕无监督学习在自然场景中对汉文字的定位和识别进行研究,并对特定领域——铭牌识别规划具体的解决方案。 本文在深度学习架构下,将无监督学习和卷积神经网络相结合,以解决铭牌文字定位和识别问题,主要研究内容与成果如下: 1.提出基于K均值无监督预训练卷积神经网络的铭牌文字定位方法。首先通过多尺度Retinex法和四点法作为预处理,解决不均匀光照和图像畸变等对后续铭牌文字定位、识别的影响。再利用k均值聚类法无监督初始化卷积神经网络,并以此获得符合汉字结构的鲁棒特征用于铭牌文字定位,该定位方法可以很好解决铭牌图像分辨率差、图像退化严重导致难以定位的应用难题。 2.提出基于PCA预训练卷积神经网络的铭牌文字识别的方法。首先,给出一种改进的Bradley二值化预处理方法二值化铭牌文字图像,以减少分类难度;其次,利用投影法两次裁剪以便从词条中获得待识别单字;最后采用PCA无监督预训练方式与CNN结合的PCAnet卷积神经网络用作铭牌文字识别。一方面PCAnet提取了高表征力的特征,识别准确率优于人工设计特征的浅层算法;另一方面利用了PCAnet可以利用大量的无标数据以及训练速度更快等特点,以应对汉字字符种类繁多且容易获得大量无标样本以及铭牌识别字库更新频繁需要频繁训练网络的问题。 本文中提出的方案在由国家电网提供的图像库上进行了验证,获得了98.14%的定位准确率和94.47%识别准确率,对于铭牌识别问题提供了一种只需拍照即可以获取铭牌文字信息的有效方案。值得指出的是,本文中提出的定位识别方法不仅适用于铭牌识别,只需对训练库稍作改动,就可以为车牌、广告牌等领域的文字获取提供良好的可行解决方案。这种将无监督学习应用于深度网络系统学习训练的方法,契合互联网时代无标数据特别多的特点,具有一定的理论价值和实际的应用前景。