论文部分内容阅读
自然场景中的文本带有较多的可以利用的信息,利用获取的图像中的内容我们可以更好的认识图像。这篇文章主要研究自然场景的图像中的单词检测和识别内容。在自然场景中图像的单词识别要比识别可以浏览的文本中的单词的难度要大的多,而且自然场景中的图像的单词识别更具有实用价值。本文基于先前的工作,提出了一种基于卷积神经网络的自然场景文本识别系统。本文提出的自然场景单词文本识别系统具体包含四部分的内容。第一部分是海量样本生成模块,第二步部分是数据与处理模块,第三部分是文本检测模块,第四部分是文本识别模块。在样本生成模块中,本文详细分析了自然场景下的文本的各样的特点,比如光照影响,字体形变,阴影,模糊,噪声等的特点。然后本文利用这些特点制作了一个文本生成器,在制作文本生成器的过程中,本文收集了大约三万幅图片,并且除去这些图片中有文本的,将剩下的图片作为背景图片。本文还收集了230种不同的字体,五千个常见的单词,并利用这些资源和自然场景中文本的特征生成三百万个字符训练样本,为训练深度卷积神经网络成为可能。在图像的预处理模块中,本文的原始数据总共经过三个处理步骤,第一个是对比度归一化,这一步主要是保证图像的图像的数据都在零附近。图像预处理的第二步是主成分分析法降维,第三部ZCA白化,这两部的主要目的是维数约减去除图像的像素之间的相关性。在本文检测模块中,本文首先利用带有5个卷积层的神经网络训练了一个二类分类器,这个分类器能够区分字符和非字符的图像块并输出图像块的字符得分响应。文本检测的后处理部分根据字符块的响应得分计算出包含文本的文本框的位置。在本文识别模块模块中,本文也是用到了卷积神经网络,由于字符分类器分的类别有62类,所以本文在文本识别模块中的CNN使用了7层的卷积层。在后处理部分我们使用BEAM搜索策略来识别待识别的文本信息。本文的方法在SVT公开数据集上完成了测试,并获得较高的正确率。