论文部分内容阅读
近年来图像中的文本检测与识别在图像搜索、车牌识别、图像快速文档化、工业流水线等方面的应用日益增多,吸引了众多学者进行了大量研究,然而图像本身背景复杂、光照与角度多变,加之文本语种繁多、字体尺度方向等多变,最终导致检测与识别精度难以达到应用的需求。论文从实际应用的角度对特定场景下的图像中的文本检测与识别方法进行了研究。针对图像中文本检测存在的问题,论文研究了三种不同场景下的文本检测方法。对于受光照影响或背景变化缓慢的图像,论文从图像信号频率的角度出发,使用同态滤波的方法滤除低频背景信号,保留高频文本信号,并利用文本边缘较为丰富的特点,结合形态学方法进行文本行检测。对于工业现场中文本与物体存在依赖关系的复杂场景图像,论文基于此种依赖关系将文本的检测转化为文本依赖物体的检测,最终通过依赖关系实现高精度的文本检测,该方法显著降低了虚警率,在实际的工业应用中取得显著效果。对于自然场景中的图像,论文从提高区域获取质量出发,提出了基于边缘增强的MSER算法,进而创建字符分拣树对字符区域进行分拣,之后提出多层融合的策略对多方向的文本行进行检测,最后使用随机森林分类器对候选文本行进行了验证,实验结果表明该方法能够提高文本行的召回率及识别精度。针对图像中文本行的分割与识别。论文从工业实际应用的角度,对背景简单或渐变类型的文本图像,基于字符区域或边缘纵向投射曲线呈现近似混合高斯分布的特性,采用无监督的分割算法对单个字符进行分割,然后训练CNN(Convolutional Neural Network)模型对单个字符进行识别。对于背景较为复杂的文本行图像,本论文从滑窗识别的角度出发,首先使用一个CNN模型对文本行图像从左到右取滑动窗口进行字符与非字符的识别,然后对滑窗序列识别结果置信度所形成的曲线进行凸包检测,接着使用SVM模型提取凸包宽度与高度特征进行字符与非字符的分类,完成字符的分割后使用训练的CNN模型进行单字符识别。鉴于以上两种基于分割的识别方法最终都是对单字符使用CNN模型进行识别,并没考虑字符之间的上下文关系,因此,论文进一步研究了在之前字符分割的基础上采用RNN(Recurrent Neural Networks)模型的文本序列识别方法,实验结果表明,加入序列识别模型后的文本识别率有了一定提高。针对图像中的文本行序列识别。论文借鉴了语音识别技术,从序列识别的角度提出一种文本行识别方法。该方法首先采用CNN模型的卷积层对文本序列进行特征抽取,然后将抽取的特征送入LSTM(Long Short-Term Memory)模型进行训练,为了获得文本序列正向与反向的上下文关系训练了两个LSTM模型,而在使用时为避免不恰当的序列划分,使用偏移量获得多个序列,接着使用标签序列训练的LSTM模型对多个特征序列识别结果进行评价,最终选出得分最高者作为最终的识别结果。实验表明基于序列的识别方法相比本文中基于分割的识别方法取得了更好的识别效果。