图像中的文本检测与识别研究

来源 :东南大学 | 被引量 : 3次 | 上传用户:xlinda
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来图像中的文本检测与识别在图像搜索、车牌识别、图像快速文档化、工业流水线等方面的应用日益增多,吸引了众多学者进行了大量研究,然而图像本身背景复杂、光照与角度多变,加之文本语种繁多、字体尺度方向等多变,最终导致检测与识别精度难以达到应用的需求。论文从实际应用的角度对特定场景下的图像中的文本检测与识别方法进行了研究。针对图像中文本检测存在的问题,论文研究了三种不同场景下的文本检测方法。对于受光照影响或背景变化缓慢的图像,论文从图像信号频率的角度出发,使用同态滤波的方法滤除低频背景信号,保留高频文本信号,并利用文本边缘较为丰富的特点,结合形态学方法进行文本行检测。对于工业现场中文本与物体存在依赖关系的复杂场景图像,论文基于此种依赖关系将文本的检测转化为文本依赖物体的检测,最终通过依赖关系实现高精度的文本检测,该方法显著降低了虚警率,在实际的工业应用中取得显著效果。对于自然场景中的图像,论文从提高区域获取质量出发,提出了基于边缘增强的MSER算法,进而创建字符分拣树对字符区域进行分拣,之后提出多层融合的策略对多方向的文本行进行检测,最后使用随机森林分类器对候选文本行进行了验证,实验结果表明该方法能够提高文本行的召回率及识别精度。针对图像中文本行的分割与识别。论文从工业实际应用的角度,对背景简单或渐变类型的文本图像,基于字符区域或边缘纵向投射曲线呈现近似混合高斯分布的特性,采用无监督的分割算法对单个字符进行分割,然后训练CNN(Convolutional Neural Network)模型对单个字符进行识别。对于背景较为复杂的文本行图像,本论文从滑窗识别的角度出发,首先使用一个CNN模型对文本行图像从左到右取滑动窗口进行字符与非字符的识别,然后对滑窗序列识别结果置信度所形成的曲线进行凸包检测,接着使用SVM模型提取凸包宽度与高度特征进行字符与非字符的分类,完成字符的分割后使用训练的CNN模型进行单字符识别。鉴于以上两种基于分割的识别方法最终都是对单字符使用CNN模型进行识别,并没考虑字符之间的上下文关系,因此,论文进一步研究了在之前字符分割的基础上采用RNN(Recurrent Neural Networks)模型的文本序列识别方法,实验结果表明,加入序列识别模型后的文本识别率有了一定提高。针对图像中的文本行序列识别。论文借鉴了语音识别技术,从序列识别的角度提出一种文本行识别方法。该方法首先采用CNN模型的卷积层对文本序列进行特征抽取,然后将抽取的特征送入LSTM(Long Short-Term Memory)模型进行训练,为了获得文本序列正向与反向的上下文关系训练了两个LSTM模型,而在使用时为避免不恰当的序列划分,使用偏移量获得多个序列,接着使用标签序列训练的LSTM模型对多个特征序列识别结果进行评价,最终选出得分最高者作为最终的识别结果。实验表明基于序列的识别方法相比本文中基于分割的识别方法取得了更好的识别效果。
其他文献
有序介孔材料因其具有均匀可控的孔径,大的比表面积和孔容、规则的孔道、易于修饰的表面等特性,使其在催化、吸附、分离、生物医药等领域具有重要应用价值。其中,片状短孔道S
循证药学自上世纪90年代末被提出,现已广泛运用于药物治疗各个环节。超说明书用药在实际工作中普遍存在,其合理性的评价是临床药学工作的重要内容。运用循证药学原理对超说明
自从改革开放以来,我国的建筑行业取得了突飞猛进的发展,而且随着经济水平逐渐的提高,人们对建筑的安全性、可靠性的要求也越来越高,如果想要保证建筑的安全性、耐久性,而且
中国古代土地市场发育研究,由八章构成,主要内容略述如下: 第一章 导言 阐明中国古代土地市场发育研究的理论意义、现实意义,系统论述了学术界对中国古代土地买卖和土地市场
随着我国经济的不断发展,人民生活水平的不断提高,在我国“宽严相济”的刑事政策之下,理论界对于完善资格刑也提出了诸多思考。资格刑较传统的生命刑、自由刑、财产刑而言,有
可持续人力资源管理突破传统战略人力资源管理以组织为中心的视角,致力于平衡组织经济效应和可持续发展之间的分歧,成为新的研究动向。现有关于可持续人力资源管理的内涵、实
它没有奔驰、宝马、奥迪那样响亮的知名度,没有保时捷、捷豹、玛莎拉蒂那样的高贵血统,也没有宾利、劳斯莱斯和迈巴赫那样绝对昂贵的价格,但它仍是不折不扣的豪华轿车品牌。