基于卷积神经网络的自然场景文本识别系统

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：slyde

【摘要】

：

自然场景中的文本带有较多的可以利用的信息,利用获取的图像中的内容我们可以更好的认识图像。这篇文章主要研究自然场景的图像中的单词检测和识别内容。在自然场景中图像的

【作者】

：

李涛

【出处】

：

哈尔滨工业大学

【发表日期】

：

2016年期

【关键词】

：

深度学习 CNN 文本识别 beam搜索文本检测字符识别特征抽取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自然场景中的文本带有较多的可以利用的信息,利用获取的图像中的内容我们可以更好的认识图像。这篇文章主要研究自然场景的图像中的单词检测和识别内容。在自然场景中图像的单词识别要比识别可以浏览的文本中的单词的难度要大的多,而且自然场景中的图像的单词识别更具有实用价值。本文基于先前的工作,提出了一种基于卷积神经网络的自然场景文本识别系统。本文提出的自然场景单词文本识别系统具体包含四部分的内容。第一部分是海量样本生成模块,第二步部分是数据与处理模块,第三部分是文本检测模块,第四部分是文本识别模块。在样本生成模块中,本文详细分析了自然场景下的文本的各样的特点,比如光照影响,字体形变,阴影,模糊,噪声等的特点。然后本文利用这些特点制作了一个文本生成器,在制作文本生成器的过程中,本文收集了大约三万幅图片,并且除去这些图片中有文本的,将剩下的图片作为背景图片。本文还收集了230种不同的字体,五千个常见的单词,并利用这些资源和自然场景中文本的特征生成三百万个字符训练样本,为训练深度卷积神经网络成为可能。在图像的预处理模块中,本文的原始数据总共经过三个处理步骤,第一个是对比度归一化,这一步主要是保证图像的图像的数据都在零附近。图像预处理的第二步是主成分分析法降维,第三部ZCA白化,这两部的主要目的是维数约减去除图像的像素之间的相关性。在本文检测模块中,本文首先利用带有5个卷积层的神经网络训练了一个二类分类器,这个分类器能够区分字符和非字符的图像块并输出图像块的字符得分响应。文本检测的后处理部分根据字符块的响应得分计算出包含文本的文本框的位置。在本文识别模块模块中,本文也是用到了卷积神经网络,由于字符分类器分的类别有62类,所以本文在文本识别模块中的CNN使用了7层的卷积层。在后处理部分我们使用BEAM搜索策略来识别待识别的文本信息。本文的方法在SVT公开数据集上完成了测试,并获得较高的正确率。

其他文献

高分子新型材料在渠道防渗中的应用研究

为了寻求一种较简便可行、防渗性能良好的防渗措施,采用高分子新型材料(W-OH)作为胶结剂固结砂土、黄土的方法,对渠道防渗材料做了不同配比的防渗试验。通过试验阐明了W-OH溶

期刊

W-OH溶液渠道防渗材料配比试验

上海外语教育出版社

期刊

外语教育三卷本中国翻译家研究翻译史研究传统译学翻译学科出版社

柠条叶粉与苜蓿草粉对羊的饲喂效果比较

柠条又名柠条锦鸡儿、大柠条、毛条，属豆科多年生落叶灌木，在我国主要分布于西北、华北和东北等地，一直以来主要用于防风固沙、保持水土，家畜对其仅采食幼嫩枝条。试验旨在为柠条

期刊

柠条锦鸡儿饲喂效果苜蓿草粉叶粉商品化生产落叶灌木防风固沙保持水土

“为了承认的斗争”:当代青年社交媒体的自我展演现象

社交媒体的开放性、社交性使其成为理想化的戈夫曼的"社会大舞台",人们在舞台上尽情地表现自我,以实现心理、物质、社交等维度的需求。在社交媒体时代,作为内容生产和消费主

期刊

自我展演青年文化社交媒体

农村吟诵教学策略研究

诗词是小学语文教学的重要组成部分,而吟诵又是学生进行古诗词学习的重要方式,只有将吟诵教学策略合理运用到实际教学之中,才能够让学生更好地理解及感悟所学内容,更加快速的

期刊

农村教育小学语文吟诵教学

基于卷积神经网络的自然场景文本识别系统

其他学术论文