基于卷积神经网络的自然场景文本识别系统

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:slyde
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景中的文本带有较多的可以利用的信息,利用获取的图像中的内容我们可以更好的认识图像。这篇文章主要研究自然场景的图像中的单词检测和识别内容。在自然场景中图像的单词识别要比识别可以浏览的文本中的单词的难度要大的多,而且自然场景中的图像的单词识别更具有实用价值。本文基于先前的工作,提出了一种基于卷积神经网络的自然场景文本识别系统。本文提出的自然场景单词文本识别系统具体包含四部分的内容。第一部分是海量样本生成模块,第二步部分是数据与处理模块,第三部分是文本检测模块,第四部分是文本识别模块。在样本生成模块中,本文详细分析了自然场景下的文本的各样的特点,比如光照影响,字体形变,阴影,模糊,噪声等的特点。然后本文利用这些特点制作了一个文本生成器,在制作文本生成器的过程中,本文收集了大约三万幅图片,并且除去这些图片中有文本的,将剩下的图片作为背景图片。本文还收集了230种不同的字体,五千个常见的单词,并利用这些资源和自然场景中文本的特征生成三百万个字符训练样本,为训练深度卷积神经网络成为可能。在图像的预处理模块中,本文的原始数据总共经过三个处理步骤,第一个是对比度归一化,这一步主要是保证图像的图像的数据都在零附近。图像预处理的第二步是主成分分析法降维,第三部ZCA白化,这两部的主要目的是维数约减去除图像的像素之间的相关性。在本文检测模块中,本文首先利用带有5个卷积层的神经网络训练了一个二类分类器,这个分类器能够区分字符和非字符的图像块并输出图像块的字符得分响应。文本检测的后处理部分根据字符块的响应得分计算出包含文本的文本框的位置。在本文识别模块模块中,本文也是用到了卷积神经网络,由于字符分类器分的类别有62类,所以本文在文本识别模块中的CNN使用了7层的卷积层。在后处理部分我们使用BEAM搜索策略来识别待识别的文本信息。本文的方法在SVT公开数据集上完成了测试,并获得较高的正确率。
其他文献
由清华大学和北京维信诺科技有限公司共同承提的科技部“863”计划——“有机发光显示器件研制”近日顺利通过验收。在课题验收会上,一“张”薄如纸片、可随意弯曲卷绕,并且可
在科博会“高科技”展品上,采用无机纳米材料和有机高分子材料复合特种涂层的节能镀膜玻璃可以为建筑节约能源。
为了寻求一种较简便可行、防渗性能良好的防渗措施,采用高分子新型材料(W-OH)作为胶结剂固结砂土、黄土的方法,对渠道防渗材料做了不同配比的防渗试验。通过试验阐明了W-OH溶
介绍微波与卫星通信中的SDH传输技术,对有关卫星SDH的网络结构,分层模型,复用方式,同步基带设备功能,卫星SDH帧,传输网络性能,网络管理等做了详细讨论,文章还就SDH地面网与卫星网的主要差异进行了
《外教社大学英语词典》APP大学英语学习英语四六级考试研究生入学考试专项学术词汇2014 qr.sflep.com all rights reserved.版权所有上海外语教育出版社基于上海外语教育出
柠条又名柠条锦鸡儿、大柠条、毛条,属豆科多年生落叶灌木,在我国主要分布于西北、华北和东北等地,一直以来主要用于防风固沙、保持水土,家畜对其仅采食幼嫩枝条。试验旨在为柠条
社交媒体的开放性、社交性使其成为理想化的戈夫曼的"社会大舞台",人们在舞台上尽情地表现自我,以实现心理、物质、社交等维度的需求。在社交媒体时代,作为内容生产和消费主
垃圾收集器(Garbage Collector,GC)是现代软件虚拟机技术的重要组成部分,其设计方案对运行于虚拟机上的应用程序性能影响极大。Java虚拟机(JVM)与.net framework都提供了这一功
诗词是小学语文教学的重要组成部分,而吟诵又是学生进行古诗词学习的重要方式,只有将吟诵教学策略合理运用到实际教学之中,才能够让学生更好地理解及感悟所学内容,更加快速的
“创游杯“游戏设计开发大赛刚刚落幕(获奖名单见本期产业视界).第二届酷比杯又拉开了帷幕两者各有侧重.具有互补性而目的都是一个:为了促进国内的自主研发游戏产业.发掘更多游戏制