基于深度学习的图像文本识别系统研究与实现

来源 :北京邮电大学 | 被引量 : 21次 | 上传用户:first111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着海量图片的信息时代的到来,图片信息充斥在生活的方方面面。传统的图像识别是基于表层的图像特征。一般的提取方式是:图像分割、图像特征提取、分类器识别这三步骤。而由于文本信息的特殊性,没有固定的形状和合理的目标分界线,传统的图像识别方式要识别自然场景下的文本信息是相对比较困难的。深度学习技术是如今高速发展的技术。深度学习技术不依赖人工去设计图像的表层特征,而是以数据为驱动,自发式的从数据中学习到图像的特征。基于数据的学习方法带来的好处是不在需要人工干预设定特征。网络自学习到的特征也越抽象,越合理。首先,本文实现一种基于CTPN的文本目标检测模型,该方法通过对小窗口的文本分数学习,基于双向LSTM结构学习序列特征,最后将文本分数较高的窗口连接起来作为文本区域。在自然场景下,就算文本没有很明显的边界区域,也能很好的检测文本的位置。算法在Google提供的Street View Text数据集共300张街道图像进行测试,实验结果表明本文算法的识别准确率可以达到80.2%。能很好地完成在自然场景下的文本检测功能。然后,本文实现一种基于CRNN的文本目标识别模型,兼顾了卷积网络对特征提取和循环网络对时序输入的优点。该模型包含特征提取和文本识别两个阶段:对文本图像进行特征序列提取,通过双向LSTM获得图像的特征序列;根据图像的特征序列预测文本序列结果。在Street View Text数据集进行测试,实验结果表明,基于字母加数字的整体文本识别率能达到80.8%。最后,本文实现了基于深度学习的图像文本识别系统,包含四个模块:文本检测模块、暗通道去雾模块、水平归一化模块、文本识别模块。文本检测模块和文本识别模块分别依赖于相应模型的实现。暗通道去雾模块能去除图像中的雾属性,水平归一化模块能保证文本信息处于水平位置。提高识别的准确性,降低噪声的影响。综合多模块构建成一个图像文本识别系统。
其他文献
针对人教版九年级化学实验教科书中面粉爆炸实验存在的问题以及该实验的两个改进方案,进行了实验的再改进设计,并说明了再改进实验的创新点。
受金融危机影响,欧美人的消费行为正悄然变化。业内人士表示,终端消费行为的改变对出口商的影响绝不只是客户购买力下降这么简单,需求市场的本质变化引发了供给市场的一系列连锁
建立了CB-B63系列外啮合齿轮泵内部流场的CFD模型, 在Fluent中求解出了齿轮泵的内部流场特性, 与理论计算结果较吻合,验证了理论计算的正确性.得出了内部流量的压力分布云图,
2008年成品油价格改革仍然会是谨慎,分阶段地调整价格,而不是放开价格。战略石油储备体系建设不会因为高油价而搁浅。2008年我国石油储量发现仍会继续,石油进口规模将继续扩大。
2月23日,粘胶专业委员会在北京召开第一次会议,主要就行业生产、经营、市场等问题进行了探讨,决定即日起长丝价格每吨上调1000元;为扭转行业困局,至6月份前每吨产品价格上调4000元
据国家统计局2月19日发布的最新统计,受春节和雪灾等因素影响,今年1月份居民消费价格总水平(CPI)同比上涨7.1%,创1997年以来月度新高,从月环比看,居民消费价格总水平比2007年12月份上
铁路运输生产的产品是人或物的位移,其计量单位分别为人公里和吨公里,其换算单位长期为1个人公里等于1个吨公里。这种计量和换算办法不仅抹煞了铁路运输产品的多品种性,而且难以反映产品在结构、质量和价值上所发生的变化。随着市场经济的发展,产品需求从数量向质量...
经济学界普遍认为,2009年CPI将现负增长,中国将进入通缩时代。也有专家表示CPI负增长将引起消费疲软、就业机会减少、居民收入减少、社会消费能力下降等恶性循环。
本文以NECCP7打印机为例,介绍了用打印机进行高分辫图象输出的方法,并着重讨论了用打印机进行高分辫图象输出时的灰度变换问题。