基于深度学习的自然场景文字识别

被引量 : 0次 | 上传用户:deiaw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
与一般的视觉元素不同,文字包含了丰富的高层语义信息,能够帮助计算机更为准确地解读图像内容。这对图像理解有着重要的学术意义。此外,工业界对自然场景中的文字识别技术也有着极大需求。文字识别技术在虚拟现实、人机交互、图像检索、无人驾驶、车牌识别、工业自动化等领域中有着广泛的应用。传统光字符识别技术(OCR)主要面向高质量的文档图像。此类技术假设输入图像背景干净、字体简单且文字排布整齐,在符合要求的情况下能够达到很高的识别水平。与文档文字识别不同,自然场景中的文字识别则面临着图像背景复杂、分辨率底下、字体多样、分布随意等挑战,传统光学识别技术在此类情况下几乎无法被应用。作为大量相关技术的基础工作,自然场景文字识别的不断发展和突破具有深远的研究意义和实际价值。本文结合深度学习技术,提出了一套针对自然场景文字的识别方法。本文主要工作如下:(1)提出了基于CNN和BiRNN的、结合上下文的图像编码方法。利用CNN从底层像素中获得高层视觉特征,并利用CNN局部感知特性建立起高层特征与底层像素的位置关系,然后利用BiRNN捕获图像全局信息。实验表明该编码方法具有良好的表达能力。(2)提出了基于ARSG的文字解码方法,同时完成字符定位和文字识别功能。ARSG利用RNN完成序列标注任务。并在逐字符分类过程中,利用注意力机制,对当前神经网络的关注点进行建模,从而得到每个字符在图像中的位置。同时,利用启发式规则和延迟生成技术,提高了识别的效率和精度。实验表明,该方法能够获得较好的字符定位和文字识别效果。(3)实现了一套高效的深度学习框架。该框架能够支持多种神经网络结构,并提供了一系列行之有效的训练策略。利用该框架初步验证了基于深度学习的自然场景文字识别算法的有效性。实验表明,本文算法相对其它算法,泛化能力和识别精度有着明显的提升。
其他文献
改编权作为著作权人一项重要的财产性权利,其范围的界定和立法模式的选择直接关系到以原作品为基础进行后续创作的合法性认定。只有在认定改变原作品的行为侵犯改编权的基础
本文从价值链的视角研究了企业成本管理的基本框架,系统分析了价值链成本管理的基本特征、目标、分析与控制方法。
我国现在存在IP改编影视作品的热潮,但是对这种影视作品而言,存在着改编权与保护作品完整权的法律冲突。导致这种法律冲突存在的主要原因,包括侵权行为判断标准不统一、著作
随着素质教育的不断深入,创造力和想象力成为当今学生急需培养的重要能力。而小学美术教育新课程标准中也强调了培养学生创造力的重要性,这就要求广大小学美术教师应该为学生
从现代医学对慢性阻塞性肺病病因的认识,中医对其病机的认识,中西医治疗几方面综述了近年来慢性阻塞性肺病的研究进展.认为今后宜结合客观医学指标指导中医对慢性阻塞性肺病
本文试图通过对中国知网所有相关的文化旅游产业发展文献及论著进行分析和研究,总结出国内文化旅游产业发展研究过程中的特点和规律。
流体流动边界不断向外扩展是低速非达西渗流压力传播的特点。针对这种情况 ,首先建立了考虑表皮效应影响的低速非达西渗流定井底流压生产的固定边界数学模型 ,用格林函数法求
投诉管理对于提高顾客满意度,进而提高企业市场份额和利润具有重要意义。本文首先将探讨企业"一次服务成功率"、"二次服务成功率"以及不满意顾客选择投诉的比例等三个因素对
<正>(2011年5月16日)经部批准,我们召开2010年度全国土地变更调查汇总暨加快推进农村集体土地确权登记发证部署会议。主要任务是:认真贯彻落实党的十七届五中全会精神和中央
<正>陈怡作为从中国走向世界、具有国际影响力的一位作曲家,有自身特殊的学习经历和音乐创作理念,有对家乡音乐的眷恋和挚爱,也有包罗万象的胸怀,乃至致力于传播弘扬世界民族