基于深度学习的自然场景文本检测与识别

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:li1977323
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机视觉技术和人工智能技术的发展,快速提取自然场景中的文字需求也急剧增加,捕获和识别这些文字有助于理解和分析图像,而靠人工去手动读取图像中的文本不仅耗费大量时间和精力,而且也容易出错。因此,自然场景图像中的文本检测识别成为当下热门的研究话题之一。目前文本检测与识别在现实生活中有着广泛的应用,例如手机设备上的拍照翻译软件,可以拍摄异国街道或路牌上的文字,将一种语言实时翻译为另一种语言,提供导游帮助;公安机关的高速监控设备,可以抓拍识别高速公路上行驶汽车的车牌号码,其他如识别名片、识别菜单、识别快递单、识别证件、识别路牌、识别试卷、识别单据等等都有着极大的实际应用价值。但现有的大多数成功的场景文本检测算法是基于区域建议,需要人为的提前设置大量合适的锚框,十分繁琐,同时还会造成额外的后处理,加慢推理时间。因此本文提出了基于关键点检测无锚框的文本检测算法,提升了训练效率,推理速度优于已有的文本检测算法。同时现有的基于序列的文本识别网络由于没有关注不同通道特征图对文字识别准确率贡献不同,中文识别准确率还有待提升,同时序列识别中LSTM带来的梯度消失使得文本识别训练时间过长,因此文本同时提出了一个带通道注意力机制的密集连接卷积网络与残差LSTM的文本识别算法,提高了文本识别的精度,加快了文本识别的训练时的收敛速度,具体工作如下:1,提出了一个基于关键点检测无锚框文本检测算法,直接将文本检测转换为关键点检测,构建模型时将文本目标作为一个点,采用关键点估计直接来找到文本的中心点,预测每一个像素点是否为文本中心,针对中心点再回归文本框的宽高,相比较基于候选框的文本检测器,本文提出的检测模型更简单、更快。与复杂的多阶段的其他文本检测算法比,实现了精度和速度的较好权衡。2,针对关键点估计设计了带残差并行空洞卷积(RPDC)模块的编码器与解码器结构,引入空洞卷积在保持特征图分辨率的同时增大了感受野,较大分辨率的图像能提高小文本目标定位精度,同时感受野的增大加强了全局语义信息,有利于定位大尺度文本。并且采用不同扩张速率的空洞卷积并行方式,每条支路得到不一样的感受野,扩张速率越大,感受野越大,从而多尺度捕获文本对象和图像上下文信息。提升多尺度文本定位效果,引入残差连接,作为恒等映射,意味着如果不需要,残差连接可以消除RPDC模块的影响。3,提出了一个带通道注意力机制的密集连接卷积网络与残差LSTM的文本识别算法,通过关注不同通道之间特征的重要性差异,学习各个通道之间特征关系,让模型更加关注信息量大的通道,而抑制不重要的通道特征,使得对字符特征指向性更强,同时密集连接使得卷积网络每一层的输出都直来连到后面所有层的输入,鼓励了特征的重用,融合了多层的特征,减少了不必要的计算量,并且在后面引入一层带残差机制的LSTM,将文本图像特征转为序列特征,利用了文字序列的前后关系,残差机制加快了网络训练时的收敛速度,实验结果表明,通过引入带通道注意力机制密集连接卷积网络和残差LSTM能有效的提高文本识别的精度,并且加快了网络训练收敛速度。
其他文献
近年来随社会经济发展,及人口老龄化现象加重,人们对自身健康问题也更加关注。推进健康中国建设、提高国民健康水平成为我国的重要奋斗目标。呼吸、心跳作为重要的生命体征能够准确反应测试者的身体健康状态,因此对其的精确测量具有重要的临床意义。非接触式体征检测相较于传统的接触式检测方式,具有对测试者影响小、成本低、体积小等特点,因此针对非接触式检测设备的研究得到了广泛的关注。调频连续波(FMCW)体制雷达是雷
如今,各行各业或多或少都需要互联网信息技术的支持,教育行业也在互联网的大背景下进行着变革,人们对于在线学习需求提升,一系列在线学习平台应运而生,信息技术学习成为在线学习行业主要需求之一,但是市面上的教育产品参差不齐,大多数的在线学习平台存在着诸多问题,如学习资源驳杂,涉及领域过广,无法有针对性地服务一类用户,做不到服务“极致化”;学习方式单一,有的平台只可以通过点播视频进行学习,有的平台只可以通过
在相控阵雷达进行目标搜索和目标跟踪时,如果干扰落在天线方向图的主瓣范围内,干扰信号的存在会导致相控阵雷达的搜索和跟踪效果大幅度下降,造成测向精度下降甚至目标丢失等严重后果。现有的许多主瓣干扰抑制算法计算复杂度较高,难以满足工程中的实时性需求,同时无法在强主瓣干扰的条件下兼顾对旁瓣干扰的抑制。大型相控阵雷达往往阵元数目成千上万,为降低算法的运算量需要通过划分子阵的方式对阵列进行降维处理。本文针对上述
作为模拟信号与数字信号的桥梁,模数转换器严重影响通信、智能传感等系统的性能,也是模拟集成电路领域一直以来的研究热点。流水线模数转换器(Pipeline ADC)因其流水线操作的特点,是实现高速高精度指标的首选架构。但是由于传统结构包含大量运放和比较器,使得功耗随精度增加而大大增大。相较而言,逐次逼近型模数转换器(SAR ADC)能效优势明显,结构简单,与先进工艺兼容性高,但其速度受限于比较次数和比
函证是指审计人员为了获取影响财务报表或相关披露认定的项目的信息,通过直接来自第三方对有关信息和现存状况的声明,获取和评价审计证据的过程,如对应收账款余额或银行存款的函证。整个函证过程由注册会计师主导,由被审计单位和被询证单位配合完成。作为一项不可或缺的审计程序,审计人员需要保证函证的有效性,以充分发挥函证的证明作用。要保证注册会计师获取到充分可靠的审计证据,完善的函证程序是必不可少的,同时也对审计
网约车作为共享经济的代表性业态,以大数据和云计算技术为驱动,对传统出行业态实施了现代化改造。网约车释放了诸多社会"红利",亦改变了秩序、利益的配置方式,但在运营安全管理、产品合规性等方面存在诸多问题和安全隐患,这些问题仅仅依赖平台的自我规制无法有效解决,亟须完善法律规制予以回应。因此,欲促进网约车健康持续发展,应从完善网约车立法、规范执法方式及尺度、发挥司法规制优势、建立健全配套保障措施等方面建构
随着社会经济的发展,人们对康复治疗的追求日益提高,促使康复机器人迅速发展。康复机器人与索牵引技术的结合,简化了机器人结构、增强了柔顺性、且具有工作空间大以及人机交互安全等优点。本文通过对索牵引康复机器人的国内外发展现状与机器人零位标定技术和控制策略的研究,设计出一款用于下肢康复的索牵引康复机器人,对其进行零位标定分析与仿真控制分析,并设计实验对理论分析进行验证。主要研究工作如下:基于人体尺寸标准与
由于倒立摆系统在控制领域中的典型性,因此已经成为一个长期的研究方向。本文以直线型倒立摆系统为研究对象,完成了对直线一级倒立摆系统起摆控制和直线二级倒立摆系统稳定控制的算法研究。本文首先研究了直线倒立摆系统的结构和基本组成,接着通过深入分析系统,发现倒立摆系统具有强耦合、欠驱动、非线性、不确定以及开环不稳定等性质。其次基于倒立摆系统所具有的性质,建立了比较精确的数学模型。由于直线一级倒立摆系统结构相
计算机视觉和自然语言处理是当前人工智能研究的两个热门方向,而图像描述则是两者交叉融合的一个综合性研究课题,近几年也越来越多地受到学术界和工业界关注。让机器学习理解并翻译一张图片是非常具有挑战性的,需要利用模型学习理解图像内容,除此之外模型还需要抓住图像的语义信息并且学习用自然语言表达图像内容,最后生成语义逻辑正确、通顺连贯且人类可读的句子。目前基于深度学习的图像描述普遍存在着一些问题:首先,模型的
调制识别技术是指在非合作通信场景下,以识别目标信号的调制类型为目标的一种技术。调制识别技术广泛应用于民用无线电监测以及军用电子对抗等领域,是通信领域一个重要的研究分支。传统识别器识别效果依赖于决策理论、信号特征和分类器的选择,识别精度也受限于复杂电磁环境。然而深度学习方法能够针对原始数据充分发挥特征提取能力,避免了人工特征提取,其识别准确度也比经典算法高。本文对基于深度学习的通信信号调制识别技术进