基于深度学习的自然场景中文文本识别

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:qingmiannv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字的历史可以追溯到几千年前。文字是人类传递信息和传承文化的载体,其包含丰富而精确的语义信息,融入在现实生活的各种场景中。在当今人工智能时代,自然场景文本识别逐渐进入了人们的视线中,并成为了计算机视觉和模式识别领域的研究热点之一。目前,大多数自然场景文本检测与识别算法仅针对英文字符训练模型。英文字符种类少且笔划简单,而中文字符具有种类繁多、组合方式多样等特点。虽然印刷体中文文本识别技术相对成熟,但是自然场景中文文本呈现角度倾斜、形状弯曲、长度不定、颜色多样等情况,这样的不规则性质提高了文本检测与识别的难度。本文研究场景目标为自然场景的中文文本识别,针对以上问题,在检测方面,提出了融合注意力机制的多尺度检测中文文本的方法,提高了对多方向和弯曲中文文本的检测精度,在识别方面,提出了基于改进的CRNN(Convolutional Recurrent Neural Network,卷积循环网络)的中文文本识别方法,提升了对倾斜弯曲中文文本的识别准确度,主要内容如下:(1)本文采用轻量级Resnet18为检测模型的主干网络,针对FPN(Feature Pyramid Networks,特征金字塔网络)对自然场景中文文本提取的特征分布的不确定性,嵌入平衡注意力机制BAM提取有效文本特征并抑制低效特征通道。针对ASPP(Atrous Spatial Pyramid Pooling,空洞空间金字塔池化)下采样时图像局部信息和细节信息丢失的问题,改进ASPP降低了特征图分辨率的损失。实验表明以上的改进有效提高了检测的召回率与精确率。(2)本文针对FPN对自然场景中文文本提取的特征信息不足以及感受野小的问题,将嵌入注意力机制的FPN和改进的空洞空间金字塔池化IASPP并行增强特征提取融合。针对正负样本不平衡性的问题,基于可微分二值化模块在二值图损失中引入对数化的AC Loss。与现有检测算法相比,本文方法在检测精度与速率上都有着优异的表现。(3)本文针对自然场景中倾斜弯曲的中文文本,在识别框架中加入STN(Saptial Transformer Network,空间变换网络)对样本进行几何变换矫正。基于CRNN做了以下改进,在特征提取部分,将VGG改进为融入CBAM注意力机制的多层残差网络增强文本特征信息的提取。在循环层中,针对长短时记忆网络LSTM本身构造复杂,参数繁多,过拟合的问题,将特征序列建模的双向LSTM改进为双向内容自适应循环单元CARU,提高模型识别精度与运行效率。在序列解码中,将CRNN转录层CTC改进为CTC-Attention联合机制进行训练。实验结果表明,以上基于CRNN的改进优化了识别模型的解码输出。
其他文献
大规模非静止轨道(Non-geostationary Orbit,NGSO)卫星系统具有传输时延小、全球覆盖等特点,近年来成为研究的重点。而大规模NGSO卫星系统的大量部署也带来了频轨资源紧张的问题,大量的NGSO卫星系统之间会造成严重的同频干扰。现有的干扰分析与干扰规避方法主要针对同步轨道卫星间、同步轨道与NGSO卫星系统间提出,在针对大规模、高动态的NGSO系统间干扰存在缺少合理建模、计算复杂
学位
无线功率传输技术(Wireless Power Transfer,WPT)由于不使用电线和电池,提高了电子设备的移动性、便利性和安全性。目前无线功率传输技术广泛应用于无线可充电传感器网络(Wireless Rechargeable Sensor Network,WRSN)的能量补充,学术界对此有广泛的研究。然而,之前的研究主要致力于最大化充电功率,对无线充电的鲁棒性问题有待进一步研究。无线充电器和
学位
随着移动业务的发展,终端数目大量增长,能源消耗迅速增大,这对无线系统容量、通信质量、电池寿命等都提出了更高的要求。协作中继通信可以提高系统容量,有效解决蜂窝网络边缘弱覆盖的问题,能量采集技术可以有效利用环境能量,实现绿色通信,因此基于能量采集的协作中继系统已经成为研究热点,如何设计合适的资源分配方案以充分利用采集的能量提高系统通信质量是非常重要的。本文以具有能量采集功能的多中继协作通信系统作为研究
学位
在无线通信网络和卫星通信中,针对目标辐射源和干扰源的定位问题,无源定位技术发挥了十分重要的作用。与雷达定位技术相比,无源定位技术采用了无需自己发射电磁波的被动定位模式,从而实现了静默无线电定位,因此在空难、海上遇险等领域都有很广泛的应用前景,十分具有研究价值。本文主要研究基于到达时差(Time Difference of Arrival,TDOA)和到达频差(Frequency Differenc
学位
自1984年发现有机半导体的场效应现象以来,有机电子技术在不同领域的应用获得了极大的关注。2000年,黑格等人因为发现了导电聚合物被授予诺贝尔化学奖,开拓了有机电子学的新时代。在各种电子器件中,诸如场效应晶体管、太阳能电池、存储、传感等,有机材料都相继出现并被证明有广阔的应用前景。因此,对材料、器件等领域的全面理解和掌握,对有机电子学的发展十分必要。在过去的二十年里,有机电子学领域中有机场效应晶体
学位
数字图像在采集、处理、编码、传输、存储的每一步中都会受到不同因素的影响,导致不同类型的失真,这些失真将会影响人们对图像内容的理解和感受。为了有效评价各种失真类型的图像的质量,本文在深度学习框架下,通过利用图像的多层次特征和注意力机制,提出了联合注意力机制和多层次特征融合的通用型无参考图像质量评价方法。主要研究成果有:(1)针对通用失真类型,提出了一种采用显著性增强的双流卷积网络进行无参考图像质量评
学位
无线传感器网络由众多相互协作的传感器节点组成,在医疗健康、环境监测和目标跟踪等领域显示出巨大的应用潜力。位置信息在许多应用中至关重要,因此如何获得定位精度高、复杂度低的定位算法受到了广泛的研究。本文对无线传感器网络中的目标定位与节点定位算法进行了探索和研究,以期进一步提升定位精度,主要内容包括:(1)现有基于异步到达时间(Time of Arrival,TOA)的目标定位算法通常采用凸优化的松弛技
学位
本研究创新性地提出氮化镓基有源型悬空薄膜结构和异质结构型光子晶体谐振腔相结合,开展在蓝光波段的谐振特性研究。异质结构微腔通过改变腔结构参数,实现谐振频率、模场体积和品质因子等谐振特性的可调控。结合悬空薄膜的层结构设计同时可以实现具有较高有源层耦合强度和光子晶体层耦合强度的小模场体积的低损耗谐振特征。本研究首先运用时域有限差分法根据谐振波长和品质因子Q变化规律优化出无限面积光子晶体的刻蚀深度,晶格常
学位
随着整个社会大步迈进智能化,人们的生活发生了巨大的改变,不可否认的是大数据和人工智能等蓬勃发展的新兴科技极大地提高了生活质量和工作效率。这些智能算法都立足于大数据时代的海量数据样本,这就导致身处其中的每个人都成为了采样的对象。与此同时,公民教育的普及带来了社会素质的普遍提升,人们对于自我的意识越发强烈,这就导致了个人隐私这一概念的产生,对于科技进步所带来的隐私泄露问题会导致人们对于智能化进程的质疑
学位
进入二十一世纪以来,随着人们生活水平的提高,旅游已经成为一种生活潮流,旅途中使用背包是一种常见且经济的运输方式。然而,携带背包运动时所产生的冲击力会对人体健康产生不利影响。背包的种类是多样的,为了探究不同背包的差异性,本文提出并设计了一套较为完整的背包工效评估系统,该系统包括控制核心STM32单片机、MPU6050加速度传感、RP-C电阻式压力传感器制作的3*8个感应单元的阵列式压力传感垫和4*6
学位