基于深度学习的自然场景文本检测与识别

来源 :南昌大学 | 被引量 : 0次 | 上传用户:itcrasher9999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景下的文本检测和识别作为计算机视觉领域重要研究方向之一,备受研究学者的关注。场景文本检测和识别本质上分为两个任务,文本检测和文本识别,文本检测的效果好坏会直接影响到文本识别的结果。针对在文本背景多样性和文字样式复杂性等因素影响下的自然场景文本检测和识别问题,本文提出以下创新工作:(1)文本检测问题:针对文本目标不规则、方向多样和文字背景多样性等因素导致文本检测率低的问题,提出一种基于YOLOv5改进型的文本检测网络。首先采用YOLOv5m作为基准网络进行优化,在主干网络中引入CBAM注意力模块,将注意力机制与残差网络结合,提升特征提取能力;其次,去除YOLOv5网络三个候选框中预测大目标的候选框,并对网络进行稀疏化,减少网络参数,提高训练速度;最后,使用α-IOU损失函数,增强模型的鲁棒性。(2)文本识别问题:针对场景图像质量低下以及文字背景噪声复杂导致的文本识别难度大的问题,提出一种基于卷积网与注意力机制结合的文本识别算法。将二维卷积网特征连接至基于注意力的序列编码器和解码器,编码器使用卷积神经网络进行特征映射和特征提取,解码器则应用Transformer的方式。编码器使用Res Ne Xt50进行特征提取,图片特征进一步经过两层卷积处理,作为查询和关键向量输入至Transformer编码器的多头注意力机制。模型训练前,在COCOTEXT数据集上进行预训练,对参数初始化,提升后续训练收敛速度,同时进行数据增强,提高网络模型的泛化能力。在公开数据集上进行了广泛的对比实验,实验结果显示本文提出的文本检测和识别方法明显优于当前主流方法,是非常有效和鲁棒的。
其他文献
期刊
由于文本信息比较复杂,字体大小不一,具有的像素信息较少,导致在特征提取阶段得到的特征图表达不充分,文本检测的准确率不高。针对以上问题,提出一种改进的Faster-RCNN文本检测方法。首先构建特征提取模块,用ResNet-101代替传统的VGG16网络提取图像特征;再融合特征金字塔的多尺度文本特征提取网络,在此基础上加入特征金字塔注意力模块;最后输入RPN层进行分类与边框回归。实验结果表明,改进后
期刊
自然场景文本检测是从场景图像中获取文本信息的重要手段,但是仍旧面临背景复杂、文字种类丰富、排列方向多样、文本行组成复杂等因素的严峻挑战。研究检测精度高、通用性强、稳健性好的自然场景文本检测方法是目前计算机视觉领域的热点问题之一。并且,基于深度卷积网络的自然场景文本检测方法逐渐成为主流。因此,从自然场景文本检测技术的研究背景及主要挑战切入,根据骨干网络的不同将现有方法划分为基于VGG网络的文本检测方
期刊
当前,在经济全球化时代大背景下,市场竞争异常激烈,面对严峻复杂的内外局势,加剧了国内建筑行业整体趋紧形势和市场竞争白热化程度,面对复杂的内外部环境及多重不利局面,为实现企业高质量发展,持续改善运营质量,需要不断加强企业财务管理,对存在风险及时进行分析,提高经营风险防范能力,为实现公司战略目标提供有力支撑。
期刊
大观公园作为昆明市地标性的城市公园之一,保留着昆明人的集体记忆,延续着昆明的城市文脉,成为昆明人放松身心、寄情山水的重要场所。以大观公园为研究对象,通过实地调研、问卷调查、拍照记录等方法,对大观公园进行使用后评价(POE)研究。根据研究结果分析其所存在的问题并提出相应建议,为提升城市活力、完善城市公园建设提供参考。
期刊
北京工人体育场为专业足球场,根据国际足联要求,体育场屋盖为中间开口式,屋盖内侧为倒三角形桁架结构体系,桁架内部存在悬挑钢梁,体育场端屏与桁架弦杆固定,因此端屏无法使用起重机或塔式起重机吊装就位。施工采用汽车式起重机与单轨吊车协同提升,横向单轨吊车调整的方法,替代传统安装方法。采用该施工方法,减少对下方工作面的占用,降低机械台班措施费,施工工艺简单,操作简便,质量可靠,具有较好的经济效益。
期刊
在市场经济向好发展背景下,如何通过管理抢占市场份额、扩大运营规模、提升竞争水平、规避发展风险,成为企业探讨与解决管理难题之一。其中,财务管理风险作为有碍企业发展重要因素,与政策、供需关系、竞争对手、市场环境等外部因素及制度、人才、成本等内部因素有关,管理复杂性、综合性可见一斑。本文通过探析建筑施工企业财务管理风险及应对措施,以期提高建筑施工企业财务管理质量。
期刊
<正>为激励广大产学研界工作者面向世界科技前沿、面向经济主战场、面向国家重大需求、面向人民生命健康,坚持问题导向和目标导向,以产学研合作为突破口,继续发扬敢为人先、勇于探索的创新精神和追求真理、永攀高峰的科学精神,踔厉奋发、勇毅前行,为国家创新发展贡献更大力量,第十四届中国产学研合作创新大会对2022年在产学研深度融合等方面作出贡献的先进单位和个人进行了隆重表彰。
期刊
针对自然场景中文本检测与识别存在准确率不高和效率不佳的问题,提出了一种融合场景文本检测CTPN和卷积循环神经网络CRNN模型的自然场景文字检测与识别方法。首先利用CTPN模型对文本行进行预测,再利用卷积神经网络进行特征序列提取和识别并基于Bi-LSTM学习序列特征,最后将文本分数高的窗口连接作为文本区域,从而实现文本检测。实验结果表明,在ICADR-2013数据集中改进模型的准确率可达78%;基于
期刊
期刊