自然场景下的文本检测及其应用研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:peiyingbin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习技术的兴起和计算机视觉领域的快速发展,自然场景下的文本检测与识别研究得到了进一步的关注和发展,该领域在自动驾驶、盲人导航等场景中具有广泛的应用意义和价值。当前自然场景下的文本检测任务的研究由于文本多样性、环境复杂性和成像不确定性等因素依然面临巨大挑战。本文从实例分割网络Mask RCNN出发,对其进行改进,使用统一的方式完成自然场景下水平、多方向和弯曲文本的检测任务。本文主要的研究工作如下:(1)提出了一种基于可变形卷积和长条形池化的多尺度特征融合场景文本检测模型(Deformable Convolution and Strip Pooling based on Advanced Multi-Scale Feature Fusion Module,DCSP-AMF~2M)。DCSP-AMF~2M主要包括两方面的研究内容:一是针对自然场景中水平、多方向、弯曲的文本特征提取不全面的问题,构建一种可变形卷积结合长条形池化的特征提取模型,使用可变形卷积替代标准卷积有利于提取不规则文本形状的特征,引入长条形池化有利于提高长文本特征提取能力,同时加强文本上下文信息降低文本错检率。二是针对场景中尺度不一的文本检测时多尺度特征融合不充分的问题,构建了一种带有平衡模块的多尺度特征融合模型。将高层网络的语义信息和低层网络空间位置等细节信息进行自顶向下和自底向上的多尺度特征融合,同时考虑不同层之间的特征融合时,每一层仅关注相邻层级的特征信息而出现融合不平衡的问题,通过多尺度特征平衡模块平衡多层级间特征信息。使用ICDAR2013、ICDAR2015、Total Text公开数据集进行实验,结果表明,DCSP-AMF~2M与现有的其它主流方法相比,在文本检测任务上的准确率和召回率都取得了较大的提升,证明了DCSP-AMF~2M的科学性和有效性。(2)提出了一种基于注意力机制的场景文本检测模型(Deformable Convolution and Strip Pooling based on Advanced Multi-Scale Feature Fusion Module with Attention Mechanism,DCSP-AMF~2M-AM)。针对多尺度融合特征后存在融合信息冗余的问题,在DCSP-AMF~2M网络模型的基础上,引入通道注意力机制,有效调整对文本特征和非文本特征的关注程度,提高算法模型对文本和非文本特征的鉴别能力,使得整个网络模型更加关注文本目标本身,增强文本特征的表征能力,降低融合信息的冗余,有效提高文本特征利用率。使用ICDAR2013、ICDAR2015、Total Text数据集进行实验,结果表明,DCSP-AMF~2M-AM在准确率和召回率得到更进一步的提升,与现有其它主流算法相比也取得了较好的表现,证实了DCSP-AMF~2M-AM的科学性和有效性。(3)设计并实现一个自然场景文本检测识别系统(Scene Text Detection and Recognition System,STDRS)。STDRS主要具有文本检测与识别功能和数据标注和收集功能,不仅证明了DCSP-AMF~2M-AM的实际可行性,满足用户提取自然场景图像中文本的需要,而且通过可以提交结果的准确性,尤其是漏检、误检等情况的反馈,以及通过数据的采集和标注增加文本训练样本量,对进一步分析改进和优化改进DCSP-AMF~2M-AM具有重要意义。
其他文献
水下目标在航行的过程中,其能量耗散在海洋中会形成大尺度涡,最终演化成具有明显旋转流动结构的尾涡,声波在穿过此类涡结构时所引起的涡声耦合作用将改变声波信号的振幅、相位等信息,声信号的变化中又包含着尾涡的形态特征信息。因此,通过分析接收声信号在通过尾涡后的振幅、相位等变化,可实现涡流速度场重构,进而提取目标运动特征等,本文研究对形成基于涡声信号分析的水下目标探测技术具有重要的理论参考价值。本文针对涡流
学位
自改革开放以来,我国经济稳步增长,国民生活水平显著提升,与此同时,人们对生活质量的需要也与日俱增。越来越多的人对果蔬等产品有强烈的需求,尤其是城市居民,只能通过冷链物流获得相应的果蔬产品,而果蔬产品也是人们日常生活不可或缺的食物之一。因此人们在满足温饱的同时,对果蔬产品的新鲜度要求也越来越高。这是我国冷链物流发展的大好机遇。但是从我国国情来看,人民日益增长的美好生活需要和不平衡不充分的发展之间还存
学位
舰船防护液舱是舰船防御破片打击的关键结构,特别在弹药舱和燃油舱等易燃易爆炸舱室需要更强的防御力。液舱阻止高速破片深入打击效果显著,具有降温、吸热和灭火功能。然而高速破片侵彻液舱时会产生水锤效应,导致液体产生空穴而膨胀,对舱壁结构造成严重的毁伤,使得防护液舱失去防御力。因此设计出更强的防御结构以及研究其防御破片打击机理有着极其重要的意义。本文设计了一种带空气隔间的Kevlar增强蜂窝液舱,通过穿甲试
学位
面对新形势下在军事交通和抢险救灾领域对浮桥提出的新要求,研发一种自身结构重量轻、储备运输空间小、展开撤收速度快的新型浮桥结构势在必行。基于当前美军轻型模块堤道系统(Lightweight Modular Causeway System,LMCS),提出“海上轻型囊式刚柔组合浮桥”概念。该新型浮桥以柔性充压囊体和刚性甲板组成了主要承载单元,其刚柔组合结构型式较为特殊,尚未能很好的掌握其承载特性。因此
学位
螺栓连接具有可靠性高、可重复拆卸、受环境影响较小等突出优点,是一种高效的连接形式,在复合材料结构的连接中应用广泛。然而,由于这种连接方式需要在复合材料结构上开孔,从而导致纤维发生断裂不再连续,并且由于复合材料的各向异性,使得连接问题变得十分复杂。连接部位作为复合材料装配结构的关键部位,直接影响了结构的安全性和可靠性。因此,对螺栓连接部位进行力学特性分析,深入了解接头的失效机制、孔周应力状态以及准确
学位
随着国家经济转型和产业结构调整,智能制造已成为工业发展的主趋势,工业机器人的应用越来越普遍。工业生产中,流水线分拣是拆卸分装、自动化装配等过程的重要环节,分拣作业情况复杂、劳动强度大,机器视觉技术的应用可以替代人工提高分拣效率。零部件分类与运动目标跟踪是分拣系统最核心的两个问题,近年来得到了广泛的研究。传统机器视觉方法对环境变化敏感、零部件分类精度不高;目标跟踪方面,现有的方法目标定位结果并不理想
学位
随着深度学习在医学领域的兴起,医学图像中的细胞核分割得到了进一步发展,其在病理诊断、药物研发、生物研究等领域有着广泛的应用。然而当前医学图像中的细胞核分割存在诸多难题,如细胞核常常呈团簇、重叠状,难以进行实例级别的分割,另外医学图像来源复杂,且不同的细胞核在形态、尺寸等方面差异很大,如何提取有效的语义信息一直是研究重点,并且分割出来的细胞核边缘信息容易丢失。针对以上问题,本文对现有的细胞核分割算法
学位
近年来,随着海上作业活动的日趋频繁,船舶间的意外碰撞事故常有发生,造成了非常严重的后果。船舶碰撞是一个极其复杂的过程,包含着材料、结构的高度非线性,且流固耦合效应显著。此外,对于一些特殊船舶,碰撞产生的冲击响应对设备安全性的影响也引起了广泛的关注。本文以某型舰船复杂舱段为对象,开展了结构碰撞力和冲击响应的试验与数值计算研究,建立了简化数值计算方法。首先开展了复杂舱段结构模型设计,针对外板受碰撞载荷
学位
雾计算是一种面向物联网(Io T)的分布式计算基础设施,已广泛应用于我们的日常生活当中。雾节点作为一个中介者提供终端用户请求的本地处理,并减少终端用户与云端的通信延迟。然而,雾计算的兴起也带来了更严峻的安全问题。首先,由于雾计算节点资源受限,一旦遭到入侵,雾节点面临的威胁会远远大于云计算节点;其次,由于雾计算节点在网络中的拓扑位置更低,离终端设备的距离更近,遭到入侵的雾节点也会进一步影响边缘设备的
学位
随着我国交通运输业日益发达,船舶运输逐渐增多,桥梁数目也随之增加,船桥碰撞事故频发,而碰撞事故会导致巨大的经济损失及人身安全问题,因此研究船桥碰撞问题及桥梁防撞装置是十分必要的。桥梁的自身特点及周围环境不同,需要设置相应的防撞装置,国家交通运输部发布的《船舶碰撞桥梁隐患治理三年行动实施方案》中指明应根据桥梁安全风险及抗撞性能综合分析,因桥施策,抗撞性能不满足要求的桥梁,应优先采取设置防撞设施,其中
学位