基于局部和全局双视角的场景文字语种识别方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:YNiit562552379
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全球化高速发展的今天,场景文字语种识别作为场景文字识别任务的前提,越来越多地受到关注。遮挡、纹理背景和模糊;文字的不规则分布;文字本身变化多端,同一语种文字外观存在差异,难以归为同类;不同语种的文字又存在相似,甚至会共享字符,比如中文和日文,都会严重影响对场景文字语种的判断。本文尝试从全局和局部双视角研究场景文本语种识别。全局视角针对不包含区分性字符的样本,而局部视角针对包含区分性字符的样本。论文的主要贡献包括:1)提出了一种基于注意力机制的双分支识别网络。全局分支通过全局平均池化同等地考虑所有局部特征。局部分支通过注意力机制对所有局部特征学习一组权重,权重越大的特征越具有区分性,对所有特征求加权和得到最终特征。该模型在三个数据集SIW-13、CVSI2015和RRC-MLT2017上进行了实验,在RRC-MLT2017验证集上识别正确率比最新模型高0.34%,在SIW-13上识别正确率比最新模型高0.8%,模型效率快1倍,达267FPS。本文还将该方案结合文本检测器在端到端识别数据集E2E-RRC-MLT2017上进行了应用,将识别精度提高1.09%。2)提出了一种基于特征块汇聚模块的双分支识别网络。本文设计了特征块聚合模块用作局部分支,通过对中间特征进行近似字符级别的弱监督,有效地学习最具有区分性的特征,再结合最大池化,忽略掉冗余特征。还设计了一个更柔和的分类损失函数,在只有图片单分类标签的基础上,让多语种共享的字符在被共享的多个语种类别上都有一定的置信度,预测得分从单峰值变成多峰值。该模型在SIW-13上识别正确率比最新模型高1.2%,模型效率进一步提升至400FPS。该方案结合文本检测器在端到端语种识别数据集E2E-RRC-MLT2017上将识别精度提高1.99%。本文提出一种双分支的基本框架,同时考虑到了具有区分性字符和不具有区分性字符的样本的识别,更符合语种识别任务的特性,并分别通过注意力机制和特征块汇聚模块解决了局部分支挖掘区分性特征难的问题,并在公共基准上进行了实验验证。
其他文献
背景和目的肝细胞癌(hepatocellular carcinoma,HCC)是全球癌症导致死亡的主要原因之一,其在疾病早期阶段难以发现,进展到晚期时治疗选择有限且效果不理想,易转移,复发率高,预后很差。阐明肝癌发生和发展的机制,有助于发掘肝癌诊断/预后的生物标志物,开发有效的肝癌治疗药物。表观遗传调控功能障碍在肿瘤发生发展中起着重要作用。其中,BRD9介导的组蛋白乙酰化修饰是一种重要的表观遗传调
机械装备是船舶的主要组成部件,其平稳运行对于船舶运营安全性与可靠性等都具有重要的意义。然而,由于机械装备受到复杂工作环境、不当操作条件等因素的影响,其容易发生结构损伤、健康退化等问题,从而引发重大安全事故,造成巨大损失。为了保障船舶运营的安全性与可靠性,开展机械装备的寿命预测和故障诊断技术研究刻不容缓。随着人工智能技术,特别是深度学习的快速发展,探索将深度学习应用于机械装备寿命预测与故障诊断是一个
旨在研究花椒麻素对肥胖症模型SD大鼠体内脂质代谢功能的影响。将48只SD雄性大鼠按体质量分为空白对照组、高脂模型组、花椒麻素低/中/高剂量组[4、8、12 mg/(kg·d)]、非诺贝特阳性对照组[40 mg/(kg·d)],经过灌胃6周,记录大鼠的初质量、末质量及采食量,计算实验动物饲料效率。解剖后分别测定SD大鼠血清中的总胆固醇(total cholestrol, TC)、甘油三酯(trigl
对图像中的文字进行提取和识别一直是计算机视觉中一个非常重要的课题,在图像理解、图像检索、自动驾驶等领域有广泛应用。随着深度学习在各个领域的广泛应用,基于深度学习的文字检测和识别算法拥有远超传统方法的性能和效率,逐渐成为该领域的主流。目前很多研究中文字检测和文字识别是作为两个独立的任务,但两者关系十分密切,相互联系并且相互促进,将检测和识别任务融合的端到端识别也逐渐成为一个重要研究方向。本文对不规则
由于设计知识缺乏和运行环境多变,水下结构物设计过程中存在大量不确定性。不确定性不断交叉传递与积累,导致水下结构物在运行过程中部分性能指标可能发生变化和偏移,甚至引起故障和失效,故在考虑不确定性因素的影响下进行水下结构物的稳健设计是很必要的。而常规的嵌套优化方法往往会消耗大量资源,近些年来基于代理模型的设计优化方法极大地提高了水下结构物的设计效率,但构建的代理模型预估的响应值和真实响应值之间存在误差
背景和目的肝细胞癌在全球范围内严重威胁了人类的健康,因此致力于肝癌发生发展的分子机制研究,以开发新的靶向药物是一项十分重要的课题。N6甲基腺苷修饰(N6-methyladenosine,m6A)作为机体内最丰富的RNA修饰,不仅广泛调节各种生理过程,也参与多种疾病的发生,特别是肿瘤。有研究发现,m6A调节蛋白中的“reader”阅读蛋白YTHDF1(YTH N6-methyladenosine R
肝细胞肝癌(Hepatocellular carcinoma,HCC)是病死率最高的恶性肿瘤之一,经过数十年的发展,逐渐形成了以外科手术为主的综合治疗体系。然而近20年来肝癌的5年生存率并没有进一步的提高,究其原因是与肝癌切除后高复发率和转移率有关,因此探索肝细胞肝癌转移和复发的分子机制是目前肝癌基础研究的重要内容。RNA结合蛋白(RNA binding proteins,RBPs)能够与靶RNA
目的交感神经激活与慢性肾脏病(CKD)进展有关,慢性衰老细胞在老化和损伤的肾脏中积累,导致肾损伤后进行性纤维化。本研究主要探讨肾脏交感神经调控细胞衰老在肾脏纤维化中的作用及机制,为探索防治慢性肾脏病的新治疗靶点提供理论依据。方法首先我们建立了肾脏去神经动物模型,并在去神经成功2天后构建单侧输尿管梗阻(UUO)和单侧肾脏缺血再灌注损伤(UIRI)小鼠模型,以探讨肾交感神经与CKD以及与肾脏衰老的关系
随着光子学和激光技术的飞速发展,光场调控成为拓展激光应用的重要手段,也是当前光学领域的研究热点。矢量光场具有随空间位置变化的幅度、相位和偏振态分布,拥有独特的紧密聚焦场特性,在光学微加工、光学微操纵、等离激元定向传播、量子光学等领域得到广泛应用。本文从Richards-Wolf矢量衍射理论出发,结合偶极子天线辐射理论,研究了矢量光场的紧聚焦场特性及光学偏振拓扑结构。(1)基于Debye积分讨论了用
目的:探讨在HepG2细胞胰岛素抵抗模型及糖尿病肥胖小鼠模型中,TRIB2对胰岛素抵抗的影响。方法:1、棕榈酸诱导HepG2细胞24小时,建立胰岛素抵抗细胞模型,检测胰岛素信号通路证实模型建立成功后观察TRIB2的转录及蛋白质水平变化;2、在胰岛素抵抗细胞模型中,利用质粒或siRNA分别过表达或降低细胞内TRIB2蛋白水平,检测细胞对培养基中葡萄糖消耗量,Western blots方法检测胰岛素信