【摘 要】
:
与文本排布整齐,背景干净的印刷体不同,自然场景图像中的文本具有背景杂乱、分布随意、长度大小不一、颜色字体多样的特点,使用传统的光学字符识别(OCR)不能满足实际的需求。注意力机制广泛地用于当前文本识别深度网络模型中的编码器/解码器框架,它通过给定一个查询向量,计算其和输入向量的相关性,得到每个输入向量的重要性,从而可以从大量的信息中选择出重要信息。但是其并不知道查询向量与输入向量是否相关或者相关程
论文部分内容阅读
与文本排布整齐,背景干净的印刷体不同,自然场景图像中的文本具有背景杂乱、分布随意、长度大小不一、颜色字体多样的特点,使用传统的光学字符识别(OCR)不能满足实际的需求。注意力机制广泛地用于当前文本识别深度网络模型中的编码器/解码器框架,它通过给定一个查询向量,计算其和输入向量的相关性,得到每个输入向量的重要性,从而可以从大量的信息中选择出重要信息。但是其并不知道查询向量与输入向量是否相关或者相关程度如何,这可能会得到一个不是下游任务所期望的结果,从而对下游任务产生误导。本文引入“Attention on Attention”(AoA)模块,该模块扩展了常规的注意力机制,以确定注意力结果和查询之间的相关性。构建了一个基于编码器-解码器架构的模型来解决自然场景文本识别的问题,模型由转换(Transformation,Trans.)、特征提取(Feature extraction,Feat.)、优化模块(Refine Module)、序列建模(Sequence modeling,Seq.)、预测(Prediction,Pred.)五阶段组成。分别在优化模块和预测模块中加入了AoA模块,对于优化模块,AoA有助于更好地建模图像中不同字符之间的关系;对于预测模块,AoA过滤掉无关的注意力结果,只保留有用的信息。经实验验证,本文提出的基于注意力机制的自然场景文本识别模型在当下具有代表性的数据集IIIT5K、SVT、SP、CT、IC03、IC13、IC15上均有良好的表现,分别获得了88.4%、89.7%、80.6%、75.3%、94.7%、95.0%、79.1%的准确率,比本文对比的表现最差和最好的模型在所有数据集上的平均准确率分别高了6.7%和1.4%。本文基于实验室的教育质量评估项目,对黑板知识点进行提取。黑板知识点提取分为黑板检测、文本检测、文本识别三个步骤。黑板检测方面,教室中黑板具有背景单一、位置相对固定的特点,通过简化YOLOv3模型,提高了黑板检测的速度。在采集的数据集上,获得了95%的准确率;文本检测方面,采用了先进的CRAFT算法,在采集的数据集上,获得了较高的准确率;文本识别方面,由于中文字符比较多,如果采用one-hot编码,参数量和计算开销比较大。本文采用基于Skip-Gram wif Negative Sampling(SGNS)方法在百度百科训练的字嵌入对文本标签进行编码,降低文本标签向量特征表示的维度,构建了一个可识别4993个字符的自然场景中英文文本识别模型。为了评估模型在实际场景中的有效性,对湖南大学课堂进行数据采集和标记,制作了一个包含889张图片的自然场景中英文文本识别数据集。经实验验证,本文提出的文本识别模型识别准确率为83%。
其他文献
2017年以来,美国总统特朗普掀起了中美贸易摩擦,并升级为贸易战。此次贸易战除了继续使用美国惯用的“201条款”和“301条款”等调查工具之外,特朗普还使用了尘封已久的“保护国家安全”的“232条款”,开始利用“232条款”进行经济制裁,美国在使用“232条款”时利用世界贸易组织(以下简称WTO)“安全例外”条款来论证其行为的合规性。WTO“安全例外”条款是WTO规则中诸多例外条款的一部分,早在关
近年来,随着三维模型辅助设计和云制造技术的迅速发展,三维模型得以迅速普及。相对其他数字产品而言,三维网格模型涵盖更多重要信息,而且经常面临数据泄露、恶意篡改、版权争议等方面的安全威胁。如何更加有效地防止三维模型被侵权已经成为学术界热门的研究课题。本文首先描述了三维网格模型数字水印的研究现状,然后对三维网格模型的数据特性进行了分析,并介绍了可见可逆水印和加密域可逆水印的算法特性和评价指标。针对三维网
在生物数学的发展中,与生物种群相关的动力学性质成为了重要的研究方向.随着研究的深入,学者发现在生物种群间的相互作用中扩散现象普遍存在.此外,不同的空间环境对于生物种群的影响也不可忽略.因此,很多学者在模型中引入生物种群扩散和空间环境异质性这两个重要因素,并研究这两个因素对于物种动力学行为的影响.在生物种群动力学行为等实际应用中,捕食-食饵扩散模型有很重要的研究价值.本文以具体的生物模型为理论背景,
进入21世纪以来我国经济在起初十年发展迅速,之后增速降低并进入新常态时期。2015年“创新、协调、绿色、开放、共享”这五大新发展理念的提出给未来发展指明了方向。新疆作为经济战略的重要地区,推动该地区高质量发展具有重要意义,而如何客观地对该地区高质量发展水平做出准确评价就至为重要。本文首先对有关高质量发展和指标体系构建的国内外研究成果以及理论知识进行了系统梳理和清晰阐述;其次通过描述统计分析来对新疆
深度神经网络(Deep Neural Networks,DNNs)作为人工智能领域重要的一部分,在恶意软件检测,自动驾驶和图像分类等领域已经取得优异的成果。然而最近的研究表明,神经网络很容易受到对抗样本的攻击。攻击者通过对DNNs的输入添加精心设计的细微扰动,很容易导致神经网络做出错误的预测,这对安全性至关重要的应用带来了严重的威胁,比如人脸识别、自动驾驶。为了提高神经网络的安全性,科学界开始研究
随着直流配电网容量和规模的进一步扩大,用户对配电网系统稳定性的要求日益提高。对于含有多种分布式电源及负荷的直流配电系统,不同微源、负荷、线路间电气距离短,耦合程度高,电力电子设备接入后与易与系统中其他组成部分发生谐振,多尺度交互作用机理复杂,容易受到外界干扰而失稳。且由于直流配电网结构与运行特性与交流系统有较大差异,传统的建模和稳定性分析方法无法完全描述直流配电系统的动态特性。同时,对系统进行稳定
构建高效率、高灵敏度、高稳定性的生物传感器和纳米药物载体在生物传感、疾病诊断和治疗等领域具有非常重要的意义。核酸不仅能够储存和传递遗传信息,而且具有优异的分子识别和自组装功能,且具有优异的可编程性、良好的生物相容性等优点,因此可用于设计各种类型的核酸探针(如荧光探针、电化学探针等)和核酸药物。然而,传统的核酸探针多为线性探针,容易被核酸酶降解导致稳定性差,且进入细胞的效率较低,因此在复杂生理环境中
划片机是半导体封装工艺的关键设备之一,主要用于LED芯片、IC芯片、砷化镓、硅、陶瓷等材料的切割分离。目前国内划片机市场主要由国外品牌占领,设备购买价格昂贵,交货期长,严重限制了我国半导体产业的发展。为了提高国产划片机市场占有率,促进国内半导体产业发展,本文对12英寸单轴划片机控制系统进行了研发,主要研究内容如下:(1)介绍了划片机的总体结构、工作原理与流程。完成了砂轮刀片磨损检测系统、视觉识别对
在许多场景例如在地下空间、地铁隧道、公路铁路隧道、高层建筑消防、火灾救援等都需安装通风系统。通风有正压通风与负压通风两种方式,正压通风采用硬质管、软性软管等,负压通风一般采用硬质风管,或带有支撑骨架的软性风管。硬质风管笨重,运输、架设、连接、密封均不方便,在某些特殊情况不可用,如特长独头隧道开挖、高楼大厦的通风灭火等;而螺旋支撑骨架软风管虽然拥有一定承受负压的能力,但是螺旋式支撑骨架软风管只能进行
近年来,以硅基硬脆材料为代表的微小零部件在光伏新能源、芯片半导体、电子通讯等前沿产业具有广泛的应用前景。采用金刚石微磨具的微细磨削是实现此类零部件微槽、微孔、微流道等微结构精密加工的重要手段。由于单晶硅的硬脆特性,微细磨削过程中极易在微结构的加工区域发生崩边、破碎等损伤,以及微磨具磨损严重等影响加工质量和加工精度的问题。本文旨在探究声发射(AE)技术在微细磨削加工中对非稳态特征的动态识别能力,构建