复杂场景下文本检测与识别方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:magi9999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着互联网社区的快速发展,用户产生了大量含有文本的多媒体文件。文本识别技术成为多媒体检索与内容分析审核的核心方法,利用文本检测定位图像中文本区域并进行识别,实现智能化多媒体文件检索归类以及图像内容分析审核。文本识别技术作为多媒体文件中文字信息转变为结构化文本的一种重要手段,在智能信息录入、多媒体检索、内容分析审核、智能穿戴设备等方面得到广泛应用。然而在文本识别真实应用场景中并不能保证获取高质量稳定图像,来源于网络与多样化数据采集设备的文本图像多含有复杂背景与图像传感器运动噪声。具体体现为场景背景含有运动的云雾、光源、阴影和动画造成的前景后景剧烈变化,这样背景复杂化的特性给传统文本识别方法带来极大的挑战。传统方法对复杂场景文本检测存在检测结果不精准、边缘缺失、文本框不贴合的现象,也使得次级文本识别网络难以得到准确识别结果。本文针对复杂场景下文本检测识别算法,建立复杂场景中文序列文本识别数据集,并基于复杂场景对现有文本检测识别方法进行研究与改进。具体内容如下:1.本文构建了一个中文文本识别数据集。本文针对复杂场景下文本背景复杂多变的特点,确定多种复杂场景文本可能含有噪声、扭曲类型以进行数据扩展。本文分析人工文本与自然文本特点,使用多种方式完成语料库收集,并针对中文文本长尾分布特点构建重采样。采用基于大规模真实文本的语料库,并根据语料文本频率重采样构建了含有语义信息且分布均匀的中文文本识别数据集。从文本背景复杂度、样本分布均衡程度、文本形式多样性等角度对比,证明本文构建的中文文本识别数据集在复杂场景下优越性。2.本文研究了使用实例分割方式的文本检测算法,并在此基础上构建应用于复杂场景下的轻量型文本检测算法。本文在轻量型网络主干中使用空洞卷积,从感受野角度获取文本多尺度特征增强轻量型网络特征表达能力。本文使用输出归一化的可微分二值化函数,以可微分函数实现近似的文本区域二值化并融合到端到端网络进行训练。在后处理中以自适应阈值谱最大稳定极值区域作为文本边界区域,结合二值化函数稳定精确定位文本区域。3.本文研究了一种基于通道分组的注意力文本检测算法。基于注意力机制对轻量型网络特征表达与语义信息的增益效果,本文设计基于通道分组的注意力模块。结构上为通道优先的通道注意力与空间注意力级联,构造上以压缩激发形式压缩空间信息获取通道依赖性以压缩通道数增强空间相关性,进而将通道分组激发获取多组注意力谱进而获得唯一鲁棒的注意力权重。最后将该注意力模块与可微分二值化文本检测算法相结合,应用于置信度分支降低文本背景干扰增强文本特征显著性,用以构建本章基于通道分组的注意力文本检测算法。4.本文研究了一种文本序列识别模型的剪枝压缩方法。基于CRNN中以特征空间顺序作为时间序列的建模方式,使用全卷积替换RNN序列编码结构。设计应用于卷积层的结构化dropout丢弃指定像素及其对角相邻元素,减少标准dropout丢弃区域像素高相关性,稀疏化未剪枝网络参数。以卷积前批归一化放缩因子与偏移值共同作为通道参数重要程度度量,进行通道剪枝并固化通道筛选层。再次于本文构建的复杂场景下的中文文本识别数据集上训练微调,最终得到基于结构化剪枝的轻量化文本识别模型。
其他文献
伴随着智能制造时代的来临,制造企业往往结合企业自身的特点,不断推进企业数字化转型升级,在应用生产管理系统对生产过程无纸化建设的基础上,越来越重视产品数据的采集及应用,以实现数据驱动业务的精细化管理,切实提高管理水平。实测记录作为工艺设计、生产制造过程测量产品相关属性及指标的关键数据,是非常重要的制造过程质量档案,对产品质量的状态及追溯发挥着重要的作用。但因为管理难度大、成本高,现场仍存在大量且种类
随着移动互联网的发展,日常生活中智能移动设备的数量在快速增长,由于设备间系统限制,在这些设备上实现数据文件传输,一般通过互联网应用、蓝牙或者有线等方式实现,操作复杂且有潜在安全风险,缺少一种在移动设备间进行便捷、快速和安全通信的方式。可见光通信技术的信号传输方向和距离是可控的,具有防电磁泄漏的特性,适用于构建高安全性的通信系统,且具有绿色、高速率的特点,一直备受关注。智能移动设备所搭载的显示屏幕和
电网调度工作是保证电网中设备能够安全、高效运行的有效手段,需要设计并开发出一套符合电网智能化管理需求的,能够提高调度人员和电网调度系统的沟通效率的新一代智能调度系统,进行生产流程管理、运维检测、调度控制一体化,来提升管理效率。本论文完成的主要工作包括:(1)结合国内外电力行业中智能调度的发展情况,以及结合国家电网某区域电网的实际需求,对于电网调度工作的信息化程度和水平进行了分析。(2)深入研究了电
随着经济体制改革的不断深化,以及电力公司资金管控体系的不断完善,供电公司迫切需要根据市场环境发展,创新资金管控手段。本论文采用Saa S模式研发供电公司资金管控系统,实现电力企业合同相关业务的信息化管理,提高供电公司资金管控效率,解决当前供电公司项目合同管理信息共享渠道不通畅的问题。本论文所研究的供电公司资金管控系统,采用MVC结构进行供电公司资金管控系统整体框架的设计,采用UML技术进行供电公司
随着生活质量的提升、可穿戴智能设备的普及和互联网的快速发展,第一视角视频数据量不断增加,第一视角行为识别在健康监测、个性化评估、危险预警等领域有着广泛的应用前景,吸引了大量研究者的关注。本文研究基于深度学习的第一视角行为识别方法,针对生活场景中常见的行为类别,构建第一视角行为识别数据库,围绕着时空融合策略这一基础,解决第一视角行为识别问题。本文的具体研究内容如下:1.本文构建了第一视角行为识别数据
由于现代飞机机载电子设备种类众多,具备高频率、高处理速度、高灵敏度、高安装密度、高集成度等特点,所以飞机在复杂电磁环境下的电磁兼容性问题是一个重大而复杂的问题,不仅要分析大量的试验数据,还要结合飞机实际的外部电磁环境,对试验数据和设备指标逐项进行详细的理论分析,工作量大,复杂度高。本文设计并实现了一种高效的飞机系统电磁兼容性管理软件,其主要功能为辅助设计人员做好飞机系统的电磁兼容性管理工作,包含了
飞机作为一个复杂的系统,其上有较多装配件和成品件,此部分产品在飞机上均要实现一部分的功能。若此部分的功能丧失或出现差错,轻则影响飞机一部分系统的功能导致无法执行飞行任务,重则造成飞行事故机毁人亡,所以对装配件、成品件这部分功能性产品在装机前的检查就尤为重要。试验台是验证这些产品功能性是否符合指标的主要设备,通过试验台可以模拟产品在飞机上的使用工况,将不符合要求的产品提前检查出来,避免将有故障的产品
自1990年代中期整个通信行业第一次提出了固网业务与移网业务进行融合的FMC(fixed-mobile convergence)概念。目前来看,通信行业业务类型和方式发展迅速,带动着通信行业的集团客户及个人用户对通讯业务的需求也不断的变化,需求越来越多、越来越丰富,甚至可以用“苛刻”来形容。通信行业用户不仅需要定制、多样化并且流畅的通信业务,而且还要求运营商对服务范围及业务模式进行扩展,满足其不断
近年来,大数据智慧课堂成为教育领域讨论的焦点,运用人工智能技术来创建智能化的课堂学习环境是未来各类学校将要推行的创新教学模式。随着计算机硬件算力的提高以及深度学习时代的到来,行为检测技术将被广泛应用于智慧课堂、云端教育等领域。当采用现有的目标检测算法对教室场景的监控图像进行行为检测时,会出现错检、漏检、定位不准等问题。为解决这些问题,本文构建了新的教室场景图像数据集,并提出了三种新的行为检测方法。
由于飞机整机结构复杂,在飞机装配过程中所涉及的各类设备成品、附件及零组件数量众多,在整机各系统安装到位后,因为排故、改装、替换模型件等原因会对部分附件、零组件进行拆除,因此在对其进行恢复安装后,需按照装配操作规程进行细致检查。因此,通过引入图像识别与机器学习相结合的技术,研究对装配过程进行智能检测的方法,有助于回避当前依赖人力进行舱内检查的弊端,最大限度地排除质量隐患。本文首先对飞机部件装配场景进