基于深度学习的自然场景下文本检测与识别算法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:wxthaoa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在日常生活中,文本检测和识别有着非常广泛的应用,涉及了图像检索、图片管控、票据识别等诸多场景,因而在学术界引起了广泛关注,有很多专家学者对此进行了深入研究。在自然场景中,文本通常具有不同的种类、尺度和分布,且缺少结构化的版式。此外,场景背景的复杂性也是一个难点,如低分辨率、噪声干扰、异物遮挡、透视变换等都可能对检测和识别结果造成不利影响。以上问题的存在使得场景下的文本检测和识别成为一项富有挑战性的任务。本文在已有算法的基础之上进行了研究,针对部分算法的不足进行了改进。为了解决复杂场景下检测效果不佳的问题,在两个不同的应用场景,提出了两种基于卷积神经网络的文本检测新算法。为了解决复杂场景下文本识别效率不高的问题,提出了一种基于矫正网络的文本识别新算法。以上算法都在标准数据集上进行了测试,都取得了令人满意的结果。本文的主要研究内容如下:1.提出了基于多尺度特征融合和像素点链接的文本检测算法:该算法主要解决了基于锚点类算法效率低下的问题。相比于基于锚点类算法,该算法基于实例分割,流程简洁,检测精度较高。由于本算法无需设置锚点,从而节约了计算量并提高了检测效率,该算法在标准数据集ICDAR2013和ICDAR2015上都取得了不错的结果。2.提出了基于边缘像素的倾斜长文本检测算法:该算法主要解决了倾斜文本和长文本检测效果不佳的问题。该算法在采用带角度的旋转候选框的同时引入边界像素来辅助检测,通过边缘像素、旋转角和边界距离来生成最终的候选框。在含有较多倾斜长文本的标准数据集上取得了良好的效果,这充分说明了算法的优异性。3.提出了基于矫正网络的场景文本识别算法:该算法主要解决了文本尺度差异大、分布不均衡的问题。本文采用矫正网络将图片矫正到更易识别的位置,提升网络的效率。序列识别部分采用双向长短时记忆网络,该网络对于上下文的信息较为敏感,因此可以用其提取字符间的信息进行建模。此外,本算法还在解码层面引入了一个额外的解码层,该层的作用是加入了一些额外的监督信息来辅助识别,从而提高了识别的速度,并且在一定程度上提升了算法的鲁棒性。同时该算法在ⅢT5K等数据集上的表现令人满意。
其他文献
故障诊断系统是提高工业过程安全性、稳定性,减少因故障停机带来经济损失的一类重要技术。本文研究了基于有效特征表示与迁移学习的工业故障识别,采用不同的特征提取算法与故障识别算法相结合,利用目标任务与源任务的相似性,不同程度的优化了目标故障识别任务的准确率。本文主要的研究内容包括:基于深度自动编码器的特征提取与故障识别。该方法将深度自动编码器与多层网络分类器相结合,自动编码器能够有效地提取出非线性复杂工
随着工业机器人技术的发展,机器人已被广泛的应用于工业生产制造环节中,对于需要灵活部署、机器人操作不方便的生产场景,人机协作的生产模式是一种有效的提高生产效率的方式。因此,研究机器人在保障操作人员安全的前提下,如何在复杂多变的协作环境中进行避障规划,完成规定的生产任务具有重要意义。本文针对人机协作装配应用场景,围绕空间动态障碍物检测和机器人主动避障规划方法展开研究,具体研究内容包括以下四个方面:(1
鉴于建筑内消防设备需处于待工作状态,能实时了解动力情况的要求,论文实现了一种基于物联网的建筑消防动力设备监控系统。论文首先针对动力设备电源状态的在线测量要求,对供电状态测量方法进行分析研究,对交流信号有效值算法进行对比分析,提出一个多周期等间隔算法来实现设计中的电量交流有效值的采样测量,设计了相应的软件算法,并在计算机中进行了仿真验证。其次,为了实现对电量状态的实时监测,设计了一款以ARM微处理器
在强化学习的背景下,训练效率随状态空间的大小呈指数级衰减,尤其是在具有连续动作空间的机器人控制领域中,高维连续的状态空间和动作空间使得在真实环境下应用强化学习算法训练机器人学习实时控制策略变得困难。为了解决在高维连续搜索空间中数据利用率极低的问题,研究人员们尝试了很多方法,例如通过生成更多的好数据指导智能体学习等。但是如何设计易于优化、能够有效表达领域知识的状态空间表示一直是一个开放性的问题。得益
高光机是数控机床专用领域的分支,用于高精密、高光泽度要求的零部件加工,并以此得名。智能手机及手持终端的爆发式增长中,高光机是必须的生产设备,并由此得到快速、规模化的发展。目前高光机的国产化程度很高。然而在要求较高的细节加工上,仍存在着刀纹不均、表面质量不高的问题,这种问题在生产节奏提升时会放大,限制了生产效率。数控机床的加工过程是机械、电气控制相结合的复杂机电系统控制过程,涉及到材料学、力学、机械
无线传感器网络(Wireless Sensor Networks,WSNs)由于其低能耗,低成本和无线传输而被广泛用于环境监测,智能家居,医疗保健,智能工厂等领域。但由于信号衰减,多径效应和同频干扰等原因,无线信号容易受损,导致丢包。现有研究中,(部分)重传技术需要消耗额外的能量,而前向纠错技术(Forward Error Correction,FEC)在数据包中添加了冗余字节,从而牺牲了网络吞吐
在当前数据时代,机器学习算法成为了联结数据和决策的桥梁。实际应用中,不同的机器学习任务都有较为稳定的算法进行求解。但传统的机器学习只使用单任务的方式进行各自的训练和预测,忽视了其他相似任务可能带来的共享收益。多任务学习的提出就是为了高效的挖掘多任务之间的共享信息,以提升多任务学习系统的整体预测性能。通过为每一个单独的机器学习任务提供额外的有效训练信息,最终提高单机器学习任务的实际预测表现。论文主要
自然语言处理的目标是实现人机间自然语言通信,让计算机更好地理解人类语言文本,是人工智能和计算机领域中的重要一环。作为自然语言和计算机语言之间的技术桥梁,语义分析技术,将自然语言文本转为计算机可读的逻辑形式,是自然语言处理走向自然语言理解的关键性挑战。而语义角色标注是一种简单有效而且易于实现的浅层语义分析技术,旨在分析句子中谓词与相应语义角色之间的关系,获取句子的浅层语义表示,从而带动其他深层语义处
图像彩色化是把灰度黑白图像转化成彩色图像。近红外图像彩色化是图像彩色化的一个分支。相比于普通灰度图彩色化,近红外图像彩色化因原始近红外图像的原因面临着彩色结果不清晰的难题。近红外图像在交通辅助驾驶、军事领域、安防监控、智能警务和无人驾驶等都被广泛应用,但是由于其缺乏颜色信息不利于人眼观察,故而彩色化近红外图像很有实际应用意义。随着深度学习的发展,一些方法展现了它们优秀的图像彩色化能力。然而现有的红
发轫于上世纪的神经网络方法,在长期的发展过程中,经过了大量的调整、改进和优化,终于在近几年取得了引人注目的成果,并逐渐为不同领域的学者所青睐,大范围流行了起来。针对不同领域的数据各自的特点,形态结构各异的神经网络模型被大量提出,并在各自的领域中取得了显著的效果提升。同时,神经网络的拟合能力也随着神经网络的加深而不断增加,许多通用的深度神经网络架构被提出,并作为骨架广泛应用于各种不同的任务中。在复杂