基于DenseNet自然场景文本检测的研究与实现

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户：ApexLiuNck

【摘要】

：

随着社会水平的快速向前发展和计算机处理水平的提升,现在已进入到数据爆炸的时代。受益于此,计算机视觉衍生出许多的分支,包括人脸检测、图像检索、安全监控、智能汽车、场

【作者】

：

刘会江

【出处】

：

重庆邮电大学

【发表日期】

：

2004年期

【关键词】

：

自然场景深度学习文本检测文本识别密集连接网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着社会水平的快速向前发展和计算机处理水平的提升,现在已进入到数据爆炸的时代。受益于此,计算机视觉衍生出许多的分支,包括人脸检测、图像检索、安全监控、智能汽车、场景文本检测与识别等各个领域。本课题基于中国电子科技集团第三十研究所凯天通信公司“互联网内容监管平台-GA”项目,对自然场景文本检测与识别做出了研究。本文将传统的光学字符识别(Optical Character Recognition,OCR)技术直接运用到自然场景文本检测中发现鲁棒性很差;而现有基于深度学习的自然场景文本识别方法在实际应用中有诸多问题,并且其准确率与召回率指标还有进一步提升的空间。场景文本检测是本文的研究重心,本文主要针对检测所存在的问题,给出一种基于改进的密集连接网络(Densely Connected Convolutional Networks,Dense Net)针对倾斜方向的自然场景文本检测方法。本文场景文本检测主要内容包含以下三个方面:其一,首先对基础网络Dense Net进行改良以提取自然场景文本的特征。改良后的Dense Net模型结构能够提取更加深层次的特征,以解决传统神经网络特征提取不够充分的问题。其二,新设计了一个Dense Layers层,用于边框的回归以及文本的预测。同时对于边框的回归,设计了一个密集连接的多尺度预测模块,使之能够准确地检测到场景文本位置;针对场景文本的特点,还使用四边形的边框进行回归,使之能够检测倾斜方向的场景文本。其三,区别于传统的后处理方式,本文使用软非极大值抑制算法(Soft Non-maximum suppression,Soft-NMS)进行后处理。相比传统的非极大值抑制算法(Non-maximum suppression,NMS),Soft-NMS算法的后处理方式更优,并且还不会增加额外的参数与训练量,易于实现。基于本文自然场景文本检测的设计思路,针对场景文本识别的研究内容如下:其一,使用改良的基础网络(选用改良的Dense Net)对特征进行提取,使之能够提取更多的细节特征。其二,在卷积层后面连接一个循环层,来获取更深层次的上下文信息,得到特征向量序列。其三,循环层后面连接一个转录层,识别出每一帧的标签分布。最后,本文对上述方法进行了测试,将本文提出的基于Dense Net针对倾斜方向的自然场景文本检测与识别方法,分别在水平数据集和倾斜数据集上面与现有算法比较,测试结果表明,本文提出的检测方法取得更优的结果。

其他文献

FDI攻击下信息物理系统的安全分布式Kalman融合估计

信息物理系统(Cyber-physical systems,CPSs)的分布式融合估计因计算速度快、可靠性高、容错能力强等特点受到人们越来越多的重视,在工控系统、智能家居等领域得到广泛应用。

学位

信息物理系统虚假数据注入攻击安全状态融合估计分布式融合非线性滤波

基于时变时滞离散T-S模糊系统的H∞滤波分析与设计

非线性和时滞是控制系统中普遍存在且不可避免的物理现象,也是控制理论研究的热点和难点之一。由于Takagi-Sugeno(T-S)模糊模型具有无限逼近封闭有界定义域内的任意连续函数

学位

Takagi-Sugeno模糊模型时滞分割二次Wirtinger不等式H_∞滤波器设计

基于可分离元素注意力机制的雨痕与背景耦合预测技术研究

在下雨天气获取图像时往往会在图像中产生雨痕,导致图像中的物体信息被破坏。这可能会导致后续计算机视觉系统的性能下降或者让拍摄者获取不到理想中的照片。要从单一图片中

学位

图像去雨痕图像修复耦合预测注意力机制

保障房居民服务质量感知对政府声誉的影响机制研究

随着我国经济的发展,我国也渐渐把目标放在从“经济导向”到“社会导向”,“政府本位”向“民众本位”的方向转变。提出了建设服务型政府的目标。近几年从“让市场其决定性作

学位

保障房服务质量政府评价结构方程模型

图像处理中的鲁棒主成分分析模型改进及算法研究

伴随着大数据时代的到来,人类社会进入了一个“数据化生存”的时代,人们每时每刻都在获取海量高维数据。然而,在计算机视觉、图像处理和信号处理等研究领域,这些高维数据往往是冗余的且含有噪声,给数据的存储、传输和分析带来了巨大的困难。因此,对这些海量高维数据进行降维和去噪处理是十分必要的。其中鲁棒主成分分析模型是目前已有的主流降维、去噪方法之一。本文主要研究鲁棒主成分分析模型、算法的改进及其在图像处理中的

学位

图像处理鲁棒主成分分析模型增广拉格朗日乘子法非凸近似矩阵分解

基于电子病历数据挖掘的急性冠脉综合征风险评估方法研究

心血管疾病是全球死亡的主要原因之一,急性冠脉综合征(ACS,Acute Coronary Syndrome)为其中的一种,在其早期治疗中,评估患者会发生诸如心肌梗死、中风或者死亡等不良事件的风

学位

急性冠脉综合征风险评估关系正则化深度学习多任务学习对抗训练

混合现实的视觉直观性应用研究

混合现实是一种将计算机生成的数字信息与现实中的物理世界结合起来的技术,其最显著的特征是全息影像观感体验,而同时,这种观感体验是视觉直观性的直接表现。本文在艺术与技

学位

混合现实全息体验直观性摄影暗房

Spark中缓解数据倾斜的自适应任务调度技术研究与优化

大数据及其相关处理技术成为当今计算机科学领域和工业界最重要的技术之一,最为崭新的知识获取范式,商业公司和学术科研组织已经将大数据的获取、存储与处理能力作为其核心竞争力之一。大数据面临着诸多问题,数据的规模正在非线性增长,传统的数据库技术早已不能满足大数据的要求。Google公司于2004年提出的MapReduce框架成为大数据时代具有里程碑意义的技术,然而近年来层出不穷的新场景、新应用却使MapR

学位

MapReduceRDDSpark任务调度自适应数据倾斜

基于Meta图的物流服务流程分析与设计

21世纪以来经济全球化飞速发展,我国服务业规模不断扩大,已经跃居国民经济第一大产业。随着近年来服务业的发展,服务流程分析与设计成为服务企业优化管理、提高顾客满意度的

学位

Meta图服务流程服务蓝图业务流程流程分析

斜坡下四足爬行机器人的步态规划及行走控制研究

四足爬行机器人在斜坡执行任务时需要通过复杂地形,为确保其在斜坡的通过性,需要提高足端控制精度、掌握足端力的大小以及有效地识别地形,所以本文从斜坡下的多步态设计、腿

学位

四足爬行机器人多步态设计动力解耦控制力/位分段切换控制斜坡环境识别

基于DenseNet自然场景文本检测的研究与实现

其他学术论文