基于自然场景的文字检测与定位研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:yzl417801753
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近些年深度学习和计算机视觉技术的兴起,自然场景中的文字检测与识别得到了进一步的发展,其在场景识别、盲人导航、跨模态检索、自动驾驶等领域有广泛的应用前景。但是当前自然场景图像中的文字检测工作面临重重困难,诸如背景复杂、文字多样、成像不确定等问题。本文主要针对场景文字检测任务,将其划分为文字区域显著性检测和单词级别文字实例定位两个分支展开研究,最终建立双任务学习模型。本文主要研究工作如下:(1)提出了一种基于多尺度特征融合的场景文字区域显著性检测算法。该算法主要包括两方面研究内容:一是针对场景图像中文字尺度多样性问题,构建了基于卷积神经网络的多尺度特征逐层融合模型(Multi-Scale Features Fusion Layers-by-Layers Model,F~2L~2M)。该模型通过上采样、标准化、逐点融合等操作,将富含上下文信息的高层特征与富含细节信息的低层特征融合,可以提升小尺度文字的召回率。二是针对自然场景中样本极度不平衡导致错检率高的问题,设计非平衡样本学习策略(Unbalanced Sample Learning Strategy,USLS)并应用至文字区域显著性检测任务上。该策略在交叉熵损失函数的基础上增加权重调制因子,可以在模型训练过程中动态调整样本权重,着重学习分类困难样本的特征,从而降低错检率。(2)提出了一种基于位置敏感回归(Location Sensitive Regression,LSR)的多方向场景文字实例定位算法。LSR算法基于地理加权权重函数对直接回归算法进行优化并应用于文字实例定位任务,其基本思想源于定位任务的目标除了使预测顶点坐标偏移尽可能小外,还应满足预测包围框与真实包围框的面积交并比尽可能大,那么距离回归目标越远的像素点对应的回归损失权重越小。实验证明LSR算法提高了文字实例定位准确率。同时针对场景文字这类多方向、密集型目标,提出基于多种融合策略的改进非极大值抑制算法(Advanced Non-Maximum Suppression,ANMS),用于筛选出目标实例的最佳包围框,进一步提升定位结果的准确率。(3)设计并实现场景文字检测与识别(Scene Text Detection and Recognition,STDR)相关系统。主要包括STDR服务使用功能和STDR数据标注与收集功能,用于验证本文所构建的基于双任务学习的自然场景文字检测与定位模型的实际可行性,也为目前公开场景文字数据集数量级小、标注不准确等问题提供解决方案。
其他文献
文章以2006—2016年"民办社工机构"的主要研究文献为基础,并对其进行综合性评述和简论,从民办社工机构研究文献的具体内容出发,呈现和评述民办社工机构的概念与特征、发展现
降水是参与全球水循环的关键过程之一,也是地球表面物质能量循环与交换等过程的重要组成部分,所以高精度的降水数据对研究某一区域降水时空分布情况具有极为巨大的意义。传统
吉林省作为东北老工业基地受地理位置和经济发展影响,民办社会工作机构发展面临种种困境,在调查当前社会工作机构发展现状后,本文对民办社工机构面临的困境进行分析,并对民办
介绍了利用火电厂尾水建小水电站的经验与效果。
本文主要是从PTN技术和OTN技术两者之间的概念、优势、组合模式等方面研究和分析PTN与OTN联合组网的模式在现实中的价值。
增强电磁波/光的吸收长久以来一直是科研领域重要的研究方向之一。高效率的电磁波吸收器对能量收集、传感器、拉曼增强、隐身技术、非线性光学等众多领域的发展至关重要。传
目的探讨早期功能锻炼对老年全膝关节置换术后心理状态及关节功能恢复的影响。方法 84例行全膝关节置换术的老年患者,采用随机数字表法分为观察组和对照组,各42例。对照组实
3月10日,埃塞俄比亚航空一架波音737 MAX 8飞机坠毁,机上157人全部遇难。消息一出,世界舆论一片哗然。就在几个月前,印尼狮航集团一架同样型号飞机也发生坠机事故。不到五个
想象是创新思维中最具活力的因素之一。想象能力的训练是阅读教学不可或缺的内容。在教学中,教师要根据文本内容和学生的学习能力,设计出富有层次性的想象训练,促进学生的想象力
当代中国的“以人为本”思想,其深厚根基来自于中华文明.其主要理念:珍爱生命、反对战争、重视民生,热爱自由、追求个性发展、保护弱势群体,反对奢侈腐败、提倡节俭、尊重劳动