论文部分内容阅读
随着近些年深度学习和计算机视觉技术的兴起,自然场景中的文字检测与识别得到了进一步的发展,其在场景识别、盲人导航、跨模态检索、自动驾驶等领域有广泛的应用前景。但是当前自然场景图像中的文字检测工作面临重重困难,诸如背景复杂、文字多样、成像不确定等问题。本文主要针对场景文字检测任务,将其划分为文字区域显著性检测和单词级别文字实例定位两个分支展开研究,最终建立双任务学习模型。本文主要研究工作如下:(1)提出了一种基于多尺度特征融合的场景文字区域显著性检测算法。该算法主要包括两方面研究内容:一是针对场景图像中文字尺度多样性问题,构建了基于卷积神经网络的多尺度特征逐层融合模型(Multi-Scale Features Fusion Layers-by-Layers Model,F~2L~2M)。该模型通过上采样、标准化、逐点融合等操作,将富含上下文信息的高层特征与富含细节信息的低层特征融合,可以提升小尺度文字的召回率。二是针对自然场景中样本极度不平衡导致错检率高的问题,设计非平衡样本学习策略(Unbalanced Sample Learning Strategy,USLS)并应用至文字区域显著性检测任务上。该策略在交叉熵损失函数的基础上增加权重调制因子,可以在模型训练过程中动态调整样本权重,着重学习分类困难样本的特征,从而降低错检率。(2)提出了一种基于位置敏感回归(Location Sensitive Regression,LSR)的多方向场景文字实例定位算法。LSR算法基于地理加权权重函数对直接回归算法进行优化并应用于文字实例定位任务,其基本思想源于定位任务的目标除了使预测顶点坐标偏移尽可能小外,还应满足预测包围框与真实包围框的面积交并比尽可能大,那么距离回归目标越远的像素点对应的回归损失权重越小。实验证明LSR算法提高了文字实例定位准确率。同时针对场景文字这类多方向、密集型目标,提出基于多种融合策略的改进非极大值抑制算法(Advanced Non-Maximum Suppression,ANMS),用于筛选出目标实例的最佳包围框,进一步提升定位结果的准确率。(3)设计并实现场景文字检测与识别(Scene Text Detection and Recognition,STDR)相关系统。主要包括STDR服务使用功能和STDR数据标注与收集功能,用于验证本文所构建的基于双任务学习的自然场景文字检测与定位模型的实际可行性,也为目前公开场景文字数据集数量级小、标注不准确等问题提供解决方案。