论文部分内容阅读
随着社会水平的快速向前发展和计算机处理水平的提升,现在已进入到数据爆炸的时代。受益于此,计算机视觉衍生出许多的分支,包括人脸检测、图像检索、安全监控、智能汽车、场景文本检测与识别等各个领域。本课题基于中国电子科技集团第三十研究所凯天通信公司“互联网内容监管平台-GA”项目,对自然场景文本检测与识别做出了研究。本文将传统的光学字符识别(Optical Character Recognition,OCR)技术直接运用到自然场景文本检测中发现鲁棒性很差;而现有基于深度学习的自然场景文本识别方法在实际应用中有诸多问题,并且其准确率与召回率指标还有进一步提升的空间。场景文本检测是本文的研究重心,本文主要针对检测所存在的问题,给出一种基于改进的密集连接网络(Densely Connected Convolutional Networks,Dense Net)针对倾斜方向的自然场景文本检测方法。本文场景文本检测主要内容包含以下三个方面:其一,首先对基础网络Dense Net进行改良以提取自然场景文本的特征。改良后的Dense Net模型结构能够提取更加深层次的特征,以解决传统神经网络特征提取不够充分的问题。其二,新设计了一个Dense Layers层,用于边框的回归以及文本的预测。同时对于边框的回归,设计了一个密集连接的多尺度预测模块,使之能够准确地检测到场景文本位置;针对场景文本的特点,还使用四边形的边框进行回归,使之能够检测倾斜方向的场景文本。其三,区别于传统的后处理方式,本文使用软非极大值抑制算法(Soft Non-maximum suppression,Soft-NMS)进行后处理。相比传统的非极大值抑制算法(Non-maximum suppression,NMS),Soft-NMS算法的后处理方式更优,并且还不会增加额外的参数与训练量,易于实现。基于本文自然场景文本检测的设计思路,针对场景文本识别的研究内容如下:其一,使用改良的基础网络(选用改良的Dense Net)对特征进行提取,使之能够提取更多的细节特征。其二,在卷积层后面连接一个循环层,来获取更深层次的上下文信息,得到特征向量序列。其三,循环层后面连接一个转录层,识别出每一帧的标签分布。最后,本文对上述方法进行了测试,将本文提出的基于Dense Net针对倾斜方向的自然场景文本检测与识别方法,分别在水平数据集和倾斜数据集上面与现有算法比较,测试结果表明,本文提出的检测方法取得更优的结果。