论文部分内容阅读
自然场景中的文字信息具有明确的语义,有助于对自然场景内容的理解和分析。近几年,自然场景中的文本检测和识别作为计算机视觉领域中的重要研究方向,引起了国内外学者和研究机构的广泛关注,其成果可以广泛应用于场景分类、机动车自动驾驶、机器人视觉等领域。其中,自然场景中的文本区域检测和定位的结果会直接影响下一步文字识别的准确率。现有的文本检测技术大多都是根据文字自身结构特点进行人工的特征提取,然后再结合机器学习的方法来检测文本区域。由于自然场景非常复杂,而且自然场景中的文字具有多样性,因此,这种人工特征通常只适用于特定条件下的场景,整体的检测准确率较低。随着深度神经网络的发展和成熟,很多学者和研究机构设计了不同的文本检测网络模型来实现端到端的文本定位。与前面的传统方法相比,检测性能有了大幅提升,但是特征学习阶段较耗时。因此,本文深入研究了自然场景中文本的传统特征及深度网络特征的提取方法,将传统特征与深度网络特征融合,用传统特征去指导深度网络特征的提取,以提高深度网络提取特征的速度。本学位论文的主要研究内容如下:首先,根据带有复杂背景的实际自然场景图像中文本所具有的多语言、多方向、多尺度、多形态的特点,查找并收集数据集,构成包含中英韩等多语言、文字排列多方向、大小不一、背景复杂的文本图像数据库。其次,研究传统图像提取算法对文本与背景之间产生的差异,利用不同的文本结构特征提取文字区域。研究显著性检测算法对场景文本图像的有效性,分析视觉关注模型对文本目标的检测效果。融合不同的传统特征提取方法找到最凸显文本区域的文本区域候选。然后采用机器学习方法,利用其强大的分类能力判断文本与非文本区域,提高检测准确率。最后,将传统方法与深度学习方法相结合,得到更好的文本特征从而增强文本特征表示,减少神经网络产生的冗余信息。同时利用传统特征融合得到的文本概要图与拥有强大特征提取能力的卷积神经网络,并利用深度检测网络端到端的处理方式,对文本区域进行精确定位。本文提出的两种自然场景文本检测方法在一定程度上提高了自然场景文本检测性能。通过实验证明,本文提出的多尺度MSER结合ITTI模型的方法与其他传统方法相比,综合性能指标提升1到5个百分点,并可以处理文字多尺度等情况。提出的结合传统特征与Advanced EAST模型的文本定位方法,在自然场景图像中存在的文字多方向、多语言等条件下能够进行准确定位。该方法结合了两类方法的优势,因此能有效提取文本区域显著特征,同时也降低了网络训练时间。实验结果在多种数据集上进行了测试,证明了本文方法对不同场景文本具有较好的鲁棒性。