论文部分内容阅读
文字是信息的载体,在生活中发挥着重要的作用。近年来,随着人工智能的发展,人们越来越希望机器能够自动地识别文本图像中文字的语义信息,而想要对文本图像的文字进行识别,必须完成对图像中的文本进行精确定位,也就是完成文本检测,得到文本图像中文本的位置信息,于是文本检测逐渐成为计算机视觉领域的研究热点。一般来说,文本检测方法主要分为基于传统特征的文本检测方法与基于深度学习的文本检测方法。基于传统特征的方法使用手工设计的特征对所获得的候选区域进行验证,并最终获得预测框坐标。随着人工神经网络以及深度学习技术的兴起,基于深度学习的文本检测方法往往可以取得更优秀的检测结果。因此,基于深度学习的文本检测方法逐渐成为主流的文本检测方法,而基于传统特征的文本检测方法逐渐淡出人们的视野。基于深度学习的文本检测方法一般分为两个步骤:通过检测模型得到候选框,对得到的候选框进行后处理。而后处理通常采用非极大值抑制或者预测框合并连接等。目前基于深度学习的文本检测方法往往可以取得良好的检测结果,然而由于文本场景的多样性,以及图像本身的质量,造成当前的众多文本检测方法仍然存在字符误认,检测偏离等问题。字符误认就是将一些无用的非文本信息错误的认为是文本而检测出来,从而得到冗余的预测框,例如:标点符号,复杂场景下的一些图案等,检测偏离就是最终得到的预测框坐标与真实标签差距较大,单个文本容易经过检测后得到多个预测框,使文本不能完全被文本框框住。因此,为了解决以上两个问题,本文从后处理的角度着手,分别提出了针对字符误认和检测偏离的文本检测后处理方法。具体来说,本文的主要贡献包括以下两个方面:(1)针对文本检测领域经常遇到的字符误认问题,本文从文本检测后处理的角度提出了一种不标准框去除算法,以提高文本检测的准确率。一般情况下我们认为在同一个文本图像当中,字符与字符的大小应该是大致相同的。不标准框去除算法地设计主要就是依据这个原理。该算法主要是通过给定的预测框面积阈值判断每一个预测框是否属于标准框,若满足条件,即预测框面积小于最大面积阈值同时大于最小面积阈值,则判断此预测框属于标准框,反之不属于则剔除该预测框。最后剩下的就是更新后的预测框坐标集合,也就是经过处理后的检测结果。该方法可以在文本检测速度轻微下降的基础上提高文本检测的准确率。通过规范彝文、Chinese2k和English2k三个数据集上的实验结果对比分析,验证了本文方法对文本检测性能提升的有效性。(2)针对文本检测中的检测偏离问题,本文提出了一种针对检测偏离的文本检测后处理方法,以提高文本检测的性能。该方法主要分为三个模块,首先是背景去除模块,通过像素阈值对背景信息和文本信息进行分离,由于不同的文本检测场景需要不同的像素阈值,因此为了适应不同的检测场景,我们提出了自适应像素阈值算法,该算法可以通过预测框提取的图像信息计算出预测框的文本像素阈值。然后是候选框扩张模块,通过判断预测框边界是否存在文本像素从而将预测框向四周扩张。最后是重合框去除模块,通过算法将最后得到检测结果中完全重合和不完全重合的预测框去除,此时得到的就是经过本文方法处理后的检测结果。本文方法可以在提高文本检测的准确率、召回率、F1值的同时仍然保持较高的检测速度。最后我们在规范彝文、Chinese2k、English2k、ICDAR 2013、ICDAR 2015以及ICDAR2017(CTW-12k)等六个数据集上,对本文方法的泛化性、时间复杂度等通过实验进行了验证,并与LSAE、EAST、CTPN、TextBoxes、SegLink、TextBoxes++以及CRAFT等文本检测模型进行了对比,结果表明本文的方法能够提高文本检测的性能。综上,本文在当前文本检测方法的基础上,提出了两个后处理方法,解决了文本检测经常遇到的字符误认和检测偏离问题,为文本检测领域作出了一定的贡献。同时,通过大量的实验证明了本文的方法能够有效提升文本检测的性能。