论文部分内容阅读
自然场景文本定位是一个具有很大难度和挑战性的研究课题。自然场景图像中包含许多有用的信息,如商店名称、街道名称、交通标识等。准确地从自然场景图像中获取文本信息是数字图像处理中一个重要的研究内容。要提取自然场景中的文本,首先要找到文本的区域,然后才能交给文本识别模块OCR进行识别。虽然已有许多研究者对自然场景的文本识别做了深入的研究,但就目前的发展状况来看,自然场景文本识别准确性远不及人们所期望的效果。本文考察了现有的主要文本定位方法与目前研究所面临的难题,分析了主要文本定位方法的优缺点,提出了基于多方法融合的文本定位算法。该算法既考虑文本的形状边缘信息,又考虑文本的颜色信息,充分利用了基于边缘、基于学习和基于区域三种方法的优点。本文设计的算法包括预处理、金字塔分解、边缘提取、形态学运算、先验知识限制、各子图像结果合成、备选文本区域提取、神经网络分类和连通区域分析九个步骤。首先运用彩色边缘检测方法对金字塔分解子图进行边缘提取,然后用数学形态学进行文本定位,从而得到一个备选文本区域集。将备选文本区域集标记为文本区域和非文本区域,并作为神经网络学习的训练集,最后用训练好的神经网络对输入图像的备选文本区域集进行分类,获得输入图像的文本区域。在边缘提取阶段,为了满足文本区域定位的具体要求,本文在分析经典边缘检测算子的基础上,提出了一种CROstu彩色边缘检测方法。经该方法处理后的文本区域更清晰,且字符形状保持较好。在神经网络分类阶段,我们使用方形区域内“米”形范围内像素点的RGB值作为输入特征并使用BP网络将像素点分为文本像素点和非文本像素点,该方法避开了特征构造和分类过程中的阈值选择。实验结果表明,本文所提出的文本定位算法不但可以较准确的定位出相应的文本区域,而且具有一定的理论意义和较大的使用价值。