论文部分内容阅读
利用机器定位与识别自然场景图像中的文本信息,不仅可以提高信息处理的效率,还能大幅简化人们的工作,节省大量的劳动力,因此自然场景图像文本定位与识别技术被用于生产与生活等各个领域。在文档文本定位与识别技术较为成熟的今天,自然场景图像文本定位与识别技术还是略显不足,因此对于自然场景中文本的定位与识别算法依然是一个十分热门的研究课题。本文通过对自然场景中英文文本与中文文本的分析,分别针对自然场景英文定位、中文定位以及场景汉字识别三个方面的不足提出一些新的方法,因此本文的主要研究内容为:第一,针对现有的自然场景英文文本定位算法对于倾斜文本定位效果不佳且运行速度较慢的问题,提出一种基于最大极值稳定区域(Maximally Stable Extremal Regions,MSER)结合层次聚类的快速自然场景倾斜英文文本定位算法。算法首先通过MSER椭圆拟合算法快速地定位出图像中疑似文本区域,并根据拟合椭圆自身与空间特征快速地滤除非文本区域。利用层次聚类的思想将分散的文本区域由小至大层层融合,并且在融合的同时还能删除遗漏的非文本区域,实现快速有效地对自然场图像中倾斜的英文文本进行定位。第二,针对当前自然场景中文文本定位算法中对于汉字笔画融合效果不佳,且根据汉字连通区域形态特征的非文本区域过滤效果不佳的问题,提出一种MSER结合支持向量机(Support Vector Machine,SVM)的自然场景中文文本定位算法。这种算法首先通过MSER剪枝算法快速的定位出图像中的候选笔画区域,再利用一种基于笔画宽度变换(Stroke Width Transform,SWT)的动态闭运算笔画融合算法有效地融合图像中文字的笔画,解决了笔画融合不佳的问题。再对文本图像提取Gabor与方向梯度直方图特征(Histogram of Oriented Gradient,HOG)的388维特征,利用样本训练过后的SVM完成对非文本区域的过滤,在最后的自建中文定位数据集测试中也取得了预期的结果。第三,针对传统文字复杂度汉字识别中,文字复杂特征提取各个像素之间缺少联系的问题,提出一种改进的文字复杂度汉字识别算法。首先将文本图像经过去噪、倾斜矫正以及骨架提取这3步预处理,再通过改进的文字复杂度提取方法获得文字的方向统计直方图,利用直方图中的8维特征数据做为BP神经网络的输入,利用模糊输出的方式构成BP神经网络的输出,使用训练样本对BP神经网络进行训练,最后再利用训练好的BP神经网络进行识别,最后在识别测试中,相较于传统文字复杂度汉字识别方法,汉字识别率有很大提升。