论文部分内容阅读
自然场景中存在很多路牌、警示牌、广告牌、站牌、交通标志、门头和有商店、街道、公司名称的文字标牌。自然场景中的文字信息直接的反应了周围环境,在人们理解场景的过程中发挥着重要的作用。自然场景中的文字信息提取由文字检测、文字定位和文字识别三部分组成。自然场景中出现的文字在大小、形状、字体、颜色和排列上的多样性,以及受到复杂背景、光照变换、几何失真和污染模糊的影响,使得准确的文字检测、定位和识别就变得很困难。文字检测和定位的准确性会直接影响文字的识别率,所以,很多算法都致力于文字的检测定位问题。 本文提供了一种基于学习的自然场景中文字标牌检测定位方法,该方法是以视觉词袋模型(BOVW,Bag of Vistlal Word)为基础进行文字标牌检测定位。BOVW模型的主要思想是把图像看作由不考虑空问信息的无序局部特征所构成的集合,再带入训练好的分类器进行类别判定。一般说来,BOVW由下列4个模块构成:局部特征提取、字典学习、特征量化和分类。特征、字典和分类器的选择对BOVW的类别判定性能影响很大,因此,本文的主要研究内容集中在文字标牌的强区分性特征提取、街景自适应性目标分类的字典学习方法和鲁棒的分类器选择几个方面。 首先,针对自然场景中的大规模数据,本文采用了能够自适应决定目标种类个数的自生长和自组织神经网络(SGONG,Self-Growing and Self-Organized Neural Gas network)用于BOVW模型中的非监督字典学习,解决了传统聚类方法的类别个数需要人为定义和计算复杂度过高等问题。其次,在文字标牌分类器监督学习时的特征选择上,一方面选用对旋转、尺度和颜色变化有强鲁棒性的SIFT特征在SPM模型下的直方图表示作为文字标牌的“形”特征,该特征同时具备形状和空间信息;另一方面为了消除不同颜色文字标牌的描述差异性,对HSV色彩空间的“HS”分量的直方图进行极大值移位操作,得到一种颜色不变性直方图特征(CIHS Histograms)作为对文字标牌的“色”描述。把“形”特征和“色”特征融合得到一种强区分性特征—Shape&Color特征,解决文字检测器中存在的特征描述不全面问题。最后,选用ADABOOST级联分类器进行文字标牌的多尺度检测。 实验结果显示,本文提出了基于学习的自然场景中的文字标牌检测定位方法有着良好的检测定位性能。Shape&Color特征+级联AdaBoost算法训练所得文字标牌检测器,对文字标牌检测的准确率可以达到90.05%,误检率为5.45%,相对SVM分类器,取得了更高的检测准确率和更低的误检率。