平面媒体中文字定位的研究与实现

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:nimashabi2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图片中的文字信息提取,一直都是研究热点,其在图像检索与分类、图书管理、票据证件与名片的处理方面都非常有帮助。它包括图像滤波、图像的几何校正、文字定位、颜色聚类、图像分割、倾斜校正、字符切分、二值化和文字识别等部分,而其中又以文字定位与识别最为重要。在文字识别技术已经非常成熟的情况下,本文对文字定位技术进行了深入研究,深刻分析了平面媒体中文字区域的特点,并提出了两种文字定位方法。首先,本文对基于纹理和区域的传统的文字定位方法进行了研究,提出了一种基于连通组件的文字定位方法。它首先对图像进行倾斜校正,其次对已校正的图像进行聚类分析,以削减图像中的颜色种类,再次对每一种颜色的二值图像提取连通组件,并使用多种特征对连通组件进行分类,最后将各种颜色的分类为文字区域的连通组件合并起来,得到图像的文字区域。本文提出的基于连通组件的文字定位方法可以非常好地定位出图像中的显著文字区域,但是由于聚类和使用的特征不够完善,不能定位与背景色相近或者是倾斜的文字。另外,基于纹理和区域的传统文字定位方法都有一个很大的缺陷,许多特征的阈值都需人工定义,给系统的可靠性带来了隐患。针对以上缺陷,本文提出了一种基于AdaBoost机器学习的文字定位方法。首先,搜集大量的平面媒体图片,其中包括书的封面、CD封面和电影海报,人工标记和提取其中的文字区域。其次,基于对文字区域和非文字区域的统计性差异分析,得到两大类特征集,用于构造弱分类器。然后,使用AdaBoost将上一步得到的弱分类器筛选和组织起来,得到一个三级的级联分类器。最后,通过将图片的子区域分类为文字和非文字区域,此级联分类器就能够定位出文字区域。为了软件更加易于使用,在C++实现算法的基础上,采用C#编写了用户界面。大量的实验结果表明,本文所提出的基于机器学习的方法,相比本文中提出的基于连通组件的文字定位方法,具有无需预处理(倾斜校正、聚类)、无需人工阈值、扩展性强的特点。与现有的其他方法相比,在定位单个字符、倾斜甚至竖直的文字行方面有更好的鲁棒性。
其他文献
图像制导在现代战争中应用非常广泛,但其作用距离较短。研究低对比度图像中目标的分割与识别算法,在某种意义上可以达到扩展作用距离的目的。低对比度目标分割的难点在于:目
随着虚拟现实及其相关技术的发展,虚拟场景仿真和漫游技术成为近年来的一个研究热点,广泛应用到教育培训、航天航空、军事仿真、城市规划、文物馆藏等各个领域中。军事历史陈
期刊
网络管理是网络稳定运行的必要条件,它是一个包含多种领域的问题,既有技术性问题,也包含法律、管理、心理学等非技术性问题。主机是互联网中最基本的网元,主机是网络行为的主
期刊
期刊
随着全球Internet业务呈现出爆炸式增长的趋势,基于波分复用的WDM光网络技术已成为下一代骨干网络的首选技术。关于选路和波长分配的RWA问题是WDM光传送网中的一个重要问题。
期刊
目标跟踪技术被广泛的应用在监控、导航、障碍规避等需要确定目标的数目、位置、运动和身份的系统中,是这些系统的重要组成部分。而能够递推估计目标状态的滤波算法是整个跟
机载雷达的杂波抑制是空时多维滤波问题,自从Brennan的全空时联合最优处理法提出后,应用空时自适应信号处理(Space Time Adaptive Processing,STAP)抑制杂波的研究便纷纷涌现