论文部分内容阅读
自然场景图像中不仅含有丰富的图像信息,同时含有大量的文本信息,这是对场景的重要补充,是对场景内容理解的关键线索。随着多媒体技术的发展,数字化视频和图像日益涌现,这给我们带来丰富信息的同时,使得大量图像数据激增。通过自然场景中的文本认知获取场景中的文本信息,有助于理解场景内容,从海量的图像数据中检索、查询、浏览场景图像资料,提高图像资料的管理效率,并且有效节约时间、减少成本,提高信息检索技术的自动化程度。传统的文档图像的文本检测和识别已经日趋成熟,但是自然场景中的文本信息检测和识别却存在较多困难。自然场景图像中文本的文字大小是任意的,排列和对齐方式是未知;光照因素往往对图像中的文本颜色,亮度,对比度等产生影响;拍摄角度的不同,很容易使文本信息产生几何变形,字符断裂等现象,另外由于自然环境的影响,也会降低所拍摄的照片的质量。因此自然场景中的文本检测和识别常常会遇到诸多困难。自然场景中的文本检测是检测图像中是否含有文本信息,并确定文本信息的位置。本文的主要工作如下:将最大极值稳定区域(Maximally Stable Extremal Regions)应用于文字检测。MSER是当使用不同的灰度阈值时,图像所具有的的最稳定的区域,具有仿射不变性。而自然场景中的文本信息与背景具有明显差异,并且具有区域稳定性。利用MSER极好的仿射不变性,将图像中稳定的区域进行提取,并从中筛选出文本区域信息,效果良好。但是存在颜色空间中各异的颜色,转换为灰度值后,却存在近似的现象,导致背景与文本区域的过度融合现象。本文提出将颜色聚类和MSER融合应用于文本检测。先通过MSER确定聚类中心和聚类种类,然后对原始图像进行颜色聚类从而筛选文本区域,从而克服复杂背景进行文本检测和MSER稳定区过度融合的问题。