论文部分内容阅读
图像和视频中包含的文字信息是理解图像和视频内容的重要线索,有效地提取这些文字信息对基于内容的图像信息检索系统来说是一项重要的技术。由于图像和视频中的文字通常叠加在复杂的背景之上,背景成分的干扰使得现有的OCR技术难以识别出这些文字,从而限制了OCR技术的成功应用。因此,如何从具有复杂背景的图像和视频中提取文字信息成为一个重要的研究课题。对于复杂背景中的文字检测,本文使用了多尺度的小波变换特征和标记算法相结合的方法。首先,应用小波半软阈值法去除图像噪声;然后利用Mallat塔式分解方法获取图像的高频特征信息,并计算得到各分量的特征能量。本文对特征能量的阈值选取方法做了改进,根据图像中文字的特点使用双阈值法检测文字,实现文字的粗定位;最后,使用标记算法对文字进行细定位,从而将候选文字像素连接成为完整的文字区域。实验表明,该方法能够快速、准确地检测出图像和视频中的文字。在检测出图像中的文字后,本文采用非监督参数估计方法建立高斯混合模型进行文字分割。首先利用改进的“边缘对”采样方法,在Canny边缘检测结果的基础上,通过变尺度法实现对“边缘对”之间的像素采样;然后,对采样像素建立HIS颜色模型,并使用HIS颜色模型中的色度分量作为特征;最后,本文对像素概率计算方法做了改进,提出通过计算像素区域概率的方法分割文字,即根据色度相似的像素其高斯分布概率相同的特点进行快速分割,这样可以避免以往逐个计算像素概率导致计算量过大的问题。这种先采样后利用区域概率的分割方法大大提高了文字分割效率。最后,研究了字符分割和识别问题。本文采用投影法分割字符,该方法是通过从上至下,从左至右扫描图像,将图像中的文字分割成可以输入OCR识别系统的单个字符。在字符识别中,本文没有使用单一的结构特征或者统计特征,而是结合了两者的优点,将每个字符对应到横、竖、撇、捺四个笔画子方向上,然后计算网格笔画向量作为特征,并应用最近邻法对向量进行分类来识别字符。实验表明,该方法能够取得满意的识别结果。