论文部分内容阅读
随着信息化技术的飞速发展,人们的生活几乎时刻都离不开互联网。在工作、娱乐、交流中每时每刻都在产生大量的视频,图像等多媒体信息,如何快速高效的存储并且检索这些信息,已经成为当今科学研究的一大热点。新闻类节目是人们获取外界信息的主要途径,研究新闻类视频信息的检索具有重要应用价值和代表意义。新闻视频中的字幕,尤其是主题字幕,往往反映了新闻故事的语义内容,能够给视频检索和索引提供重要的辅助信息,我们可以利用视频文本信息直接判断视频所讲诉的内容,然后可以进行后续许多深化应用。因此,如何准确、快速地获取视频字幕文本信息,成了视频检索的关键。利用人工来获取视频中的文本,在视频数据泛滥的今天已经变得不现实。因此,提出一种正确有效的方法,利用计算机自动识别视频中的文字已经是一种迫切需要。本文首先对一个新闻视频先采用自适应双阈值方法对其进行镜头分割,根据镜头内相邻帧差出现峰值来判断文字的出现与消失,提取每个镜头的关键帧。根据已经获得的字幕起始帧与结束帧,通过多帧融合技术,提高字幕与背景之间的对比度,降低背景的干扰因素。然后经过分析和比较各种纹理特征,针对新闻视频字幕,提取了以下3个特征作为文字与非文字区域的辨别:1.灰度共生矩阵和方差(在比较了灰度共生矩阵其余10个特征后选取)。2.图像小波变换LH子带、HL子带以及HH子带的系数方差(考虑文字纹理特征,选取系数方差最大的)。3.角点密度(利用了文字多笔划特点)。接着将视频帧分块,利用提取的特征对文字块与非文字块进行分类。在分类器中做得比较好的有svm(支持向量机)和BP神经网络,但这些方法的一个通用的缺点就是必须要有一个预先的训练样本集,不同的样本类型和不同的样本容量结果可能完全不同。本文采用了蚁群算法的自适应性和反馈机制,创造性提出一个启发式引导函数,巧妙地将3个特征融入为蚁群算法的启发引导因子。最后利用形态学处理确定一个最终的文字区域。对于输入OCR识别的文字图片,需要先进行二值化处理,本文比较了传统的二值算法——otsu算法,提出一种迭代二值化算法,提高了OCR软件的识别准确率。