论文部分内容阅读
自动地抽取图像/视频的语义内容在图像/视频检索中具有重要意义。在基于内容的视频检索和浏览中,可供利用的一个重要线索是视频中所包含的字符。因此,自动地检测和识别字符是抽取视频语义内容的基础和关键所在。目前,针对视频图像字符检测和识别在象素域做得比较多,并取得了一些有应用价值的进展。然而,视频由于数据量大,通常以压缩后的视频流形式进行存储和传输。若将视频流完全解码后还原为一幅幅静止图像,再进行字符检测和识别,计算量大,也严重地影响了处理速度。若在压缩域中对视频流直接处理,还原部分信息,然后进行字符检测可以减少完全解码的时间,同时处理数据量也更少,有利于提高实时性。本文结合现有的压缩域视频字符检测技术,提出了一种基于DCT域的视频字符检测算法。它利用压缩视频流中字符纹理所具有的方向性和字符通常都成行/列分布的特点,通过一种新的自适应阈值分割,有效地将字符块与非字符块区分开来,并进一步利用形态学方法进行平滑和滤波并对候选文本区进行验证,最后,通过水平和垂直方向投影,准确地定位字符区域。实验结果表明,该算法在复杂背景下也能取得较高的检测率,具有良好的鲁棒性和实用性。同时,针对已定位好的字符区域,提出了一种融合图像直方图统计信息与边缘特征的二值化方法用于分割字符。该方法先利用梯度算子检测出图像的边缘点,接着选择每个边缘点8邻域内具有最高、最低灰度的点并分别计算这些最高、最低灰度点的均值作为高、低两个阈值,然后统计图像中灰度在这两个阈值之间的所有象素的直方图,最后将这个直方图作为参数利用Otsu方法对图像进行二值化。此二值化方法时间复杂度较低,融合了全局直方图信息与边缘信息,取得了较好的分割效果。