论文部分内容阅读
视频关键帧提取的目的是从一段视频序列中提取出一个关键帧集合,以用来代表整段视频的主要内容,它是基于内容的视频检索系统的检索技术的基础。
本文首先介绍了现有视频关键帧提取技术的国内外研究现状,给出了视频关键帧提取的基本流程,系统地介绍了视频序列模型、特征提取、相似度度量、镜头检测的常用方法、关键帧提取的常用方法等模块,并分析比较了镜头检测和关键帧提取的常用方法各自的优缺点。
其次,在对基于直方图分析的镜头检测进行多方比较分析的基础上,本文提出了一种改进算法即基于局部和全局特征相融合的镜头检测算法。基于直方图分析的镜头检测方法是镜头检测最常用的方法,其中直方图统计了图像总体的灰度或者颜色的分布规律,因而该方法对镜头内的运动和摄像机的慢速运动不敏感,抗噪声能力较强。通过对直方图的各种表示方法的比较分析,本文采用了x2直方图的分析方法,它具有较高的正确率和查全率,因为该方法放大了相邻帧之间的差异。但是,此处的直方图分析的方法却忽略了图像中的像素的位置信息,没有考虑到镜头内的局部运动。此时,区域块直方图的分析方法就弥补了这方面的不足,它在一定程度上反映了图像特征的位置信息。即使如此,区域块直方图分析的方法仍然无法准确地反映出相邻图像间的差异。所以本文提出了基于局部和全局特征相融合的镜头检测算法,该算法通过将全局颜色差异直方图的方差和局部亮度x2直方图差值融合为一个综合的特征值来表示相邻帧的相似度,使得它同时具有了帧图像的全局颜色分布信息和局部亮度的位置信息;接着,通过窗口和阈值的自动选取机制,选取合适的全局和局部阈值;最后,通过综合特征值和选取的阈值进行镜头检测。针对该算法,本文进行了大量的实验比较,实验表明,该算法能够获得较为准确的镜头边界,即具有较好的查准率,但是,查全率较低。
此外,本文分析了基于聚类的关键帧提取方法中的常用聚类方法k-means和模糊c-均值的优缺点,这些聚类算法的最大的缺点就是它们的初始聚类中心和聚类个数的都需要预先设置,增加了人为因素的干扰。为了克服以上缺点,本文提出了基于局部特征和mean shift的镜头关键帧提取的改进算法。该算法选取了能够自动确定类别数且具有自由的特征空间结构的均值漂移mean shift聚类方法。通过对镜头内的各帧图像的颜色矩特征和灰度共生矩阵的纹理特征进行mean shift聚类,从而得到镜头的关键帧集合。通过大量的实验比较,表明了该算法能够较为准确地提取关键帧,并且能够较为全面的地表达镜头的主要内容,从而弥补了镜头检测较低查全率的不足。
最后,对本文所做的工作和研究成果进行了总结和评述,同时在总结了视频关键帧提取技术中存在的问题的基础上对未来的工作进行了展望。