论文部分内容阅读
对视频数据的有效处理、浏览、检索和管理正伴随着视频数据的快速增长而成为亟待解决的现实问题。视频内容分析技术旨在将非结构化的视频数据结构化,并提取其中的语义内容,最终建立视频索引和检索等应用系统,提供给用户方便的视频内容获取方式,它综合了多媒体处理、模式识别、计算机视觉、图像理解等领域的知识,具有广阔的应用前景。本文按照视频内容分析的逻辑顺序,研究了镜头检测、场景分割、图像流和音频流中若干语义对象的提取及融合多模态对象实现视频中的众多语义事件检测等技术。主要创新和研究结果如下:
⑴提出了基于运动补偿和自适应双阈值的镜头检测算法。在该算法中,融合了运动特征和图像特征。先是提取前后两帧图像中的分块运动矢量,然后对运动矢量进行运动补偿,在此基础上根据前后帧间的像素值不变点数计算自适应双阈值实现镜头的突变和渐变的检测。实验证实该算法不仅能够有效地检测出突变和渐变,而且算法适应于多种视频,具有一定的普适性,并且因为采用了运动补偿,所以对视频帧间的运动具有较强的鲁棒性。
⑵分别以影视类视频和广告视频为研究对象,提出了两种场景分割算法。首先以影视类视频为研究对象,针对以往基于阈值聚类的场景检测算法中存在的需要设置经验阈值及聚类后得不到各类的类别中心的缺陷,提出了新颖的基于均值漂移聚类的场景检测算法。在该算法中,先是基于均值漂移,在滑动镜头窗内对各镜头聚类,并获得相应的聚类中心,然后根据电影视频场景的发展模式,计算两个镜头类之间的时序距离,接着基于时空关系进行场景检测,并且由相应的聚类中心获得场景关键帧,最后对场景过分割进行后续处理。实验证实该方法能快速聚类,并且能有效的检测出场景和场景关键帧。随后以广告视频为研究对象,结合视频的特色,先是对音频建立高斯混合模型,然后基于分割熵检测音频的跳变点,最后结合视频中的文本检测及音频跳变点实现广告单元边界的检测。实验证实算法具有一定的检测率。
⑶以足球视频为研究对象,分别从图像流和音频流入手,提出了若干个基本语义对象提取的算法。精彩的射门事件发生在球门附近,球门的检测有助于射门事件的检测。结合球门的图像特征,提出了基于Top-Hat变换和支持向量机的球门检测算法。实验证实算法具有较高的查全率和查准率,并对图像模糊的视频具有很强的鲁棒性。回放的慢镜头对精彩事件具有定位语义作用。结合慢镜头回放前后的徽标镜头的特征,提出了一种基于徽标和规则的慢镜头回放检测算法。实验证实该算法不仅具有较高的查全率和查准率,而且所需的时间代价也较小。与图像特征相比,音频特征同样具有丰富的语义作用。在对隐马尔可夫模型进行系统描述的基础上,提出了基于连续隐马尔可夫模型的音频语义对象提取算法。实验证实了算法的有效性。
⑷提出了基于离散隐马尔可夫模型和多模态融合的多事件检测算法。以足球视频为研究对象,首先基于连续隐马尔可夫模型提取音频语义对象,然后基于时间联系,将音频流与图像流融合,接着基于离散隐马尔可夫模型融合多模态对象实现多事件检测。实验证实了算法的有效性。