论文部分内容阅读
随着互联网和多媒体技术的迅速发展,我们在每天的生活中都会接触到大量的图像和视频信息。图像和视频的压缩技术已经取得了巨大的成就,有效地解决了存储和传输的问题,目前的多媒体应用迫切需要的是基于内容的功能。为了有效地提供基于内容的功能,必须从视频场景中分割出有意义的视频对象,以获得视频内容的基于对象的表示。视频对象分割最初的研究动机是为了实现MPEG-4基于内容的编码功能,现在它已经成为支持任何一种基于内容的多媒体应用的关键技术,其中包括视频索引和检索、智能视频监控、人机交互以及视频编辑等应用。
视频对象分割方法基本上可分为两类:即自动分割方法和半自动分割方法。在详细回顾已有方法的基础上,本文提出了一种更细化的分类标准,强调了视频对象跟踪算法在自动和半自动分割方法中的通用性。对于自动分割,本文提出了两种运动对象分割算法以及一种人脸对象分割算法。对于半自动分割,本文提出了一个交互式视频对象分割工具以及一种同样可用于自动分割中的视频对象跟踪算法。
具体来说,本文的主要创新工作如下:(1)使用光流场的运动信息,提出了基于假设检验的运动对象分割算法。初始分割采用分水岭分割算法,接着根据颜色相似性进行区域合并;然后利用光流场估计和全局运动估计获得全局运动的残余误差;最后以各个区域的残余误差数据进行假设检验来确定运动区域,组合所有的运动区域来生成具有准确边缘的完整视频对象。
(2)在时空分割框架下提出了一种自动视频对象分割算法。时域分割采用了基于F检验的变化检测方法;针对空域分割提出了一种彩色图像的分裂合并算法;然后考虑以前帧分割出的运动对象的累积结果,进行时空分割结果的融合;最后提出了一种利用边缘信息来消除显露的背景区域的后处理方法。
(3)针对半自动分割的第一步,开发了一个交互式视频对象分割工具来方便用户定义感兴趣的视频对象。用户交互结合了画标记和区域选择这两种方式,所提出的快速种子区域合并算法用来从分割区域中提取出视频对象。灵活的用户交互方式和种子区域合并算法相互配合,最大程度上减少了用户交互的工作量。
(4)提出了一种双向投影的方法用于视频对象跟踪,它有机地结合了前向投影和后向投影各自的优点。前向投影用来在当前帧中粗略定位视频对象的边界,接着在其膨胀区域内进行实际的分水岭分割。然后在较小的搜索范围内只对一些分割区域进行后向投影,提高了跟踪的效率,而且在后向投影中融合了象素分类和区域分类,保证了跟踪的可靠性。所提出的双向投影方法不仅可用于半自动视频对象分割的第二步,也可作为一个独立的跟踪模块用于自动视频对象分割中。
(5)提出了一种基于二叉划分树的人脸分割算法。首先结合象素分类和分水岭分割的结果来获得肤色区域;然后利用谷底检测和熵阈值化的方法提取出脸部特征来修正肤色区域。为了从肤色区域中分割出人脸区域,提出了一种新的区域合并算法,在合并过程中考虑了相邻区域之间公用边界的影响,并用二叉划分树来表示整个区域合并过程。接着利用一系列描述人脸的几何特征和形状特征的模糊隶属度函数,给二叉划分树的每个结点赋值来表示该结点的人脸相似度。最后提出了一种在二叉划分树中的结点选择算法来完成人脸分割,它能够在无需任何假设的情况下准确地分割出人脸对象。