论文部分内容阅读
随着计算机科学的发展与视频数据存储传输能力的提高,基于视频的各种应用引起了研究人员的兴趣,视频分析正逐渐成为计算机视觉领域的一个研究热点。面对数据量庞大的视频信息,如何提高视频分析的效率,有选择性获取所关注目标的信息,是研究者们共同面对一个挑战。其中,通过借鉴人类的视觉注意机制而建立的计算模型,能有效地提取出包含关键信息的显著区域,提高视频处理分析的效率,同时也能提高对噪声的鲁棒性。
本文的研究模拟了人类视觉系统的视觉注意机制,利用视频特有的三维时空特性,将传统的仅仅利用空间信息构造的基于图像视觉注意模型扩展到视频的三维空间中,使时域与空域的显著性互相融合而形成视频中显著图。在视频分析处理中,通过建立的视觉注意模型,进一步获得视频中的显著区域,消除冗余的视觉信息,将运算集中在显著区域,从而提高视频处理的速度,满足视频应用实时性的要求。在本文中,视觉注意模型具体被应用到视频中人的动作检测。传统基于时空梯度特征提取与子块匹配的人体动作检测模型需要在时空三维空间进行大量的匹配操作,该方法存在耗时高的不足。通过结合本文提出的基于视频的视觉注意模型,可以大大提高运算效率,而且能提高算法对噪声的鲁棒性。
本文研究的重点与创新点在于:1)研究如何提取视频的三维时空特征并结合进视觉注意模型的建立中,包括利用视频中的运动信息、时空域上的梯度信息,建立具备时空多尺度分析功能的模型;2)建立视觉注意模型后,研究如何将提取的显著区域结合到视频分析的过程中,并结合多分辨率分析,避免将运算耗费在非运动区域或非显著的噪声区域,从而有效提高算法的运算效率。
实验表明,本文提出的方法能有效地提取视频中的显著区域,并在视频中人体动作检测这一具体的视频分析应用上能大大提高算法运行速度,改进检测效果,而且对视频中的噪声具有一定的鲁棒性。