论文部分内容阅读
图像和视频数据的海量增长,以及赋予计算机以人类视觉系统的能力的渴望推动计算机视觉的研究和应用不断向前发展。通过计算机对视频进行处理,分析与理解是计算机视觉的一个热点研究领域,而人体行为识别是计算机视觉领域的一个重要研究方向。人体行为识别通过分析视频序列中人体的相关特征来确定人体行为的类别,它涉及图像处理、人工智能和模式识别等多门学科。人体行为识别在反恐行动、公共安全、人机交互、辅助驾驶、虚拟现实、视频检索等军民领域有着广泛的应用价值和应用前景。人体行为识别的关键在于特征的选择和提取以及行为的分类。本文围绕人体行为识别的相关问题进行研究,通过采用引入正交平面概念的时空局部特征点提取方法提取兴趣点,进而提取时空局部特征描述信息,然后通过分层模型生成对视频序列中人体行为的多层次表示来实现人体行为识别。主要完成了以下工作:本文在现有方法的基础上,通过引入正交平面的概念,在时空特征点提取和时空局部特征描述两个方面进行了改进,提出了一种新的时空特征点提取方法和时空局部特征描述方法。该时空特征点提取方法将整个视频序列视为三维立方体,在任一维度上的平面检测兴趣点,借助集合的运算和弱约束规则获得时空特征点;该时空特征描述方法对以时空特征点为中心构造的时空立方体内的像素点采用中心对称扩展的方法构造部分重叠的小立方体,利用组合梯度方向直方图和光流直方图,加权生成高维时空局部特征描述子,并采用局部保留投影算法获得时空局部特征描述子的低维向量表示,从而保留时空局部特征描述子所包含的局部信息。通过引入特征池的概念,构建分层‘’bag-of-words"模型,形成输入一个底层局部特征而输出多个不同粒度的人体行为描述的机制。通过该模型所获得的人体行为描述能够兼有底层的局部信息和局部特征之间的结构信息。本文在通用的标准测试视频库上进行了实验,验证了本文所提方法的可行性和有效性。实验表明采用本文所提出的时空特征点提取方法所提取的时空特征点具有较好的稳定性和代表性;所提取的时空局部特征描述较好地捕捉了人体的外观和运动信息,局部保留投影的方法更好地保留了所包含的局部信息;分层模型所生成的人体行为描述获得了优于其他方法的识别效果。