论文部分内容阅读
人体行为识别属于一种交叉学科,涉及到视频处理、计算机视觉、机器学习、人工智能、模式识别以及认知科学等多元学科领域的知识,为当前最具发展潜力且最活跃的研究方向之一;其研究成果在安防监控、智能家庭、人机交互以及虚拟现实等众多领域都得到了切实应用,具有深远的学术研究意义和可观的应用前景。
本文以模式识别、机器学习等理论为依据,将全景成像技术与人体行为识别技术相结合,在不影响成像效果的基础上,最大限度扩展观察范围,针对人体行为识别中运动目标检测、行为表征及分类器设计等关键技术开展一系列创新性的研究与实验。依据全景图像的不同展开形式,提出分别适用于全局监控和多方位局部监控的人体行为识别方法,并对人体基本行为进行测试,均能够获得较好的识别效果。本文的主要研究内容如下:
1)提出两种分别适用于全局监控和局部监控的鱼眼图像展开方法。首先利用基于球面投影模型的经纬映射方法,通过调整经纬映射范围进行展开,得到一幅全局展开图像,在世界坐标系到球面经纬坐标系的映射阶段,将成像面从初始的赤道面向北极方向平移到某个特定的纬度圈所在的平面,能够有效改善上边缘的图像质量;其次采用基于球面投影模型的五面体映射方法,在球面坐标系下通过控制映射角度将原图像展开成五幅不同方位的局部子图像。实验结果表明,两种展开方法均能够保证在边缘信息不损失的情况下得到符合人眼观察习惯的矩形图像,同时也能够解决鱼眼图像的固有畸变对行为特征表征及识别干扰较大的问题,满足实时性要求。
2)提出一种基于超像素时空特征融合的运动目标检测方法,能够实现复杂环境下运动目标的准确检测,为后续特征提取及分类算法提供可靠的预处理结果。首先利用线性迭代聚类算法(SimpleLinearIterativeClustering,SLIC)生成超像素图像,能够弥补目标整体结构信息丢失及检测精度低等缺陷,在保证目标完整性的同时降低图像特征的维度;然后提取颜色梯度和运动梯度特征构建超像素级时空梯度图;用平均加权测地距离来衡量时空梯度图上每一个超像素相对于其邻域的时空显著程度,形成时空显著图;之后根据目标在时间域上的运动连续性,借助熵的概念来表征运动模式的一致程度,构建运动一致图;最后融合时空显著图和运动一致图,并通过自适应阈值处理定位运动目标。该算法在SegtrackV2、ViSal、FBMS和DAVIS四种数据库上进行测试,从可视化分析和定量评估两个方面与其他相关算法比较,结果表明所提方法具有较强的抗环境干扰能力,适用于背景纹理复杂或环境随机变化的视频中运动目标的检测。
3)提出一种基于空间-时间域特征决策级融合的行为识别方法,在将全景图像全局展开的前提下,实现少量样本条件下的行为识别。首先在空间域提取人体轮廓的形状上下文特征,在采样点匹配环节提出一种基于自适应分块的金字塔匹配核算法,从而解决原始形状上下文特征易产生维数灾难的问题,提高匹配精度;其次在时间域用变化的空间特征序列表征运动特征;然后利用动态时间规划算法分别对两种特征序列进行识别,并引入一种基于椭圆边界约束的搜索策略,有效缩减最优路径的搜索空间,同时抑制病态路径的出现;最后利用加权平均法将空间域和时间域的识别结果进行决策级融合,得到最终的识别结果。该算法在KTH、Weizmann以及UCF50三种行为数据集上进行测试,实验结果证明融合时空域特征的行为识别方法,能够显著增强单一特征的鲁棒性,并取得较好的识别结果。
4)提出一种基于迁移学习的SVM/HMM分层判别模型的人体行为识别方法,在全景图像局部展开的基础上,实现跨视角下的人体行为识别。首先提取视频的时空特征点,并计算形状-运动上下文描述子,通过聚类方法提取视频关键帧;然后以不同视角下每一关键帧的视觉单词为节点,异源单词之间的关联度为连接权值建立二分图,通过奇异值分解将不同视角下描述同一种姿态的视觉单词共同映射到同一个跨视角视觉单词中,得到跨视角视觉词袋(Cross-ViewBagsofVisualWords,CVBoVW)特征;之后利用CVBoVW特征为每一种关键姿态训练一个与视角无关的SVM分类器,再利用HMM对这些SVM进行时序关系建模,能够弥补以往只利用视觉词袋特征来描述视频时时序特征丢失的缺陷;最后将DTW的搜索策略引入Viterbi算法进行识别,缩小Viterbi算法的搜索空间。在IXMAS及N-UCLA多视角行为数据库和自拍摄行为库上进行测试,来证明本文算法的鲁棒性及优越性,能够有效解决不同视角下行为表征模型迁移学习性较差的问题。
综上,本文以全景视觉系统为研究平台,针对目前人体行为识别技术中存在的问题及缺陷提出相应的解决与改进方案,具有一定的潜在应用价值。
本文以模式识别、机器学习等理论为依据,将全景成像技术与人体行为识别技术相结合,在不影响成像效果的基础上,最大限度扩展观察范围,针对人体行为识别中运动目标检测、行为表征及分类器设计等关键技术开展一系列创新性的研究与实验。依据全景图像的不同展开形式,提出分别适用于全局监控和多方位局部监控的人体行为识别方法,并对人体基本行为进行测试,均能够获得较好的识别效果。本文的主要研究内容如下:
1)提出两种分别适用于全局监控和局部监控的鱼眼图像展开方法。首先利用基于球面投影模型的经纬映射方法,通过调整经纬映射范围进行展开,得到一幅全局展开图像,在世界坐标系到球面经纬坐标系的映射阶段,将成像面从初始的赤道面向北极方向平移到某个特定的纬度圈所在的平面,能够有效改善上边缘的图像质量;其次采用基于球面投影模型的五面体映射方法,在球面坐标系下通过控制映射角度将原图像展开成五幅不同方位的局部子图像。实验结果表明,两种展开方法均能够保证在边缘信息不损失的情况下得到符合人眼观察习惯的矩形图像,同时也能够解决鱼眼图像的固有畸变对行为特征表征及识别干扰较大的问题,满足实时性要求。
2)提出一种基于超像素时空特征融合的运动目标检测方法,能够实现复杂环境下运动目标的准确检测,为后续特征提取及分类算法提供可靠的预处理结果。首先利用线性迭代聚类算法(SimpleLinearIterativeClustering,SLIC)生成超像素图像,能够弥补目标整体结构信息丢失及检测精度低等缺陷,在保证目标完整性的同时降低图像特征的维度;然后提取颜色梯度和运动梯度特征构建超像素级时空梯度图;用平均加权测地距离来衡量时空梯度图上每一个超像素相对于其邻域的时空显著程度,形成时空显著图;之后根据目标在时间域上的运动连续性,借助熵的概念来表征运动模式的一致程度,构建运动一致图;最后融合时空显著图和运动一致图,并通过自适应阈值处理定位运动目标。该算法在SegtrackV2、ViSal、FBMS和DAVIS四种数据库上进行测试,从可视化分析和定量评估两个方面与其他相关算法比较,结果表明所提方法具有较强的抗环境干扰能力,适用于背景纹理复杂或环境随机变化的视频中运动目标的检测。
3)提出一种基于空间-时间域特征决策级融合的行为识别方法,在将全景图像全局展开的前提下,实现少量样本条件下的行为识别。首先在空间域提取人体轮廓的形状上下文特征,在采样点匹配环节提出一种基于自适应分块的金字塔匹配核算法,从而解决原始形状上下文特征易产生维数灾难的问题,提高匹配精度;其次在时间域用变化的空间特征序列表征运动特征;然后利用动态时间规划算法分别对两种特征序列进行识别,并引入一种基于椭圆边界约束的搜索策略,有效缩减最优路径的搜索空间,同时抑制病态路径的出现;最后利用加权平均法将空间域和时间域的识别结果进行决策级融合,得到最终的识别结果。该算法在KTH、Weizmann以及UCF50三种行为数据集上进行测试,实验结果证明融合时空域特征的行为识别方法,能够显著增强单一特征的鲁棒性,并取得较好的识别结果。
4)提出一种基于迁移学习的SVM/HMM分层判别模型的人体行为识别方法,在全景图像局部展开的基础上,实现跨视角下的人体行为识别。首先提取视频的时空特征点,并计算形状-运动上下文描述子,通过聚类方法提取视频关键帧;然后以不同视角下每一关键帧的视觉单词为节点,异源单词之间的关联度为连接权值建立二分图,通过奇异值分解将不同视角下描述同一种姿态的视觉单词共同映射到同一个跨视角视觉单词中,得到跨视角视觉词袋(Cross-ViewBagsofVisualWords,CVBoVW)特征;之后利用CVBoVW特征为每一种关键姿态训练一个与视角无关的SVM分类器,再利用HMM对这些SVM进行时序关系建模,能够弥补以往只利用视觉词袋特征来描述视频时时序特征丢失的缺陷;最后将DTW的搜索策略引入Viterbi算法进行识别,缩小Viterbi算法的搜索空间。在IXMAS及N-UCLA多视角行为数据库和自拍摄行为库上进行测试,来证明本文算法的鲁棒性及优越性,能够有效解决不同视角下行为表征模型迁移学习性较差的问题。
综上,本文以全景视觉系统为研究平台,针对目前人体行为识别技术中存在的问题及缺陷提出相应的解决与改进方案,具有一定的潜在应用价值。