自然场景视频人体行为识别关键技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:qrdao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景视频中的人体行为识别问题是计算机视觉研究领域的重要课题之一,在视觉监控、视频检索、人机交互以及人体运动分析等诸多领域中都具有十分广泛的应用前景。本文将在局部特征描述以及动作识别领域所取得研究成果的基础之上,通过建立时空结构化模型,进一步探索更具表达能力、更适合运动描述的局部特征与全局特征相结合的方法。该研究工作主要以提高识别算法的精度和计算速度为目标,并且能够立足于各种不同的运用背景,构建适合各种不同运用需求的模型结构、参数学习算法以及检测定位算法,最终实现对于人体行为的自动检测、分析与识别。本研究主要内容包括:  ⑴提出了一种新的复杂人体活动行为的识别模型及其双优化选择的学习算法与图像相比,视频的一个主要优点在于能够表现那些由多动作构成的具有一定时间结构的复杂人体活动行为,例如“三级跳”和“跳高”等。前人曾经(在隐含Markov模型和条件随机场等模型基础上)设计了一些算法,用来建模时间结构信息,但是这些算法要么不能表征大的类内变化,要么需要在有指导的条件下进行训练。为了克服这些算法所存在的缺点,本文提出了一种新的基于多隐含时间模型的识别算法。该算法利用具有固定帧数的视频片段来表征关键的运动事件,利用时间金字塔模型来描述视频片断内部的时间结构信息,并利用多模型组合来捕捉大的类内变化。为了在弱指导条件下学习模型参数,我们提出了一种新的双优化选择学习算法。该算法将各个训练视频所属的模型序号以及关键视频片段的起始帧全部设为隐含变量,然后利用隐含变量 SVM训练模型参数。在 Olympic Sports自然场景视频数据库上的实验结果表明了该识别算法的有效性。  ⑵提出了一种改进的隐含变量多类SVM学习算法,并成功应用于较多类人体动作识别多类人体动作识别是一个十分具有挑战性的问题。首先,更多动作类别通常包含更多的共有特征,因此更难以找到对于各类来说具有判别能力的关键运动模式;其次,更多类别通常需要收集更多视频来训练模型参数,因此学习算法必须对于大数据库具有可扩展性。为了更好解决这一问题,本文采用隐含结构模型,并提出了一种改进的隐含变量多类SVM学习算法。首先,与前人提出的隐含结构 SVM算法和最大边缘隐含条件随机场(MMHCRF)算法不同,本文算法直接求解包含一组线性不等式约束的对偶二次规划(QP)问题。其次,为了提高计算速度,本文提出一种改进的QP求解算法,在速度上取得了十分显著的提升。我们在两个大型的自然场景视频数据库(HMDB51和UCF50,分别包含51和50种人体动作)上测试该算法的分类性能。实验结果表明本文所提出的多类隐含变量SVM算法明显优于隐含变量SVM、隐含结构SVM和MMHCRF算法,能够获得较优的分类精度和运算速度,并在这两个数据库上获得当前最优识别率。  ⑶提出了一种基于逐帧检测、组合多检测算子与紧密点轨迹的人体自动跟踪改进算法在实际工程运用中,往往需要了解行为发生的时间以及空间位置,尤其是当视频中出现多人的时候。一种通常的做法是:首先提取不同人体的运动轨迹,然后识别各个人体所执行的行为。传统的目标跟踪算法需要首先在第一帧手动标出待跟踪区域,这样不仅影响到长时段跟踪的性能,而且限制了跟踪算法的广泛运用。为了克服这些缺点,我们设计了一种完全自动实现的人体跟踪算法。该算法包含以下两个步骤:首先在各帧内进行人体检测和定位,得到人体窗口;然后对各帧内的检测窗口进行链接,形成多条人体轨迹。为了提高跟踪算法的性能,本文提出了以下几点改进之处。第一,我们使用了多个人体检测算子,这些算子检测不同的人体部分,因此能够适应各种不同的人体姿势和遮挡情况。第二,我们采用级联检测算法和帧采样,来提高检测速度。第三,我们利用密集的点轨迹算法来计算两个检测窗口间的链接度,并使用凝聚聚类算法将各帧内的检测窗口链接起来。在TVHI两人交互动作自然场景视频数据库上的实验结果表明了本文所提出的全自动跟踪算法的有效性。  ⑷提出了一种新的基于人体跟踪轨迹的两人交互动作识别算法人际交往是人类生活的重要内容。本文关注对于人体之间交互动作的识别。首先研究两人之间的交互动作。因为对于识别具有关键作用的往往是人体之间的高阶特征,所以该问题是相当有难度的。本文设计了一种新的交互识别算法,该算法利用了时空结构化模型来建模这些高阶特征。该算法是建立在以上所提取的人体轨迹的基础之上,通过合并两个时间金字塔模型来表征人体间交互动作的时间变化模式,并利用一个距离变化字典来编码人体间相对距离的空间变化模式。为了在弱指导条件下学习模型参数,我们将各个训练视频中人体轨迹的序号以及关键视频片段的起始帧全部设为隐含变量,然后利用隐含变量SVM算法训练模型参数。在TVHI,UT-interaction和HMDB51数据库的七个两人交互动作类别上的实验结果表明了该识别算法的有效性。
其他文献
本文中采用的基于DCT的CF2C方法与传统的特征脸和PCA等方法相比识别效率相近,而CF2C方法是通过DCT变换把原始图像信息用较少的DCT系数来表示,从而大大地降低了计算量,增强了实
本文总结、归纳和吸取了国内外学者关于自动指纹识别领域中的研究成果,并且对自动指纹识别系统的每一过程进行了深入的研究,提出了一些新方法.其中,指纹图像预处理和指纹图像
模糊理论自诞生就受到了控制界的关注和重视,模糊控制技术在许多领域取得了飞速的发展,它能有效地利用专家知识和现场的操作经验来优化控制策略,因而广泛地应用于各种工程领域,特
Internet以惊人的速度在全球发展,正广泛渗透到人们生活的各个领域。然而,随之而来的网络安全问题,使人们在享受网络便利的同时,还要面对网络入侵的威胁。为了应对日益严峻的
嵌入式网络视频服务器完成的功能通常由两个部分组成,一个是实时视频图像的编码与传输,一个是现场状态的检测与控制。后一个功能的实现需要友好的用户界面,像越来越多的网络设备
随着列车行车速度的提高、行车密度的加大、高负荷的运输,对行车安全提出了更高的要求。为了消除国内目前列车运行所存在的安全隐患,同时也是为了实现无线电频率的有效使用,
为适应多媒体通信的快速发展对先进技术和标准化的需要,国际电信联盟(ITU)和国际标准化组织(ISO)共同制定了新一代国际视频编码标准H.264/AVC。在新标准中,采纳了一系列先进编码技
本论文主要包括以下主要内容:首先简要介绍了无线图像传输的现状及需求,接着对常用的图像压缩编码技术,例如DCT、小波变换、运动补偿等技术做了简单的介绍。基于上述章节分析的
作为一种无创性的医学影像技术,核磁共振成像(magnetic resonance imaging,MRI)近年来在医疗诊断和科学研究中的应用日益广泛,极大的推动了脑科学和认知神经科学等学科的发展。MRI
本文首先介绍了温室的发展历史和现今概况,总结了已有的温室环境控制技术并对温室环境控制的发展方向做了展望,然后总结了当前温室调控存在的问题,针对温室受到室外温度突变