人体运动数据识别与实时标注的研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:wuxingyu0406
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人体运动捕获设备的发展和普及,以及深度摄像机在室内交互应用中的快速发展,人体运动识别与标注及相关技术在动画制作、电影特效以及交互娱乐等多项领域中发挥了越来越重要的作用。一方面随着运动捕获设备的平民化和便携化,运动数据的应用领域也由原先很强的专业性逐渐向大众化、平民化转变;另一方面,随着深度摄像机在视频监控等领域中的普及,运动识别算法的能力得到了巨大提升,因此其面向的主体也由简单的单人运动向复杂的多人交互运动转变;此外,近年来采集的运动数据数量也呈现爆发式的增长,带来了海量数据下的新挑战。因此,对于本文关注的人体运动数据识别与实时标注这一课题,其相关研究工作目前主要集中在四个方向:一是人机交互应用中的快速运动识别与标注,二是监控场景下的复杂多人交互运动识别,三是在海量运动数据中进行相似运动的快速检索,四是解决海量运动数据存储的有效压缩方法。  本文围绕由运动特征到运动识别这一主线,针对目前相关方向中面临的主要问题,从基础的特征提取,至基于特征的实时识别、面向海量运动数据的快速检索,到多人交互识别这一挑战性问题,最后是面向海量运动数据的有效压缩,自下而上、分门别类进行相关研究,对每个领域中的重点和难点问题均提出了相应的算法和解决方案,主要工作包括:  首先,特征是人体运动识别的基础,本文针对目前已有三维人体运动特征的不足,设计并提出了两种三维人体运动语义特征,可在运动类别语义层面对人体运动进行有效描述。  提出了一种基于高斯混合模型的三维人体运动语义特征。该特征基于预处理后的训练数据集,利用高斯混合模型建立关键姿态模型,生成概率姿态特征,可在语义层面对运动序列所属类别进行描述。实验结果表明,该类语义特征具有良好的区分度,且避免了运动匹配中的复杂计算,在一般的运动识别应用中可以满足实时性需求。  提出了一种基于半监督学习高斯混合模型的三维人体运动语义特征。该特征针对上述语义特征具有的特征维数较高,存在一定冗余,并且由于训练方法是无监督的,生成的关键姿态与实际观察结果并不完全相符的缺点,进行了有针对性的改进。我们对运动数据集进行分析,指定了一系列关键姿态,并对数据集进行了部分标注,采用半监督学习高斯混合模型进行训练,有效提高生成的关键姿态模型的准确度。全部数据集采用统一的关键姿态模型,因此可有效减少冗余。  接着,面向交互娱乐等实时结果反馈的需求,提出了一种自动在线标注方法,可对实时采集(由深度摄像机或传统运动捕获设备)的人体运动进行实时标注。该方法基于上述运动姿态语义特征,通过将运动序列转化为运动字串,并提出一种字串匹配算法,有效解决了新研究方向中的运动序列匹配这一难点问题。通过数据结构优化,最终实现在线实时标注的目标,获得了较高的识别准确率,并可有效避免时域错位的问题。  随后,提出了一种面向海量人体运动数据的检索方法。该方法同样基于上述运动语义特征,由于该特征可在语义粒度对运动进行描述,并采用概率模型可轻易转化为序列粒度特征,并且计算简单,因此十分适合用作海量人体运动的快速检索。而在检索过程中提出的基于稀疏表达的检索策略,也使得检索效果有很大的提升。  接下来,面向更具挑战的多人交互场景,提出了一种多人交互运动识别体系。该方法包括一种针对交互运动的IGPF特征,填补了目前交互运动特征的空白;BFFC模型,可动态调节不同身体部位组合的权重,并与深度特征一起进行融合,生成的分类器组合可有效减少遮挡带来的影响,并提高识别准确率;交互判定条件,包括四种运动学特征,通过训练分类器对多人运动进行交互检测。本方法在深度摄像机不断普及的今天,首次将多人交互识别这一难题在深度视频环境下给出了解决方案,有效克服了传统RGB视频环境下多人交互识别的多项困难。  最后,面向海量人体运动数据的存储难题,提出了一种高效的有损人体运动数据压缩方法。该方法基于稀疏表达和字典优化,可在保持原始运动数据的完整性,还原后控制重建误差在肉眼不易分辨的范围内的同时,对人体运动数据获得较高的压缩比。此外,由于本章压缩算法不需要数据驱动,因此是一个轻量级的算法,可压缩多种类型的运动数据,适用于各种场合;并且对于增量运动数据库、新增类型运动数据均能有效适应,无需重复训练和重复计算。
其他文献
片上多处理器(CMP)是当前主流的微处理器体系结构,它利用现有的海量晶体管资源在单个芯片上集成多个处理器核,通过多核并行执行的方式开发指令级和线程级等各个层面的并行度来
当计算机网络应用的日益普及,伴随而来的是一系列的网络安全问题,入侵检测技术作为一种主动的信息安全保障措施,备受关注。 本文首先以网络安全为基础,介绍了入侵检测的概念、
Petri网提供了一种以图形和数学为基础的形式化建模方法。现在它已经成为建模和分析工业系统的成熟工具,其应用领域也越来越广泛,涉及到工作流管理,软件工程,并发程序设计,异步电
P2P是由若干互相对等的网络结点组成的一种网络结构,其中每个网络节点称为对等点,对等点消除了服务器和客户端间的角色差别,通过它们之间的信息直接交换完成计算和信息的共享.JX
压缩感知理论是近几年兴起来的一门新的信号采样理论,它打破了传统信号采样理论在采样频率方面的限制,引起了学术界的巨大轰动。传统信号采样理论包含了四个方面的内容:采样、
随着国际化交流日益频繁,多语人才的需求越来越迫切,口语测试的普及率、公平性受到广泛关注。面对传统的口语测试所带来的时空受限、组织成本高、评估主观性强、反馈信息单一等
本文是基于机器学习中的局部加权学习(Locally Weighted Learning,简称LWL)进行了深入的研究,这种学习方法既可用于回归问题(局部加权线性回归),又可用于分类问题(局部加权朴素
在传统的客户机/服务器(Client/Server,C/S)体系架构的企业应用系统开发中,数据一般存放在服务器上,应用程序一般存放在客户端计算机上。这样的系统虽然解决了数据共享等问题,但
数据压缩技术是多媒体领域的重要研究方向之一。由于多媒体数据量非常巨大,海量多媒体数据的存储和传输成为多媒体应用所面临的主要问题。通过使用数据压缩技术,对多媒体数据进
网络流量监测对于网络流量计费、资源规划、流量控制和流量工程等至关重要。随着Internet的快速发展,带宽不断增加,高速链路对实时网络流量监测提出挑战。由于监测设备软硬件性