基于深度聚类的局部表征方法及其在动作识别中的应用研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:nannalee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人物动作识别是计算机视觉领域最基础和最活跃的研究主题之一。局部特征在视觉识别领域表现出越来越高的效率,基于时空局部特征的局部表征方法在人物动作识别问题中享有极大的流行度。局部表征方法易于使用以及计算高效,它们能应对许多全局表征方法和深度学习方法无法处理的应用场景。词袋模型(BOW, Bag-of-Words)是人物动作识别领域中最常用的局部表征方法。
  应用词袋模型的关键步骤是使用传统聚类算法构建视觉词汇表。然而,传统聚类算法存在一些局限性。首先,局部特征点与聚类中心之间成对距离的计算或特征点之间成对相似度的计算均要求较高的计算复杂度,使得传统聚类算法无法处理具有大规模局部特征点的动作识别问题。其次,进行特征点欠采样以降低传统聚类算法计算复杂度的折衷做法可能会导致关键特征点的丢失。最后,传统聚类算法在构建BOW向量时所使用的聚类中心硬分配策略只将每个特征点分配给一个聚类中心,影响了词袋模型的泛化性能。这些传统聚类算法的局限性促使本文提出基于深度聚类算法的词袋模型,为人物动作识别任务构建更好的BOW向量。
  本文提出了一种高效的深度聚类算法,双堆叠自编码特征嵌入正则聚类(mDAF-DEPICT, Deep Embedded Regularized Clustering with Modified Dual Autoencoders Features)算法,以及一种基于mDAF-DEPICT算法的词袋模型(BOW-mDAF-DEPICT,BOW model basedonmDAF-DEPICT)。mDAF-DEPICT算法首先将原始的视频序列局部特征点映射到新的特征空间产生新表征,然后为新表征预测聚类中心分配概率。BOW-mDAF-DEPICT模型使用mDAF-DEPICT算法产生的概率为视频序列构建BOW向量。本文在两个人物动作识别基准数据集上评估了提出的BOW-mDAF-DEPICT模型的有效性。BOW-mDAF-DEPICT模型用更少的计算复杂度取得了比基于传统聚类算法的词袋模型更好的性能。端到端联合训练比贪心式逐层训练更适合用于学习mDAF-DEPICT算法的参数。相比于聚类中心硬分配策略,聚类中心软分配策略能够极大地提升BOW-mDAF-DEPICT模型的性能。实验结果显示了本文提出的BOW-mDAF-DEPICT模型在动作识别领域良好的使用价值。
其他文献
社会情境中正确理解他人的意图有助于人际互动和社会适应。过去十年来,关于意图理解认知神经机制的研究很多,但是直接将私人与社会性(交际)的运动意图的认知神经机制相对比的研究比较少。为了探究该问题,本研究记录了16名健康被试完成三种不同的意图理解任务时的脑电反应。三种实验任务分别为:1)理解以自我为导向的私人意图;2)理解以他人为导向的交际意图;3)理解以物体为导向的物理意图。神经电生理学结果表明在大脑
随着博弈与控制交叉学科的兴起,博弈论受到了控制领域的广泛关注。基于博弈方法的控制论在多智能体的协同控制、武器分配、电力系统的经济调度等方面得到了广泛应用。然而,利用博弈理论解决控制问题的前提是对博弈系统性质的深入了解,因此对有限博弈的结构性质与演化动态的分析是很有必要的。本文主要以矩阵的半张量积为工具,基于代数状态空间方法,研究有限博弈正交分解、博弈设计、演化动态以及在武器-目标分配问题上的应用。
学位
正系统是一类非负初始状态下系统状态和输出变量能保持非负的动态系统,它被广泛用于描述经济、生物、物理和化学工业等领域中的不同对象。在实际中,系统的动态演化常常呈现出状态的瞬变,即脉冲现象。本文将同时具有正性约束和脉冲效应的动态系统称为脉冲正系统,它包含正连续时间动态和正离散时间动态,具有典型的混杂特性和丰富的动态行为。因此,脉冲正系统的研究是一项富有理论价值和应用潜力、且极具挑战性的研究课题。鉴于此
学位
在全球化竞争时代,工程建造行业需要通过产业升级来改变生产效率不高、协作困难的现状,提升产业竞争力。“互联网+”行动计划的提出,正深刻影响着各行各业,也为工程建造行业的转型升级带来了契机。随着互联网平台经济的兴起,学者们意识到工程建造平台模式将成为实现工程建造行业转型升级的必然趋势。实现工程建造平台的先决条件包括工程建造服务化和工程建造服务虚拟化;在此基础上,工程建造表现为工程建造参与方提供的一系列
液压系统具有输出功率大、传动稳定性高、功率体积比大、调速范围宽、响应速度快等优点,广泛应用民用工业领域和军事工业领域。但是液压系统属于强非线性系统,伺服阀的非线性、液压缸的摩擦力以及时变的参数等因素加大了对液压系统控制的难度。因此,对液压系统高精度的研究具有重要的理论研究和工程应用价值。  本文针对液压系统非线性、参数时变性以及摩擦对控制系统性能的影响,提出了两种控制策略。  (1)基于非线性函数
学位
随着社会智能化的加速,电子设备中电路的集成规模和复杂度也随之变高,因此对电路测试提出更高的要求。模拟电路故障诊断作为电路测试领域研究的重点,自提出以来,取得了一定的研究成果,但由于电路元件存在容差性、非线性以及所提诊断模型难以量化等问题,模拟电路故障诊断技术仍存在提升空间。  本文将模拟电路的故障诊断方法作为研究核心,以缩短诊断时间、提高诊断精度和提升模型稳定性为目的,以信号处理技术为基础,对机器
学位
开关磁阻电机(SRM )主开关器件与相绕组串联,具有不存在直通短路的极高可靠性;其转子无绕组及永磁体,结构简单、坚固,成本低,易于冷却.S RM极高的安全性以及简单坚固的结构使其成为未来新能源汽车动力系统的首选.然而SRM自身的双凸极结构以及高度的磁饱和特性给电机带来了极强的非线性特性,使得对其进行建模变得非常困难,而且低速运行时较大的转矩脉动制约了新能源汽车的推广和使用.为了有效抑制转矩脉动,提
[db:内容简介]
[db:内容简介]
在虚拟现实的应用中,往往对真实性和沉浸感有着非常高的要求,用户在希望虚拟场景中的模型质量、场景外观、物理仿真等尽可能地接近现实场景的同时,也希望交互对象的行为和决策具有较高的真实性和合理性。本文结合人体建模技术和强化学习技术设计了一个虚拟乒乓球角色,使之与用户在HTCVIVE平台上进行乒乓球对打交互。对于一个虚拟乒乓球交互系统而言,沉浸感和真实性主要体现在两方面:其一,虚拟场景的真实程度,即乒乓球
学位