论文部分内容阅读
人物动作识别是计算机视觉领域最基础和最活跃的研究主题之一。局部特征在视觉识别领域表现出越来越高的效率,基于时空局部特征的局部表征方法在人物动作识别问题中享有极大的流行度。局部表征方法易于使用以及计算高效,它们能应对许多全局表征方法和深度学习方法无法处理的应用场景。词袋模型(BOW, Bag-of-Words)是人物动作识别领域中最常用的局部表征方法。
应用词袋模型的关键步骤是使用传统聚类算法构建视觉词汇表。然而,传统聚类算法存在一些局限性。首先,局部特征点与聚类中心之间成对距离的计算或特征点之间成对相似度的计算均要求较高的计算复杂度,使得传统聚类算法无法处理具有大规模局部特征点的动作识别问题。其次,进行特征点欠采样以降低传统聚类算法计算复杂度的折衷做法可能会导致关键特征点的丢失。最后,传统聚类算法在构建BOW向量时所使用的聚类中心硬分配策略只将每个特征点分配给一个聚类中心,影响了词袋模型的泛化性能。这些传统聚类算法的局限性促使本文提出基于深度聚类算法的词袋模型,为人物动作识别任务构建更好的BOW向量。
本文提出了一种高效的深度聚类算法,双堆叠自编码特征嵌入正则聚类(mDAF-DEPICT, Deep Embedded Regularized Clustering with Modified Dual Autoencoders Features)算法,以及一种基于mDAF-DEPICT算法的词袋模型(BOW-mDAF-DEPICT,BOW model basedonmDAF-DEPICT)。mDAF-DEPICT算法首先将原始的视频序列局部特征点映射到新的特征空间产生新表征,然后为新表征预测聚类中心分配概率。BOW-mDAF-DEPICT模型使用mDAF-DEPICT算法产生的概率为视频序列构建BOW向量。本文在两个人物动作识别基准数据集上评估了提出的BOW-mDAF-DEPICT模型的有效性。BOW-mDAF-DEPICT模型用更少的计算复杂度取得了比基于传统聚类算法的词袋模型更好的性能。端到端联合训练比贪心式逐层训练更适合用于学习mDAF-DEPICT算法的参数。相比于聚类中心硬分配策略,聚类中心软分配策略能够极大地提升BOW-mDAF-DEPICT模型的性能。实验结果显示了本文提出的BOW-mDAF-DEPICT模型在动作识别领域良好的使用价值。
应用词袋模型的关键步骤是使用传统聚类算法构建视觉词汇表。然而,传统聚类算法存在一些局限性。首先,局部特征点与聚类中心之间成对距离的计算或特征点之间成对相似度的计算均要求较高的计算复杂度,使得传统聚类算法无法处理具有大规模局部特征点的动作识别问题。其次,进行特征点欠采样以降低传统聚类算法计算复杂度的折衷做法可能会导致关键特征点的丢失。最后,传统聚类算法在构建BOW向量时所使用的聚类中心硬分配策略只将每个特征点分配给一个聚类中心,影响了词袋模型的泛化性能。这些传统聚类算法的局限性促使本文提出基于深度聚类算法的词袋模型,为人物动作识别任务构建更好的BOW向量。
本文提出了一种高效的深度聚类算法,双堆叠自编码特征嵌入正则聚类(mDAF-DEPICT, Deep Embedded Regularized Clustering with Modified Dual Autoencoders Features)算法,以及一种基于mDAF-DEPICT算法的词袋模型(BOW-mDAF-DEPICT,BOW model basedonmDAF-DEPICT)。mDAF-DEPICT算法首先将原始的视频序列局部特征点映射到新的特征空间产生新表征,然后为新表征预测聚类中心分配概率。BOW-mDAF-DEPICT模型使用mDAF-DEPICT算法产生的概率为视频序列构建BOW向量。本文在两个人物动作识别基准数据集上评估了提出的BOW-mDAF-DEPICT模型的有效性。BOW-mDAF-DEPICT模型用更少的计算复杂度取得了比基于传统聚类算法的词袋模型更好的性能。端到端联合训练比贪心式逐层训练更适合用于学习mDAF-DEPICT算法的参数。相比于聚类中心硬分配策略,聚类中心软分配策略能够极大地提升BOW-mDAF-DEPICT模型的性能。实验结果显示了本文提出的BOW-mDAF-DEPICT模型在动作识别领域良好的使用价值。