基于深度学习框架的动作识别研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:anlanyuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
动作识别是计算机视觉领域的重要研究课题,同时也是当前极具挑战性的热点问题。近几年来它更加引起了人们的注意力,它在自动视频分析、视频监控、运动事件分析、人机交互和虚拟现实等领域都有潜在的应用前景和市场。传统动作识别方法主要包括以下几个步骤:(1)局部特征提取和预处理;(2)特征池化与量化;(3)分类器训练和动作识别。在传统方法中,使用改进的密集轨迹局部特征(iDT)和费舍尔向量(Fisher vector)的方法是目前的主流方法,它在多个数据集上面取得领先性能。然而,改进密集轨迹特征存在许多问题,例如特征提取时间较慢、特征占空间太大、无法从数据中学习特征等。近年来,深度学习已经在语音、图像识别等领域出得了突破性进展,并且在多个领域对传统方法产生了性能的碾压。然而,在视频动作识别的领域中,深度学习方法进展缓慢,一直无法超越传统方法的性能。为了解决传统方法存在的众多问题,同时探索深度学习方法在动作识别领域的应用,本文提出使用深度学习框架进行动作识别的研究。基于深度学习框架以及动作识别的最新进展,本文提出两种动作识别框架:(1)局部特征与深度特征融合的动作识别方法;(2)卷积层特征池化的动作识别方法。前者充分利用局部特征包含丰富时间信息以及深度特征包含大量场景信息的特点,将两类特征进行融合用来提高动作识别的性能。后者直接在非常深的深度网络上提取卷积层特征并采用多种方式的池化,重新编码得到新的特征用于动作识别。相比较传统方法,本文提出的两种方法具有实现快速、特征占空间小、性能更高的优势,并且在多个公开数据集上面得到了性能验证。
其他文献
近年来,应用P2P模式解决流媒体服务系统的瓶颈问题受到越来越多的重视。如何能够在充分利用P2P网络中众多节点资源、处理能力的前提下,确保流媒体服务质量、提高播放的性能,
彩铃业务是个性化多彩回铃音业务(Color Ring Back Tone,CRBT)的简称,是一项由被叫用户定制,为主叫用户提供一段悦耳的音乐或一句问候语来替代普通回铃音的业务。自2003年中
随着教育信息化的不断发展,海量的网络教育资源既为教育带来了强大的服务功能,也为资源的建设与管理带来了新的挑战。如何将分散、无序的资源整合起来并吸引各类教育资源使用
随着互联网技术的飞速发展,网络已经成为人们工作、学习和生活中不可或缺的重要组成部分。互联网媒体已经成为名副其实的“第四媒体”,大量网络的新闻的出现虽然开阔了人们的
当代车辆数目逐步增多,车载网络呈现一种复杂性。目前,复杂网络已经变为各行各业的研究热点之一。将复杂网络应用到车载自组织网络中,这是一个挑战也是车载自组织网络研究的
合成孔径雷达(SAR)具有全天候、远距离、极强的穿透力和高分辨率等特点,在国民经济和军事领域中都有着广泛的应用。如何对SAR图像进行快速、准确地解译越来越引起人们的关注
即时消息业务用于在用户之间快速传递文本或多媒体信息,并能及时、有选择地向用户的联系人传递用户在线状态。近年来,即时消息业务发展迅速,不仅在互联网上积累了大量用户,在
在变电站自动化系统的发展过程中,由于缺少统一的电力规约,导致采用不同规约的设备之间进行互操作之前,要进行大量的规约转换工作,严重影响了变电站自动化系统的开发和运行的效率。为了解决这一问题,以实现设备互操作性为目标的IEC 61850标准被提出,并得到了广泛的研究和推广。本文首先介绍了IEC61850标准,包括IEC61850标准的组成、目的、系统结构、功能分解、信息模型、抽象通信服务接口(ACSI
彩铃业务是一项由被叫用户定制,为主叫用户提供一段悦耳的音乐或一句问候语来替代普通回铃音的业务。用户申请开通彩铃业务之后,可以自行设定个性化回铃音,在其做被叫时,为主
随着经济全球化,电子商务环境的竞争越来越激烈,人们必然会选择协商来解决利益冲突。利用agent自动协商技术可以替换人工协商费时、代价高、反应迟钝等缺点,有利于协商的效率