基于深度学习的人体行为识别方法研究

来源 :厦门大学 | 被引量 : 1次 | 上传用户:flw00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体行为识别是指根据给定视频,利用机器学习和计算机视觉中各种方法自动分析视频中人的行为动作类别。行为识别容易受视频复杂背景、光照变化、行为人完成动作的速度、视角变化和部分遮挡等因素的影响,导致行为动作的类间与类内的模式变化大,使得人体行为识别成为目标识别中的难题,也是当前计算机视觉领域中的研究热点。人体行为识别的研究成果可以应用于智能视频监控、视频检索、人机交互等领域。因此,开展视频中人体行为识别的研究具有重大的理论意义和广泛的应用前景。本文在综述视频中人体行为识别技术的基础上,将当前人体行为识别方法分为基于人工设计特征的识别方法和基于深度学习的识别方法。针对深度卷积神经网络参数多、难以处理长时序运动特征等问题,开展了基于全卷积神经网络的行为识别、基于循环神经网络的行为识别和基于类残差循环神经网络的行为识别的研究。本文的主要研究工作和创新点如下:1、针对将图像领域中的卷积神经网络(ConvolutionalNeuralNetwork,CNN)扩展到视频中的行为识别存在网络参数多、训练样本不足的问题,提出了由卷积层和池化层组成的全卷积神经网络。网络最后的最大值池化层采用步长为7、尺度为7X7的池化核。大步长和大尺度池化核的池化操作能有效压缩网络输出特征向量的维度,同时也能有效保留视频的表观信息和位置信息。在双支流特征融合阶段,通过线性加权的方法融合两条支流中对应像素点的表观和位置特征,有利于算法识别准确率的提升。针对特征编码方法丢失视频时序特征的问题,提出了时序金字塔池化方法融合不同帧数的帧特征,得到统一维度的视频特征描述子。在UCF101和HMDB51数据集上实验对比了 FV(Fisher Vector,FV)编码,VLAD(Vector of Locally Aggregated Descriptors,VLAD)编码和时序金字塔池化方法的识别性能,验证了时序金字塔池化方法能够保留部分时序信息,提升了算法的识别准确率。2、在基于视频的人体行为识别中,视频的表观特征和长时序运动特征的获取是关键,同时也是难点。针对当前基于人工设计特征方法和卷积神经网络方法难以提取到长时序运动信息的不足,提出了一种循环混合网络的人体行为识别方法。循环混合网络融合了多源特征信息:双支流CNNs学习视频帧图像的高层语义特征、双支流单层LSTM(LongShort-Term Memory,LSTM)网络学习视频的长时序运行特征和iDT(improved Dense Trajectories,iDT)支流描述短时序运动特征。为了缓和在小规模数据集上训练深度神经网络的过拟合现象,设计了视频扩增方法增加训练集中的视频样本数目。同时在训练循环混合网络时,采用分步骤训练CNNs和LSTM,避免同时训练两个网络模型参数过多的问题。提出的pi-LSTMs(poolinginputLSTMs,pi-LSTMs)模型能够有效捕捉到长时序运动信息。通过池化相邻视频帧特征和特征归一化处理方法,有效提升了算法的鲁棒性。在HMDB51和UCF101两个常用行为识别数据集上的实验结果表明提出的行为识别方法达到了当前业界最佳水平。3、循环神经网络能有效处理长时序信息,特别是在文本、语音信息的处理方面取得了很好的效果。但在基于循环神经网络的行为识别方法中,深度循环神经网络在现有行为识别数据集中容易出现过拟合现象,识别准确率低于基于人工设计特征方法。而浅层循环神经网络又存在难以学习到具有丰富语义的行为识别特征等问题。为了提升循环神经网络学习语义特征的能力,将残差学习方法引入到循环神经网络中,提出了类残差循环神经网络,使网络的隐含层数目增加到中等规模(3~4层)。相比于浅层循环神经网络,类残差循环神经网络可以学习到更加丰富的语义特征。在残差循环神经网络的设计中,研究发现标准深度残差网络中信号的连接方法在循环神经网络中并不适用。提出把循环神经网络的输入特征分别加入到各个隐含层,这种类残差连接方式更适合于循环神经网络的行为识别特征学习。最后,输入类残差循环神经网络和人工设计特征iDT模型的融合,提升了模型的行为识别准确率。在UCF101和HMDB51两个数据集上的实验结果表明提出的神经网络特征与iDT特征对行为识别具有很强的互补性。综上所述,本文从深度学习模型中网络参数过多、训练数据集样本不足等问题出发,提出了基于全卷积神经网络的人体行为识别方法。然后,提出了循环混合网络用于长时序运动特征的学习。最后针对浅层循环神经网络学习的语义特征不丰富的问题,提出了基于类残差循环神经网络的人体行为识别方法。在UCF101和HMDB51两个行为识别数据集上的实验结果表明本文提出方法能有效学习到视频的具有丰富语义的长时序运动行为特征,提高了行为识别的性能,促进了人体行为识别技术不断向前发展。
其他文献
日本思想家竹内好曾经这样评价冈仓天心:“天心是一位难以定论的思想家,在某种意义上说,又是一位危险的思想家。”的确,作为亚洲言说者的冈仓天心,出版了《东洋的理想》(The Ideals of the East,1901-1902)、《东洋的觉醒》(The Awaking of the East,1903)、《日本的觉醒》(The Awaking of the Japan,1904)以及《茶之书》(T
证言知识论是当代知识论中极为重要的研究领域,如今许多有关知识的讨论都不得不涉及对证言的考察。因为在现实中,每个人的大部分知识来自于他人的证言,通过证言获得知识是非常普遍的现象。然而人们究竟如何通过证言而形成知识?或者证言是如何得到确证或辩护的?这一问题是证言知识论的核心问题。本文就是围绕着这一问题而展开。本文主要分为两大部分:第一部分集中于对已有确证理论的分析,并指出它们的不足;在第二部分中,在重
十九世纪后半叶以来基督教传入生活在中国西南及东南亚北部地区的众多跨境族群中,致使群体性皈依基督教之现象频繁出现。其中傈僳人受基督教影响之大,在中国境内少数族群中或在中国西南及东南亚北部地区皆为典型。云南傈僳人基督教信仰之源头,最先群体性皈依基督教的滇西南花傈僳人即为本文的研究对象。做为清王朝统治资源的一部分,滇西花傈僳人得以聚居在临近中、缅贸易通道的高地,在二十世纪初内地会传教士成为滇西以中、缅贸
氮化物发光二极管(Light emitting diodes,.LED)在21世纪初取得了重大的突破,在通用照明领域取得了广泛应用,并逐渐取代白炽灯和日光灯,成为节能环保的利器。目前制约InGaN基LED在大功率领域应用的一个重要因素为大电流注入下的效率衰减(Efficiencydroop)现象。虽然有许多物理机制试图解释该现象,但由于缺乏直接观测手段,该问题的物理起源仍存在争议。高A1组分AlG
陈太宗是越南陈朝开国皇帝,不仅被认为是一位“宽仁大度,有帝王之量”君主,同时也是越南第十三世纪著名的佛学思想家。本文以陈太宗所著之《课虚录》为主要文本,对陈太宗佛学思想进行全面而系统地深入探讨研究,梳理并概括陈太宗佛学思想之主要内容。除了绪论和结语之外,正文分为四章,另有两个附录列于最后。在概述陈太宗的时代、生平、佛学著述以及海内外学界对陈太宗佛学思想的研究动态之后,从体、相、用三个角度来阐述其“
神经机器翻译是采用端到端深度学习框架进行机器翻译的方法。近几年来,神经机器翻译取得了飞速的进展以及巨大的成功。由于神经机器翻译能够更好地建模长距离依赖关系,它已经取代了传统的统计机器翻译,成为了目前学术界和工业界最佳的机器翻译方法。主流的神经机器翻译模型一般使用词级别的序列来编码句子。然而,对于神经机器翻译的编码而言,这可能不是最佳选择,尤其是针对拥有歧义切分的语言而言。一方面,切分错误可能对神经
目前,随着人们对海洋深入探索的需求不断增加,对于水下通信系统传输信息的需求大大增加,且对水下通信系统传输信息可靠性的要求越来越高。然而由于水声信道(UnderwaterAcoustic Channel,UAC)存在复杂多变的强多径、严重的多普勒效应和噪声干扰,会引起传输信号的畸变,所以需要对水声信道产生的影响进行补偿,以增强水声系统的鲁棒性。本文主要是对基于水声正交频分复用(Orthogonal
随着互联网信息时代的到来,电子信息已经成为当今社会沟通与交流的主要载体。在这种环境和现实需求下,对电子信息的数字签名也开始变得尤为重要。数字签名技术由于具有身份认证性、数据完整性、不可抵赖性等等优势,使得它在信息安全领域扮演着重要角色。数字签名也随着用户的具体需求而产生各种特殊签名。比如代理签名方案是原始签名者因某种原因不能签名而将签名权利委托给代理签名者的数字签名方案。环签名方案是签名者想要达到
在很多应用场景中,无线传感器网络监测目标的相关信息需要不断地从网络中的源节点发送给汇聚节点,并且需要在网络中保持匿名,以达到网络安全和监测目标安全的目的。因此,源节点位置隐私保护是无线传感器网络领域中的一个重要研究课题,基于不同的敌手攻击模型,研究人员已经设计了多种源节点隐私保护方案。为了进一步提高源节点隐私保护效果并降低网络能量消耗,在本文中,我们提出了基于秘密共享的全方位源节点隐私保护方案(S
随着数字多媒体技术的发展,各种视频处理工具日渐普及。借助于这些视频处理工具,人们可以很方便地对视频进行编辑或对视频内容进行篡改,如果这种被篡改的视频被非法使用,其后果甚至会影响社会稳定。因此,如何对数字视频进行真实性和完整性的鉴定,已经成为当前多媒体信息安全领域中极为重要的研究课题之一。与数字图像相比,数字视频数据的海量、高维、非线性等特点给视频篡改取证技术研究带来更大的挑战。尽管国内外已有不少学