基于深度学习的视频中人体行为识别算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:mikewu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
行为识别是计算机视觉领域重要的课题之一,能够应用于安防监控、异常事件检测、视频信息分类与检索、人机交互等众多领域,因此拥有较为广泛的应用前景。在互联网上视频数据爆炸式增长的今天,如何有效地理解和分析视频数据至关重要。传统的人工特征提取方法在应对海量视频数据有诸多局限性,如何高效分析大规模视频数据的问题仍然有待解决。随着计算机硬件水平不断提高和深度学习的快速兴起,深度学习方法尤其是深度卷积神经网络被应用于各类计算机视觉任务中,并获得一系列显著的成果。目前虽然深度卷积神经网络能够在二维图像的检测识别等任务中有着优异的效果,但是在行为识别任务里表现一般。这是因为视频序列行为识别使用了复杂程度更高的三维时空信息。因此,如何在视频中使用卷积神经网络进行高效准确地识别人体行为具有重要的研究意义。本文分析了几种不同的行为识别算法中的特征提取方法,并重点阐述基于深度学习的特征提取方法。由于传统的2D卷积存在只处理单帧图像,导致损失了图像的时序信息的问题,3D卷积在特征提取时引入时间维度,在空间维度和时间维度上同时进行特征计算。尽管3D卷积神经网络比2D卷积神经网络更适用于视频分析,但是3D卷积在实际应用中存在诸多问题,例如3D卷积具有更多的参数,但缺少像2D卷积网络一样庞大的训练集,这导致3D卷积神经网络的识别效果不佳。因此,本文在SENet网络结构基础上提出了一种新的3D深度残差神经网络以解决这个问题。本文所提出的网络结构通过残差学习和加强层间的特征传递来减轻因为网络层数过深导致的模型退化,并能够在一定程度上减少参数。引入SENet的结构,通过显示建立通道间依赖来提高通道间的特征联系,从而提高了模型的表征能力。在实验中,本文在UCF-101行为数据集及HMDB-51行为数据集上进行实验。对于两个数据集中的视频样本截取连续16帧RGB图像作为输入,并通过随机裁剪等方法扩充数据集,采用端对端的训练过程得到行为分类器。实验结果表明改进的3D残差神经网络能够有效提高识别准确度。最后使用Kinetics数据集对模型进行预训练,在UCF-101数据集和HMDB-51数据集上都具有较为优异的识别效果,超过大部分仅使用RGB图像,没有使用外部计算光流图的行为识别算法。验证了本文提出的改进的3D深度残差神经网络的人体行为识别算法具有良好的有效性。
其他文献
目的:建立蒲薏颗粒的定性定量方法。方法:采用薄层色谱法对蒲薏颗粒中的何首乌、蒲公英、薏苡仁和灵芝进行定性鉴别;采用HPLC法对其何首乌中的大黄素进行含量测定。结果:在薄
湖南省长沙外国语学校是湖南省首家、长沙市唯一的一所国有公办、以外语为特色、坚持全面素质教育的示范性完全中学。学校于2011年由湖南省教育厅授牌“湖南省普通高中特色教
目的研究血管内皮生长因子(vascuar endpthelial growth factor,VEGF)在急性减压缺氧小鼠肺组织中的表达及意义。方法采用低压低氧动物实验舱分别模拟海拔6000 m和8000 m高原缺
随着科学技术、经济的高速发展,我们进入了信息时代。影视、计算机等高科技日新月异;各种新技术、新材料不断地涌现;社会呈现多元化,物质变得丰富多样。而时代的变迁,使艺术在
针对强震地区超高层钢结构抗震性能难以满足规范要求的问题,采用多装备混合减振系统提升结构的抗震性能。对常用减振装备的减振原理和减振特点进行了介绍,在此基础上提出了基
今天的西安城墙已经不再作为城市防御体系,而是作为珍贵的人文景观和文化遗产保留下来。1982年,西安被批准为首批历史文化名城,不仅局限在单个文物保护单位与历史遗迹层面上
代孕是人类辅助生殖方式的一种,是指妻子基于种种原因不能亲自怀孕,于是借用另一位女性的子宫妊娠为自己生育子女。代孕的临床应用不仅仅是一个医学问题。它的应用对人类生育
采用静态平衡差重法测定了齐墩果酸在超临界CO2中各个状态点的溶解度,考查了温度、压力、密度等因素对齐墩果酸在超临界CO2中溶解度的影响,并采用Chrastil模型对实验数据进行
土壤源热泵系统是建筑领域可再生能源利用的重要形式之一,该系统以大地作为建筑空调系统的冷热源,实现系统的节能运行。地埋管换热器换热性能的特殊性和较高的初投资,是制约
针对微型客车要满足行人下肢保护的问题,以某款微型客车为研究对象,采用CAE仿真技术建立了行人下肢-车辆碰撞有限元模型,通过LS-DYNA对模型进行了求解,根据结果对碰撞过程及