基于深度学习的连续行为识别方法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:t920215
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体行为识别作为计算机视觉、模式识别等相关领域的研究热点之一,在视频监控、智能安防、运动员辅助训练等方向都有着广阔的应用前景。以往行为识别的方法严重依赖剪切过的视频来训练模型(强监督单一行为识别),然而,数据量每日剧增,获取大规模准确整齐剪切的视频片断需要耗费大量的人力,不能满足当前海量数据应用场景下的需求,如何在没有准确划分行为动作的训练数据的情况下,对视频直接进行连续的行为识别(基于弱监督学习的行为识别)成为了国内外学者相继研究的重要课题。在人工智能迅速发展的时代背景下,深度学习取得了巨大进步,不少算法模型被纷纷应用到人体行为识别中,并取得了不错的成果。然而连续行为具有一定的复杂性,往往由多个动作组成,每个动作持续时间不定,因此对于连续行为别的研究还是具有一定的挑战性。目前基于深度学习的连续行为识别方法需要使用含时序标注或者剪切过的视频来训练模型算法,这些使得连续行为识别研究过度依赖于人工标注。基于这些原因,本文对基于深度学习的连续行为识别算法展开研究,主要工作如下:(1)提出了一种基于Sequence to Sequence(Seq2Seq)模型的连续行为识别方法,该方法利用了Seq2Seq模型。Seq2Seq是一种端到端的神经网络模型,适用于解决序列到序列的映射任务,正好适用于解决我们视频动作序列到标签序列的映射问题。该方法采用一个多层的Long Short-Term Memory(LSTM)网络将输入的动作序列进行编码为一个向量表达,再用另一个多层的LSTM网络将向量解码为输出的标签序列。该模型能够学习动作序列以及标签序列之间的映射关系,在Charades数据集上的实验验证,Seq2Seq模型可有效提高连续行为动作识别的正确率。(2)提出了一种基于Graph Convolutional Neural Network(GCN)的连续行为识别方法,该方法将未修剪视频中采样出的视频段(clip)提取特征,将每个clip实例化为GCN中的节点,clip之间的关系实例化为边进行建模,这样的网络模型既学习了每个clip的上下文信息,又学习到了每个clip之间的相关性。在clip提取特征之后,使用一个分类器来对每个clip进行行为识别,以及一个选择器来检测或排序重要的clip。通过对分类器和选择器输出的融合,进而产生视频级别的预测结果。实验证明,该算法模型提高了连续行为识别的准确性和效率。(3)在对算法进行理论分析和实验验证并得到了更高的准确率后,本文搭建并实现了一个基于浏览器/服务器(B/S)架构的行为识别系统平台,平台以作者收集的一些动作行为视频作为系统的输入,使用上述算法对视频进行测试,为视频中的动作标上标签,完成了行为识别的任务。
其他文献
蛋白质的结构多样性决定了其功能的多样性,预测蛋白质三维结构对疾病研究和药物开发都有着重要的意义。本文将运动学应用于蛋白质loop闭合问题,又将其扩展至控制蛋白质loop拓扑
在我国建设海洋强国的进程中,无人艇(Unmanned Surface Vessel,USV)发挥着至关重要的作用。在海上航行过程中,无人艇会受到海风、海浪、涌流等很多随机不确定的外界干扰,产生强烈的六自由度摇荡运动,使得海上作业过程存在着极大的安全隐患。因此,无人艇运动姿态的预报研究对于保障航行安全、提高作业效率具有重大意义。无人艇在海上的六自由度摇荡运动是一个复杂的时变、非线性、非平稳动力系统,
ABI5(AtDPBFs/ABFs)家族是一类亮氨酸拉链型转录因子。这类转录因子参与了植物种子胚胎发育晚期的基因表达调控以及ABA信号的传导。在拟南芥中,ABI5家族至少有八个成员,对这
岩性识别是测井解释中的重要环节,识别准确率影响着后续的储层划分、储量预测等勘探开发工作,正确识别岩性有着重要的地质意义。机器学习算法以其自学习、自组织、高度非线性和容错能力等优势,在解决岩性识别准确方面具有天然的优势。通过资料分析研究表明,测井过程中极易受到环境、设备等因素的影响,不可避免的在测井曲线中混入噪声数据。常选用小波阈值等降噪方法对原始测井数据进行处理,该方法可以有效的提高信噪比,但仍不
随着消费者需求的升级,消费市场呈现出多元化和个性化的态势,市场竞争活动也愈演愈烈。企业为了在激烈的市场竞争中占据一定的市场地位、获得市场份额,不得不随着市场的演变进行自我革新以求自保。单纯的从产品和技术层面进行创新已经不能满足消费市场的需求,只有更深层次的改变才能适应市场潮流。因此,商业模式上的创新逐渐走进人们的视野。金字塔底层战略(以下简称BOP战略)正是在商业模式创新过程中提出的。有研究认为,
商业银行是我国金融市场的重要组成部分,是支持我国经济发展而筹措资金的重要金融枢纽,如今随着我国银行业对外开放程度不断加深,一些具有先进管理理念而且竞争实力较强的外资银行纷纷进入中国市场,因此我国银行业各大商业银行所面临的挑战也是前所未有的。当前,我国银行业的发展正在面临战略机遇期——金融市场监管越来越严格,利率改革全面市场化,传统的银行绩效管理体系已经无法满足目前商业银行的发展需要。商业经营环境的
本文由三部分组成。第一部分,引入Hopf模余代数概念,并证明对任意Hopf模余代数都存在Smash余积与之同构,主要结果为:1.设H为Hopf代数,C为右H-Hopf模余代数,则存在Hopf模余代数同构(
机会网络(Opportunistic Networks)通过具备短距离通信能力的移动设备之间的移动接触机会传递消息,能够在没有任何通信设施的环境中自由组网,完成消息的传输。随着智能手机、
二十一世纪以来,信息技术的发展日新月异,在人工智能的浪潮下,实现简单、快捷、流畅的人机交互成为人们追求的目标。通过语音实现交互一直是人机交互领域重要的一部分,而语音识别技术正是人机语音交互的关键技术。近年来,研究者们在语音识别领域做了许多工作,取得了颇为丰硕的成果。真实环境中的语音信号是复杂的混合信号,其中既包含了丰富的语义信息,也包含了许多说话人相关信息(如身份、情感等)和环境信息,这也是我们人
生物种群的大小不仅受到种群竞争,天敌捕食等的影响,而且会受到寄生虫感染的影响,在种群动力学行为的控制中,寄生虫扮演着重要的角色.本文主要研究寄生虫感染的食饵-捕食者模