基于深度学习的高效动作识别算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:quangang770
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频已经成为大数据时代最重要的信息载体之一。相比静态图像,动态视频包含更多的视觉信息和听觉信息,更为复杂多义,所以对视频处理、分类、推荐等常见视频相关任务提出了更高的要求。人体动作识别一直以来是视频理解中最重要的课题之一。它可以应用到虚拟现实、人机互动、智能监控和视频检索等领域中,还可服务于短视频、直播平台、视频网站等相关应用,为视频个性化推荐、舆情监控、广告投放等业务提供技术基础。在视频中,人体是最重要也最频繁出现的主体。理解了人的运动模式也就理解了整个视频中最关键的信息。但是,现有的动作识别算法忽略了视频中人体自带的结构信息,只能够通过增加模型参数量的方法增强动作特征的表达能力;另一方面,增加模型参数量又会导致模型的计算复杂度更高、学习难度更大。针对以上两个主要研究问题,本文根据视频数据的不同模态,从增加模型对人体结构建模能力和模型加速角度出发,引入三维局部卷积神经网络、时空图卷积神经网络和继承探索模型蒸馏框架,增强模型特征的表达能力的同时提升模型的计算效率。本文的主要创新点可以概括为:(1)在视频动作识别任务中,为了更好地建模人体局部的动作特征,提出了三维局部神经网络。通过分析三维卷积的一般形式,引入三维局部卷积操作。该操作可以自适应地从不同三维局部领域中提取局部三维特征。在三维局部卷积的基础上提出一种三维卷积基础模块,可以自动定位不同的三维局部区域。不同区域对应不同的身体部位,每个区域的时空位置和尺度各不相同。该模块可以和任何现有的三维神经网络结合,显式地提取人体不同部位在动作进行过程中独特的运动特征,提升整体时空特征的表达能力。(2)在骨骼动作识别任务中,针对骨骼数据图结构信息缺失的问题,提出了时空图卷积模型。通过探究和分析骨骼序列中关节点之间的图结构信息,引入多尺度图卷积的概念,提出提取并融合不同尺度图特征的方法。在此基础上设计一个简单且高度模块化的图卷积网络结构。该网络可以克服现有方法在不同层从不同路径提取和合成不同尺度和变换信息的局限性,聚合来自空间和时间维度的多尺度信息。最后实验证明该方法不仅在多个数据集上有效性超越之前最先进的方法,而且参数量和计算量也大大减少,符合实际应用的需求。(3)为了进一步降低动作识别模型的训练和计算开销,提出了一种模型蒸馏算法,在保留高性能的基础上提升计算效率。针对模型蒸馏算法中教师模型对学生模型的一致性限制问题,提出一种全新的基于继承和探索机制的模型蒸馏框架。该框架一方面确保在学生模型可以继承教师模型已经学习到的、有效的知识;另一方面鼓励学生模型探索和继承部分不一样的新知识。该方法是一种通用的知识迁移框架,可以灵活地与现有的蒸馏算法或深度互学习方法相结合,提升知识迁移的效果。
其他文献
图像是计算机视觉系统感知外部世界的重要信息来源,其质量的高低对后续计算机视觉任务的精度有着重要影响。然而,在阴天、夜晚等无法规避的低光照场景中捕获的图像,往往存在亮度和对比度低、纹理细节丢失以及噪声强烈等低质量问题。为提升低光照图像质量,现有研究基于图像传统先验或深度神经网络建立了低光图像增强模型,并取得了极大成功。然而,现有低光图像增强模型仍存在以下问题:1)忽略图像的纹理细节恢复,导致增强后图
随着5G时代的到来,信息技术更加全球化、多媒体化,移动数据也呈现爆炸式增长。在此背景之下,用于保存和处理信息的器件——存储器,也面临着更大的挑战。目前,传统的半导体存储器已经逐步逼近发展极限,亟需研究和开发出存储密度更大、响应速度更快、存储寿命更长、可靠性更好、成本低廉和易于加工的存储技术和存储材料。另一方面,当电子器件或半导体器件的密度过高时会在局部产生热点,造成器件的毁坏和能源的浪费。因此,在
在本文中,首先研究了带随机因子影响的保险公司资金的最优投资和风险控制问题。在该模型中保险公司可以将其财富分配给风险资产和无风险债券,其中风险资产价格的波动率和利率都依赖于环境的随机因子。保险公司的风险过程由一般的跳-扩散风险过程建模,并且风险过程的跳描述为具有状态依赖跳测度的泊松随机测度。保险公司的目标是通过选择最优的资产投资策略和风险控制策略,从而最大化其终端时间财富的期望效用。论文的第一部分主
界面调控因为在生产生活中有着非常重要的应用价值,越来越受到研究人员的重视,例如结构色可以用于识别码、装饰美化、防伪等领域,超疏水低粘附的表面可以用于防污、抗冰、自清洁等领域,基于表面张力梯度的自驱动可以用于机器人、发电等领域。这些独特的界面现象本质上都是微纳结构对界面物理性质的调控而产生的,因此对微纳结构的可控加工进一步成为研究的热点。目前,虽然各种各样微纳结构已经成功地通过多种微纳加工技术被制备
纳米材料的发明、器件结构的微型化和微纳米加工工艺的发展,使高分辨率、精确而且便捷的测量方法成为必要。作为具有纳米分辨率的扫描探针技术,原子力显微术由于样品制备简单、工作环境多样、无损检测等优点而得到广泛使用。多种基于原子力显微术的工作模式得到发展,并应用于测量包括电导率、磁导率、力学强度等的样品局域特性。其中力学特性的精确表征是纳米尺度材料和器件研究的重要需求,以接触共振原子力显微术为代表的纳米力
互联网的蓬勃发展带来了海量的文本内容,分析和归纳这些文本内容是常见的任务。其中,主题模型是一种分析文本内容的常用方法。这类方法通过构造一个关于文本、主题和词语作为随机变量的联合概率分布,并估计概率分布中参数,最终得到文本和主题以及主题和词语之间的概率关系。主题模型得到的联合概率分布,被广泛用于如搜索引擎、知识图谱、广告推送、舆情监控等应用领域。近些年来,微博、脸书等社交媒体的广泛使用,让短文本成为
细胞内的亚细胞结构在生命活动中扮演着重要的功能角色,其形态功能的研究对于解析生命过程和重要疾病的发生具有重要意义。目前对亚细胞结构的动态研究依赖于荧光标记技术,但引入了荧光染料的光漂白和光毒性对细胞造成的额外压力,导致其进行活细胞长时间动态过程研究的困难。近些年发展的基于相位的无标记成像能够成功地可视化这些亚细胞结构而不会对其正常的生理状态造成干扰,但也由于其无标记特性而缺乏特异性,很难对于特定的
随着物联网的强势发展,各种新型物联网应用与技术手段层出不穷。其中,两方面的技术发展引起了人们的广泛关注。一方面,无源反射通信技术的出现极大降低了通信能耗,打破了能量瓶颈限制物联网发展的局面。另一方面,基于物联网的行为感知技术有效扩展了物联网技术的应用场景,成为万物互联的重要环节。本文的工作将这两方面的研究进行有机结合,实现基于无源反射技术的人体行为感知与身份认证。本文的工作无需增加额外设备,仅以无
表面增强拉曼散射(SERS)具有不同于传统检测技术的独特优势,比如水的干扰小、检测过程简单快捷、样本处理要求低且能提供分子指纹图谱等,从而被大量应用于生物医学分析、化学反应监测、物理表征等诸多领域。尽管如此,SERS技术在实际应用过程中仍面临一些问题,比如基底的检测性能低于预期、普适性差、成本高等。其中,基底检测性能的优化是SERS技术中亟需解决的关键问题,这通常与基底的灵敏度密切相关。目前,提高
随着自由曲线曲面造型技术的日渐成熟,非均匀有理B样条(NURBS)已经成为工业产品几何形状的标准表示。等几何分析(IGA)把用于表示几何的基函数用于分析,避免了传统有限元(FEA)耗时的网格化。由于NURBS网格的张量积结构,几何建模中会引入大量的多余控制点,并且基于NURBS的IGA无法对曲面进行局部细分,于是出现了很多定义在T网格上的可局部细分样条。在实际应用中,常常需要对三维实体进行建模和分