基于多模态视频的人体行为识别研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:kugsa74
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今,在大数据驱动,建设“智慧城市”的时代背景下,对视频数据进行有效的分析理解对于国家创新型建设、社会综合治理、新形势下刑侦等方面均有着重要的意义。在众多视频理解任务中,人体行为识别任务作为最具代表性的以人为中心的视觉理解任务之一受到了来自学术界和工业界的持续关注。视频本质上是一种多模态信息的载体,蕴含着Red,Green,Blue(RGB)图像、光流图像、骨架序列等模态信息。解决多模态视频行为识别最核心的问题是从具有复杂、抽象语义信息且易受外界环境因素干扰的视频中提取出可以准确刻画人体行为特性的时空联合性特征。本文分别利用视频中不同模态的信息去挖掘出可以有效描述人体行为本质特性的高层次语义特征。主要的研究工作如下:1.研究了 RGB模态视频行为识别问题。针对RGB视频中表示静态信息的RGB图像和表示动态信息的光流图像在时空尺度上存在的差异性问题,分别提出了基于弱监督学习的隐式模态对齐网络和基于子空间学习的显式模态对齐网络对差异进行补偿。针对这两种模态之间的融合问题,提出了一种无监督学习模型,即稀疏收缩自动编码器,配合深度信念网络模型,实现了模态特征学习和特征融合两个过程同时进行。实验结果表明,提出的模态对齐网络有效地补偿了模态间存在的差异性,为模态融合奠定了良好的基础。同时,通过提出的融合网络挖掘到了具有高鲁棒性、强判别性的高层次特征表示。2.研究了骨架模态视频行为识别问题。针对骨架模态中不同关节内部、不同骨骼内部存在的复杂相互依赖性问题,提出了一种基于注意力机制的小波图卷积网络,分别从关节、骨骼两个不同的视角去挖掘其特征表示。针对骨架模态中不同关节与骨骼之间存在的相互依赖性问题,提出了一种统一化的图融合网络模型,将两种不同视角的高维信息视为同一类型的目标对象来进行卷积操作,实现了关节与骨骼两个不同视角间信息的相互流通。同时,结合迁移学习的方法更好的挖掘两种不同模态之间的互补性、相关性信息。实验结果表明,提出的基于注意力机制的小波图卷积网络有效的挖掘到了不同视角内部具有判别性的、全面的特征表示。提出的基于迁移学习的融合网络模型有效的挖掘到了不同视角之间相关性、一致性、互补性的特征表示。3.研究了多模态融合的视频行为识别问题。针对视频中蕴含了多种不同模态的信息,且其中同构模态与异构模态之间存在的差异性问题,提出了一种两阶段融合策略,分别对同构模态与异构模态进行融合。具体来说,针对应用于人体行为识别任务的同构模态与异构模态融合问题,分别提出了基于对抗学习和迁移学习的同构模态融合网络模型及基于自适应学习和迁移学习的异构模态融合网络模型。实验结果表明,提出的两阶段融合策略通过减小同构、异构模态间的差异,有效的改善了该识别任务的性能。此外,通过提出的同构、异构模态融合网络,更好的捕捉、挖掘到了不同模态类型之间的特异性、相关性、互补性特征表示。4.研究了低质量视频增强的行为识别问题。针对在精准识别的同时保护视频中人的隐私信息的诉求及视频本身质量(分辨率)较低的问题,提出了一种视频多尺度重构的方法,首先,对视频帧进行二维离散小波变换得到不同频带的子图像,然后,根据不同频带的特性,提出用频带适应的模型去复原丢失的细节,尤其对于高频细节的复原提出了一种基于小波变换的对抗生成网络模型。针对视频中不同模态对任务的重要性程度不同,将光流图像网络设为主分支,将RGB图像网络设为辅助分支,提出用基于双流Transformer的模型进行时空联合特征学习。针对时空特征的融合问题,提出在融合分支中用另一 Transformer模型中的交叉注意力机制对双流Transformer编码输出的特征进行融合。实验结果表明,提出的多尺度重构方法有效的复原了丢失的细节信息。提出的基于Transformer模型的行为识别网络有效的挖掘到了模态间的一致性、互补性特征表示。
其他文献
航空发动机主轴承在高温、高速、重载的苛刻环境下服役,采用具有优异高温硬度、尺寸稳定性和耐磨性的高温轴承钢制造。高温轴承钢凝固过程中由于合金元素(C、Cr、Mo、V)的偏析,极易形成超大尺寸的一次碳化物,在服役过程中作为疲劳裂纹的萌生源导致轴承发生疲劳破坏。因此,高品质高温轴承钢的制备是实现高端轴承长寿命、高可靠性制造的保障。为制备大尺寸、均质化的高温轴承钢坯料,本文提出利用金属构筑成形技术避免金属
学位
气候变化和全球变暖是人类面临的重要环境问题,对人类生存和健康构成巨大威胁,在此背景下,中国提出碳达峰和碳中和目标。汽车排放召回符合当前我国低碳经济发展的要求,也是践行碳达峰、碳中和的务实之举。逐级降低汽车大气污染物的排放量是重要的发展趋势,汽车排放召回将对防治大气污染发挥重要作用。汽车排放召回的顺利实施依赖监管部门、企业和消费者的三方配合,其中消费者积极主动地参与汽车排放召回十分重要。然而,汽车排
学位
在化石能源日益消耗和环境污染不断加剧的背景下,研发符合可持续发展理念的新型清洁能源是迫在眉睫的任务,氢气(H2)因其有高热值、低污染、来源广的突出优势,成为新能源中的最佳候选。随着电化学技术的高速发展,电解水制氢吸引了科技界和产业界的广泛关注,电解水过程包括析氧反应(OER)与析氢反应(HER),高活性的电催化剂在电解水过程中可以有效降低能耗。OER是一个四电子转移过程,动力学较为迟缓,是电解水制
学位
生物为了适应极端的生存环境,进化出了许多独特的液体操纵能力。受这些行为的启发,多种基于激励响应材料的主动式液滴操纵方法被开发出来,并成功应用于精细化学和生物医疗等领域。其中磁响应微结构表面可以在磁场激励下发生可逆变形,从而实现对液滴的主动操纵。但是,现有的基于磁响应微结构的液滴操纵方式灵活性差,且只能在单一平面内操纵液滴。磁响应微结构表面的制备方法也十分繁琐,进一步限制了磁激励液滴操纵的实际应用。
学位
风积沙路基的处理一直是沙漠公路建设面临的难题,土工格室加固方法可为沙漠公路建设提供一条新路径,结合S21线(乌鲁木齐-阿勒泰)沙漠公路路基现场试验,研究不同路基深度动力响应特征,对土工格室加固风积沙性能探究具有重要的价值及意义。结果表明:(1)测试车速对路基不同深度处动应力、动加速度和动速度的时程曲线波动性影响较大,且提高车速时,动速度峰值、动加速度峰值和动应力峰值都出现了明显的增加;(2)随着路
期刊
深度估计长久以来一直是计算机视觉领域的一个重要底层任务,从图片中预测每个像素的深度值对于多种现实世界中的下游任务,比如车辆自动驾驶,场景三维重建,增强现实以及机器人操作都有着重要的帮助。但是,直接从生产端拍摄的单张或多张图像中直接估计深度面临多方面的挑战,例如如何快速有效地预测准确的深度,如何在缺失大量真实的训练数据集的情况下进行神经网络的训练,如何高效利用深度信息辅助下游任务的进行。对于这些任务
学位
基本公共服务是为满足社会共同的基本需求、实现公共利益,在政府主导下通过公共资源的投入,向社会非特定的公众提供的各种产品与服务的总和。受到地方财政资源紧缺、供给主体单一以及户籍制度等因素的限制,我国基本公共服务供给的现状具有明显的非均等化特征。党的十九大报告明确指出,“我国社会主要矛盾已经转化为人民日益增长的美好生活需要和不平衡不充分的发展之间的矛盾”。执政党工作的主题从单纯的“以经济建设为中心”向
学位
本文以文化与国际关系为视角,围绕泛美主义演进过程中,拉丁美洲所展现出的文化特点进行研究。泛美主义属于美洲范围内特有的国际合作形式。它的表述出自美国,始于寻求与拉丁美洲国家的国际合作,但却成为了美国控制拉丁美洲的霸权思想。为此,美国巧妙地改造了拉丁美洲民族解放时期玻利瓦尔的美洲团结思想。而在泛美主义演进过程中,冷战期间产生了寻求拉丁美洲内部合作的泛拉美主义,体现出玻利瓦尔思想的本质。三者虽有不同,但
学位
公式作为一种抽象、定义和表述问题的工具,是科技类文档中不可或缺的一部分。离线手写公式识别可以将手写公式图像转换为计算机可以编辑和表达的LaTeX字符串,在智能搜题、智能阅卷、辅助输入、转录信息等智慧教育及日常生活场景中都有着广泛的应用,能够直接便利人们的学习、工作和生活。然而,由于公式中字符间复杂的二维结构关系,传统的识别方法往往难以正确识别手写公式图像。随着深度学习的发展,研究者们将基于注意力机
学位
固态相变制冷技术因其高效、环保等诸多优点,未来有望取代传统压缩气体制冷方案成为新一代的绿色制冷技术。近年来,压力驱动相变热效应(压卡效应)因材料体系丰富、性能优异而引起研究人员关注。目前压卡测试的专用商业设备极其稀少,且价格昂贵,一定程度上制约了实验工作的开展。众多相变材料同时对压力和磁场敏感,为多外场协同驱动优异的相变热效应提供了重要机遇。然而,目前压力、磁场共同作用下的相变热效应主要采用间接法
学位