基于多模态融合的行为识别研究

来源 :西安科技大学 | 被引量 : 0次 | 上传用户:arthurpzl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体行为识别是一项通过对视频中相邻帧的空间关系建模,让计算机自主理解人体行为的技术。在人与计算机的非接触交互与机器人教练任务中,需要机器人对人体手部行为进行识别。然而目前行为识别算法不能准确地理解人体手部行为,且不能很好的利用标签中各个不同行为之间的联系。因此,对人体手部行为识别算法进行研究具有重要意义。针对视频帧提取时存在冗余帧的问题,对结构相似性算法进行改进,实现基于最小结构相似性的关键帧提取算法。该算法利用两帧的结构相似性表示帧间的冗余信息,剔除没有明显行为的视频帧。针对目前视频特征提取模型不能充分利用视频帧间关系的问题,对信息传播算法进行改进,提出一种基于局部信息传播的时间聚合算法。该算法由三层卷积结构组成,其中前两层卷积具有三个不同的卷积核尺寸,克服了多次帧间信息聚合出现的过平滑现象;第三层采用帧间运动激励算法进行优化,通过注意力机制对视频帧的特征重新计算,增强连续帧的特征表达能力。为了解决标签特征中的先验信息不能被识别模型直接利用的问题,引入多模态融合的思想,对低秩双线性融合算法进行改进,实现基于多模态融合的行为识别算法。算法中将每个标签的特征向量与视频特征向量进行低秩双线性融合,根据不同类别的融合结果计算视频在不同类别的得分并分类。最后,使用公开数据集Something Something对算法进行测试。测试结果表明,将局部信息传播算法和低秩双线性融合分类算法相结合在Something SomethingV1的识别准确率达到45.14%,相较于文中对比的三种模型,分别提高了 9.7%、6.24%、1.78%;在 Something SomethingV2 的识别准确率达到 54.99%,相较于文中对比的两种模型,分别提高了 6.14%、3.82%。结果表明,改进的信息传播算法能获得更优的行为特征,基于低秩双线性融合的分类算法能提高分类的准确率,所诉两个算法对人体手部行为识别具有一定的参考价值。
其他文献
本文以液压支架用阀组中的纯水介质液控单向阀做为研究对象,采用理论分析、参数计算、有限元模拟仿真、试验等方法,对其进行了系统的研究。论文设计了适用于纯水介质液控单向阀的结构、分析了阀工作过程中的动态特性;研究了阀口结构对产生气穴的影响;对四种阀口结构进行了仿真分析,通过仿真结果优化阀口结构,设计出抑制气穴能力强的液压支架水介质液控单向阀;构建了液控单向阀性能检测实验台的整体方案,并设计了测试系统的数
随着我国智慧矿山建设的不断推进,矿井电网负荷不断增高。煤矿电网的安全性的问题日益突出,而漏电保护是井下重要的安全措施。我国煤矿10kV/6kV供电电网采用中性点不接地或经消弧线圈接地的运行方式,如果某一相发生单相接地故障时,由于零序电流微弱,且零序电流不确定方向,故障线路不易判断,从而易导致开关误动作或拒动。研究保护方法对保证煤矿供电安全有着重要意义。目前的选线有很多方法,常用的有稳态分析法、暂态
TC4钛合金比强度高,抗腐蚀性好,同时具有较好的蠕变强度、持久强度以及疲劳强度而被作为汽轮机叶片的首选结构材料。然而,在大型汽轮机的中高压级往往具有较高的温度,TC4钛合金不可避免的会发生蠕变变形。材料的蠕变性能不仅与服役环境有关,还与相关的成形工艺紧密相关。在工业领域中,装备中承载的核心零部件大多采用锻造塑性成形,考虑效率和成本的问题,目前TC4钛合金的锻造塑性成形更多采用的是非等温锻造。已有的
TC4钛合金由于其优秀的综合性能而被广泛应用于航空航天、海洋船舶以及大型核电领域,并作为装备中核心零部件的重要结构材料,其成形方法多采用锻造塑性成形。严苛的服役环境和高标准的服役需求,使得TC4钛合金的疲劳寿命愈显重要。TC4钛合金热导率低、应变速率敏感以及锻造温度范围窄,极大的增加了 TC4钛合金的锻造加工难度,容易导致锻件质量不稳定,进而威胁零部件服役的安全性和可靠性。因此,深入研究不同锻造工
大数据时代,数据规模越来越大,并且具有多样性和低信息密度等特点。这样的背景下,互联网内以文本形式存在的新闻数量繁多,而且难以进行管理。现阶段,处理文本数据的方法以BERT等预训练语言模型为代表,这类模型具有深层并且复杂的内部结构。BERT等模型在训练阶段先在大规模语料库上进行预训练,再根据不同的下游任务进行微调,相比于传统方法,这类方法拥有更强大的性能和更好的迁移性。本文重点研究BERT预训练模型
随着水声网络研究和应用的发展,以浮标为控制节点的多小区网络被广泛用以海洋探索中,以覆盖面积较广的数据任务。在多小区网络中,软频率复用(SFR)技术固然能增大系统频谱效率,也可以极大缓解小区间干扰。但是,该技术没有考虑水声信道中传输时延、以及时变特性的影响。在小区内,用正交频分多址接入(OFDMA)系统的自适应资源分配算法为数据节点分配各种资源,其设计依赖于信道状态信息(CSI)的准确性。但实际水声
图像修复是利用合理的像素值填充原本图像中缺失或被遮挡区域的技术。传统的图像修复方法在针对修复区域结构复杂、包含强语义信息的图像时难以修复。而生成对抗网络通过生成器与判别器之间的对抗学习、相互优化,以此可以生成以假乱真的样本,该特性使得生成对抗网络非常契合图像修复,因此基于生成对抗网络的图像修复技术研究具有重要意义。针对编码器采样时信息丢失的问题,本文使用空洞卷积代替普通卷积,以获得更大的感受野,减
现如今,人脸识别技术在商业、安全、军事等各个领域应用十分广泛。在新一代国产DSP处理器上实现人脸识别算法是一次积极的探索和创新,研究人脸识别算法在国产芯片上的实现,可以避免国外企业在技术支持和产品供应上带来的“卡脖子”风险,具有一定的社会效益和理论价值。本文首先对基于奇异值分解(SVD)的人脸识别算法进行改进,然后对改进的算法在国产DSP上的编程优化进行研究。本文的研究结果对人脸识别系统在国产芯片
火灾作为一种频发的灾害事故,使得人们的生命和财产安全受到严重威胁。为避免火灾发生,对其进行早期检测已成为关键一环。传统火灾检测方法是通过传感器设备对环境中各项指标进行分析和判断,但是普遍存在检测距离受限、反应慢、误报率高等问题。随着视频监控技术的广泛应用,人工智能在视频图像处理领域中飞速发展,基于此的火焰检测方法开始形成新的突破点。但目前现有的火焰检测方法,还存在着检测准确度低、实时性差等问题。针
图像复原是利用退化过程的先验知识恢复图像未退化前的面目。目前,针对加速图像复原算法进行了大量研究,发现基于高性能处理器实现图像复原也是一种有效的加速方式,但应用于国外处理器研究较多,基于国产DSP加速图像复原算法研究甚少。因此,本文提出了一种基于国产高性能处理器博微DSP1042(BWDSP1042)的非盲目反卷积图像复原算法,通过在BWDSP1042上优化移植耗时较长的关键算法,在保证复原图像质