基于高低层特征融合与卷积注意力机制的视频动作识别方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:weishuren33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络的普及和智慧城市建设的深入,视频逐渐成为城市数据中主要的数据载体之一。由于视频内容的复杂性,基于视频的动作识别往往存在识别难度大、精度低等问题。论文从提升视频动作识别精度的角度出发,以时序分割网络(TSN,Temporal Segment Networks)为框架,在增强特征表达能力与提升视频内容显著性两个层面,提出了多种视频动作识别的改进方法。论文针对动作视频中运动目标多尺度的问题,提出了两种基于高低层特征融合的视频动作识别方法,分别为基于自顶向下特征融合的视频动作识别方法和基于自底向上特征融合的视频动作识别方法。两种方法在UCF101(split1)的测试集上的多模态融合后的动作识别准确率分别达到了93.9%和94.5%,分别比同等条件下未进行特征融合的TSN方法的准确率提高了1.6%和2.2%。为了提升视频内容的显著性,论文提出了一种基于卷积注意力机制的视频动作识别方法。论文设计了一种全卷积结构的注意力机制来捕捉视频动作的显著区域。该结构对比当前已有的基于循环网络结构的注意力机制具有降低训练难度并且易于与多种基础网络相耦合的优点。最终,该方法在UCF101和HMDB51数据集上多模态融合后的动作识别准确率分别为95.0%和71.6%,分别比同等实验条件下未嵌入注意力机制的TSN方法的动作识别准确率提高了0.8%和2.2%。在已提出的卷积注意力结构的基础上,论文提出了一种基于多级注意力机制网络的视频动作识别方法。该方法具有在多个层级中精确捕捉视频显著区域的效果。最终,该方法在UCF101(split1)和HMDB51(split1)数据集上多模态融合后的动作识别准确率分别为94.4%和72.0%,比基于卷积注意力机制的视频动作识别方法提高0.1%和0.4%,比未嵌入注意力机制的TSN方法提高2.1%和2.1%。动作识别准确率的提升验证了该方法在视频动作识别上的有效性。
其他文献
灰分对煤基活性炭的生产及其产品性能、价格具有一定的影响,降低活性炭灰分是迫切需要解决的问题。阐述了目前常用的脱灰处理工艺,包括高温氯化法脱灰、加压酸碱洗法脱灰、前
文中主要探讨了在VB环境下,用自定义函数和向量计算的方法,实现矿山测量贯通误差预计的技术和思想,并用VB代码详细描述了各计算流程实现。
作者根据自主神经系统紊乱是溃疡性直肠炎的致病因素,以及利多卡因阻滞肠道神经的原理,随机选择病史1年以内,每天排粘液血便3~6次,直肠镜检查有中~重度炎症,经组织病理学确诊
一年两熟地区小麦免耕播种机防堵性能,已成为影响免耕播种机生产效率和播种质量的关键因素之一。为此,系统分析了小麦免耕播种机防堵的必要性以及被堵塞的原因,阐述了目前防堵装
对苯甲醛与原甲酸三甲酯的缩醛反应进行了研究,提出了该反应可能的反应机理,考察了不同种类的催化剂、催化剂用量以及原料配比对苯甲醛缩醛反应的影响。通过实验得到了最佳的
教师要在初中生物教学中渗透环保教育,让每一位学生了解我国生态环境的现状,从小养成良好的行为习惯,形成环境保护意识,并且能够落实到实际行动上来。
<正> 五四时期民族启蒙主体及其娜拉故事查特基(Partha Chatterjee)主张创造出印度“先天的野蛮传统”的正是英国殖民主义。他认为,英国殖民主义企图用编制强加给印度女性的
会议
教态是教师在课堂上的表情、姿态、动作,与课堂教学效果关系很大。课堂教学是教师运用教育教学艺术,教书育人的过程。如果教师伴之以良好的教态,就会潜移默化的增强教学效果
《统计学原理》是统计学专业的一门重要的专业基础课,在教学中只有更新教学观念,科学地采取案例和实践教学,加强理论联系实际的教学,注重培养学生统计意识和技术应用能力,才能实现
一、监测病情变化 ,多数病人在发病后 14d内都可能属于进展期 ,必须密切观察病情变化 :监测症状、体温、呼吸频率、SpO2 或动脉血气分析、血像、胸片 (早期复查间隔时间不超