基于深度卷积神经网络的视频行为识别

来源 :苏州大学 | 被引量 : 0次 | 上传用户:wang1hnsc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络平台中视频数据的爆发式增长促进了视频理解的广泛应用。视频数据不仅包含静态图像,还包含这些静态图像之间的时序关联信息,对视频行为的准确识别需要有效提取并融合这些信息。目前的视频行为识别方法在提取并融合时间信息和空间信息获得时空信息、对时空特征远程依赖的高效建模以及利用短期运动信息增强模型时空建模能力等方面还存在不足,影响了视频行为识别的准确率。针对目前视频行为识别技术存在的上述问题及其在驾驶行为识别中的应用,本论文进行了如下研究:首先,为了实现对静态外观信息和动态运动信息的不同处理,增强对这两种信息的提取能力,以更加有效地提取时空信息,本论文提出了动静分流聚合模块(Static and Dynamic Shunt Aggregation Module,SDSAM)。通过引入通道注意力,SDS AM 利用经过时间卷积的特征获取其在通道层面包含时间信息的丰富度分数,将丰富度得分作为权重采用加权和的形式聚合原始特征和经过时间卷积提取的特征。由于SDSAM对包含运动信息特征和空间信息特征的选择依据是来自于特征自身的丰富度分数,因此SDSAM的选择是可学习的。这既避免了人工干预,也可以随模型深度变化而变化,提升了时空信息的提取能力。其次,为了解决卷积神经网络难以捕获远程依赖的弊端,提高对时空特征远程依赖的模拟能力,本论文提出了远程时空关联增强模块(Remote Spatial and Temporal Correlation Enhancement Module,RSTCEM)。RSTCEM 分别将特征的长和宽取平均,采用时间卷积将空间表示转换为包含时间信息的时空表示,通过矩阵相乘,得到特征空间中各位置的时空关联性图谱,然后根据此关联性图谱增强原始特征中具有强时空关联性的区域。因此,RSTCEM可以提升模型对视频中各交互对象之间关联性的感知能力。此外,由于时空关联图谱的计算不依赖于空间上每个位置的像素,RSTCEM相较于一些基于自注意力的远程依赖捕获方式更加轻量。最后,为了提升对短期运动信息的提取能力,本论文对运动激励(Motion Excitation,ME)模块进行改进,提出了运动空间增强模块(Motion Space Enhancement Module,MSEM)。MSEM通过原始特征获取视频图像的运动表示,利用空间注意力机制处理运动表示以增强其中对提取短期运动信息有效的部分,然后在通道维度上采用运动表示增强原始通道中表示短期运动的特征。由于空间注意力机制的引入,MSEM增强了运动表示中有用部分的影响力,减弱了无用背景以及由相对运动引发的漂移等因素对提取运动信息的干扰,极大地提升了模型的识别准确率。本论文分别根据上述三种模块设计了视频行为识别模型,分别在Something-Something V1数据集上进行了测试,分别取得了 48.1%、48.4%和49.1%的Top-1识别准确率。实验结果表明,相较于一些其它模型,我们提出的视频行为识别模型具有更好的性能。此外,为了将MSEM用于驾驶行为识别,本论文结合知识蒸馏训练了参数量和运算量都相对更小的模型,在计算量减少一半的情况下准确率只降低了 0.2%。实验结果表明,我们设计的深度卷积神经网络能满足驾驶行为识别的要求。
其他文献
近些年,在国际形势变化加剧、市场利率逐渐走低,加之股指期货负基差长期存在和融券需求增加的背景下,具有个性化定制的结构化期权产品逐渐被市场接受和认可。与其他结构化产品相比,安全气囊期权能够为投资者提供一定范围的下跌保护,因此广受投资者的欢迎。通过对安全气囊期权的条款的细致分析,本文利用衍生品定价理论构建了该产品价格满足的偏微分方程模型,并做了大量的数值分析。这些定性和定量的结果可以帮助投资者更好地理
学位
骨肉瘤是青少年最常见的恶性骨肿瘤之一,临床上迫切需要一种精确可靠的自动分割方法,来对疾病进行辅助诊断、治疗和预后。鉴于卷积神经网络优越的图像表征能力,本文基于卷积神经网络研究骨肉瘤CT图像的自动分割方法。主要针对医学图像分割领域普遍存在的不同尺度目标分割性能不一致、样本类别不平衡、训练难以收敛等问题,从网络结构、深度监督以及损失函数等方面,对现有算法进行改进。本文的主要工作及贡献如下:(1)为了缓
学位
传感器、微机电系统等诸多微型、低能耗电子产品应用广泛,传统的电池供能方式存在诸多弊端,研究如何持续稳定地为微电子产品供能是研究者面临的主要问题。近年来,流致振动作为一种新颖、高效、环保的能量来源,压电式流致振动俘能器逐渐成为研究热点。本文针对风致振动俘能器的阻流体、悬臂梁和能量收集电路三部分进行优化设计,提升俘能器的能量收集效率。建立了风致振动压电俘能器的物理模型,引入单自由系统分析了系统控制方程
学位
与无机薄膜晶体管相比,有机薄膜晶体管(Organic Thin-Film Transistor,OTFT)具有低温溶液可加工性和柔韧性等独特优势。它们通常对空气环境中的水汽和O2敏感,长期贮存稳定性较差,这阻碍了它们的实际应用。本文对以2,8-difluoro-5,11-bis(triethylsilylethynyl)anthradithiophene(dif-TES-ADT)为有源层的 OTF
学位
目的阐明分化型甲状腺癌术后行放射性碘13 1治疗的患者疾病不确定感的现状及其影响因素,为后期制定临床护理干预方案提供依据。方法本研究以江苏省江原医院接受放射性碘131治疗的分化型甲状腺癌患者为研究对象。1.通过文献回顾与质性访谈,了解患者疾病不确定感的现状及影响因素,自制一般资料调查表。2.采用便利抽样法,以一般资料调查表、社会支持评定量表(SSRS)、成人疾病不确定感量表(MUIS-A)、简易应
学位
光学相干断层扫描技术(Optical Coherence Tomography,OCT)是一种无创、高分辨率的三维活体成像技术,被广泛应用于视网膜疾病的临床检查。眼科医生通过阅读患者的视网膜OCT图像为其撰写诊断报告,为下一步的诊断和治疗提供客观依据。但人工撰写报告的方法存在效率低,受主观因素影响大等缺点,因此,基于视网膜OCT图像研究设计可靠的报告生成技术具有重要的研究意义和临床价值。视网膜OC
学位
在数字化信息技术高速发展的时代之下,智能身份认证在互联网公司和政企部门中得到广泛应用。若能设计一种自动、准确识别用户证件图像中各种关键文本信息的方法,将可以简化繁琐的人工办事流程,极大地提升工作效率。传统的光学字符识别技术(Optical Character Recognition,OCR)主要针对印刷和扫描文档的识别,在面对需要高识别准确率的证件图像场景时遭遇挑战。近年来深度学习发展迅速,并且在
学位
固体氧化物燃料电池(SOFC)作为一种高效环保的能源转换装置,在近年来获得了广泛的关注。然而,SOFC通常使用氧离子导电陶瓷作为电解质,需要在较高的温度(通常高于800℃)下才能获得足够的离子导电率,这加速了燃料电池的性能衰减,也对燃料电池的材料选择提出了严苛的要求,从而阻碍了其商业化进程。解决策略之一在于将SOFC的电解质材料替换为质子导电陶瓷,由此可将工作温度降低至中温区(450~700℃),
学位
高分辨率视频在生活娱乐、视频监控、医疗等多个领域有着非常大的需求,然而受网络带宽、成像系统等因素的限制,大量视频只能以低分辨率的形式呈现。为了解决该问题,视频超分辨率技术得到了广泛的研究。随着深度学习的快速发展,基于深度学习的视频超分辨率算法表现出了优异的性能。本文针对如何有效处理视频信息的时空域特征这一问题开展了深入研究,提出了基于循环神经网络的视频超分辨率算法,并在特征传播、特征聚合、特征重建
学位
目的 以7A65高强度铝合金为研究对象,研究喷丸强度、弹丸介质(铸钢丸和陶瓷丸)对靶材疲劳性能的影响规律。方法 利用扫描电镜、激光共聚焦显微镜、X射线衍射仪等仪器表征喷丸强化7A65铝合金表面完整性和疲劳失效断口,分析喷丸工艺参数与疲劳性能、断裂模式的相关性。结果 喷丸强化后铝合金表面粗糙化严重,表面粗糙度从初始0.622 μm增加至4.736 μm(铸钢丸、喷丸强度为0.22 mmA),并出现褶
期刊