基于时空信息融合与注意力增强的人体行为识别研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:liuye1111111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体行为识别是人工智能、模式识别以及机器学习等领域中最重要的研究方向之一,是计算机视觉和多媒体分析领域的热点研究课题,在安全监控、人机交互、医疗诊断、视频分类等领域都有着重要的学术意义和巨大的应用价值。虽然人体行为识别方法在早期的研究过程中已经取得了较大的进步,但是在实际应用中人体行为识别数据常受到光照变化、复杂背景、遮挡和人体自身等因素的影响。这使得人体行为识别研究始终是十分具有挑战性的课题。现有的人体行为识别方法中,大量的方法注重于单个数据流网络内部结构的改进,却忽略了多个数据流网络之间的信息交互、融合与强化。针对上述问题,本文从基于多级时空信息的特征融合和基于多分支结合注意力的信息强化两方面对该课题进行研究。本文主要贡献以及成果如下:(1)本文提出了一种基于多级时空信息融合的人体行为识别方法。为了更加高效地对多级时空特征进行融合,提出了一种压缩双线性时空信息融合模块。该模块能在降低时空特征数据维度的同时,增加时空特征中的信息交互并对两种信息进行融合,该模块还解决了压缩双线性采样算法不能直接对多卷积层中时空特征进行融合的问题。为了减少融合操作对正常的特征提取网络造成的影响,提出了一种支流网络分离的三支流预测分数融合网络,并结合时间分段网络的思想,进行长范围时间结构建模。在基于RGB视频的人体行为识别数据库UCF101以及HMDB51上的实验证明了本文所提出的方法具有良好的识别性能。(2)本文提出了一种基于多感受野空间-通道注意力特征强化的人体行为识别方法。在基于多级信息融合的人体行为识别方法的理论基础上,为了对融合特征的各个部分重要性进行调整,使网络的注意力聚焦于输入数据的有效信息区域上,达到强化特征的目的,提出一种多感受野空间-通道注意力模块,该模块以并联的方式对空间分支和通道分支进行连接,并生成特征注意力调整权重。同时,该模块的空间分支使用多个不同尺寸的卷积操作来丰富空间分支的信息感受野。此外,该模块能在网络中达到即插即用的效果。在UCF101数据库和HMDB51数据库上的实验证明了所提方法具有良好的识别精确度。(3)本文提出了一种基于特征多视角融合强化的骨架人体行为识别方法。为了强化和融合不同类型的骨架数据,提出一种特征多视角融合强化模块。该模块由空间分支、通道分支和时间分支以并联连接方式组成。该模块具有两种用途:在模块输入数据相同时,该模块作为注意力模块对输入的数据进行特征强化,提取更有效的特征;在输入数据不同时,则可以作为时空信息融合模块,采集其中任一输入数据提供的有效信息对另一个输入数据的信息进行强化,以此完成两种数据中信息的融合。使用该模块对基于图卷积的特征提取网络进行强化和对多层图卷积层的时空特征进行融合。此外,提出一种骨架差异数据提取方法,充分利用骨架数据中时间维度信息。结合骨架数据的一阶信息和二阶信息,提出一种基于骨架的多支流融合网络。在基于骨架的人体行为识别数据库Kinetics-Skeleton、NTU-RGBD60以及NTU-RGBD120上进行实验,实验结果验证了所提方法的有效性。
其他文献
卷积神经网络(Convolutional Neural Network,CNN)在图像特征学习领域取得卓越的成就,已经成为解决图像分类、图像降噪、目标识别、图像分割以及其它充满挑战的计算机视觉任务的主流方法。从将网络层简单相连的逐层连接的网络结构,到支持跨层间连接结构的残差网络结构(Res Net),到密集连接的密集网络结构(Dense Net),再到Google Net宽度网络结构,网络结构已经
大数据时代的到来,涌现出大量蕴含丰富语义信息的非结构化文本数据。为了应对海量数据的挑战,关系提取与知识图谱成为自然语言处理领域的重要研究话题。通过关系提取辅助知识图谱的构建,从而实现海量数据的重构,具有重要的现实意义。本文针对关系提取网络中存在的不足,进行了相关研究工作。第一,由于句子结构复杂多样,现有的关系提取网络抽取句子特征的能力明显不足,因此,在特征抽取阶段如何充分学习句子中潜在的关系特征是
随着电子商务的快速发展,为了降低成本,商家将物流业务转交给第三方物流(3PL)公司进行服务。然而随着物流市场的不断拓展,3PL逐渐展现出局限性,存在服务项目单一、信息化程度不高、企业间缺乏合作等问题,难以实现社会资源的优化配置。针对这些不足,第四方物流(4PL)应运而生,它通过整合3PL物流资源,进而满足了复杂的实际运输需求。4PL是一种崭新的物流运作模式,如何利用4PL的资源整合能力降低成本、碳
随着科技的不断发展,各种以生物特征为基础的身份鉴别技术已经逐步民用化、商业化,指纹解锁、虹膜打卡和人脸支付等新型身份认证技术已与人们的生活息息相关。人脸识别技术凭借其无接触、生物特征明显和容易获取等优势而成为当前主流的生物特征识别方法,带来了巨大的社会效益和经济效益,但是另一方面,人脸识别系统遭到攻击的案例也让其安全问题受到重视。在人脸识别系统中,攻击者可以通过伪造用户的面部信息进行攻击,比如通过
在现代工业生产中,随着传感器、PLC和DCS系统的普及与应用,数据和数据处理技术逐渐受到重视。基于数据驱动的多元统计过程监控方法能够在线评估过程运行状态,保障系统的可靠性和稳定性,对提高产品产量和质量具有重大意义。然而实际过程中大量存在的异常值和缺失数据现象,给基于数据驱动模型的过程监控带来挑战。论文研究基于改进潜结构投影(Modified Projection to Latent Structu
在传统系统辨识和状态估计方法的研究中,噪声经常被假设满足一定的概率分布条件,但是随着被研究系统的复杂度越来越高,满足概率分布的噪声往往难以获取,这时假设噪声在一定区间内更能满足实际生产需求.为了减少计算量,加快参数可行集收缩速率,提高参数辨识效率,本文以凸空间结构收缩分析为基础,研究了基于凸空间结构参数可行集滤波的系统参数辨识和状态估计研究算法,这对丰富和发展参数的集员滤波方法具有前瞻的理论意义和
在体验经济时代下,博物馆正从单一的文化收藏展示机构转型为文化交流、社会教育、展览娱乐等功能为一体的综合性场所,并不断丰富人们的精神文化生活。随着移动互联网的深入发展,以智能手机为载体的移动导览系统正成为博物馆文化信息传播的主流媒介,扮演着辅助观众寻求个性化游览体验的智能助手角色。但是,目前多数博物馆移动端导览系统常关注新媒体技术的应用而忽视了用户情感需求的满足,导致在人性化功能和情感化体验建设方面
无线传感器网络(Wireless Sensor Network,WSN)由大量成本低廉、可收集数据的传感器构成,在环境、健康监测和入侵检测等领域得到广泛应用。由于传感器部署的随机性会影响网络的整体性能,且优化的前提是要获取WSN的整体概况,本文研究的边界和瓶颈就是其中最重要的整体信息。根据中介中心性可衡量节点在节点对间的重要性的特点,发现WSN中不同节点对间的最短路径较少经过边界节点,即边界的中介
受贸易政策变化、大流行疫情等因素影响我国针织童装行业发展增速放缓,但行业总体仍处于上升转型阶段,既有着国家“一带一路”倡议、互联网信息化、行业智能化的发展机遇,又有着缺乏创新性、品牌影响力小、消费者需求升级等挑战。今后几年针织童装行业即将迎来发展的黄金期,但对标国外成熟的针织童装市场以及国际头部童装品牌,中国针织童装行业仍处于成长期,针织童装要朝着柔软舒适、健康安全、时尚创新、多功能化、绿色可持续
由于第四次工业革命对工业智能化的需求逐渐增加,多智能体系统的分布式协同控制问题在近年来逐渐受到越来越多的研究者的关注。在多智能体系统的研究领域中,一致性问题是一个研究热点。在过去的许多研究中,研究者们假设多智能体系统所处的环境是理想的,即多智能体系统不会受到网络攻击的影响。然而,多智能体系统对于通信网络的依赖性使其暴露在了网络攻击的威胁中。因此在设计多智能体系统时,考虑网络攻击所带来的影响非常有必