论文部分内容阅读
随着人民物质生活水平的不断上扬,以计算机视觉为基础的人工智能家具、家电等各种高科技电子产品与日常生活愈发地息息相关。而人体行为识别作为计算机视觉当中的一个重点研究领域,也同样被人们密切关注。本论文以面向视频的人体行为识别方法为研究课题,重点针对人体行为识别当前阶段亟待解决的关键性问题,如有效获取视频图像帧之间的时序信息、解决视频信息中的长时间依赖问题以及提高算法的准确性和实时性问题等,从以下两个不同的角度入手,进行了人体行为识别方法的研究。1.融合长短时间记忆网络和自注意力机制的人体行为识别方法。该方法首先将数据集通过提帧操作变成一个个的视频图像帧序列,然后对每个视频图像帧序列随机抽取连续的包含时间维度信息的数帧图像,并输入到网络模型中。其次,从两个方面来展开研究,分别采用了长短时间记忆网络模型以及在此模型基础上添加的自注意力机制改进模型,一步步来探究各个模型解决视频中的长时间依赖问题的能力,尤其是对于那些场景动态且人体行为复杂繁琐的长时间帧图像序列的行为识别。实验结果表明,不管是模型的准确率还是模型的预测能力,添加自注意力机制的改进模型的表现都更胜一筹。2.融合二维卷积与三维卷积的高效人体行为识别方法。该方法首先对视频的处理做出了一些改进,将提帧过后的视频图像帧序列分成N段,并从每段当中随机采样单帧图像,并将这N帧图像一同输入到网络中。之后,考虑到三维卷积也同样可以有效捕获时序信息,因此分别构建三维卷积模型以及融合二维卷积和三维卷积的串联模型和并联模型。实验结果表明,融合二维卷积与三维卷积的串联模型和并联模型在模型的准确率上都表现不错,并且由于其网络结构采用了BN-inception以及ResNet18-3D的优化组合以及训练模型中采用的优化策略,使得模型的实时性相比于普通的三维卷积模型有了较大的提升。最终,通过对本论文中所有模型与其他常用模型实验结果评价指标的对比,发现本方法中采用的串联模型和并联模型的准确性和实时性都是相对比较高的,这也有助于今后将其应用到工程领域。最后,通过对本论文所采用的人体行为识别方法进行总结和分析,提出今后需要改进的地方以及对未来该领域的发展作出相应展望。