论文部分内容阅读
组群行为识别是计算机视觉中行为识别的研究领域之一,在智能监控、集体行为分析和体育视频分析等方面有着重要的学术和商业价值。近年来,随着深度学习的兴起,图卷积网络(Graph Convolutional Network,GCN)逐渐成为刻画组群行为识别交互关系的流行建模方式。组群行为识别是计算机视觉中的一个重要任务,而组群成员间的交互关系建模是其核心技术。本文为解决复杂场景下组群关系繁琐、进行关系推理时复杂度高、并存在信息冗余等问题,提出了一种分组交互关系推理的模型。首先,利用CNN网络和Ro IAlign提取视频帧中的场景信息和个人信息作为初始特征,并利用个人空间坐标对组群进行二分组(例如:在Volleyball数据集,为每个人建立序号ID,利用每个人的bounding boxes的X坐标信息,进行排序,以六个人为一组从左到右进行分组)。其次,将划分后的两个局部分组以及全局场景组群,分别利用GCN网络进行组交互关系推理,并确定各三个组的组内关键人物。然后,以全局关系特征作为真实值,将二分组的局部关系特征级联,作为预测的全局关系特征,构建两者之间的交叉熵损失函数,用来反馈优化上一级的分组交互关系GCN网络,旨在确保两分组的关键人物与全局关键人物能匹配成功。再以全局交互关系中的关键人物信息为指导,分别与两个分组的关键人物进行匹配计算,将匹配成功后两个小组中的关键人物为目标节点,建立组间关系图,并经GCN推理得到组间的关系特征。最后,初始特征分别与组间和全局交互关系特征融合得到两个组群行为支路,再经过决策融合得到最终的识别结果。实验表明,分别在Volleyball和NBA数据集上取得93.1%和48.1%的平均识别精度。