论文部分内容阅读
理解视频中群体人物的行为语义是人工智能领域的难点,主要任务要求运用深度学习、强化学习等算法整合序列化的人物动作线索来推理视频群体人物的行为语义。近年来模式识别技术的发展已能基本满足图像中个人动作的识别要求,但对视频中群体人物行为的研究还有待开拓。本学位论文以识别视频中群体人物的行为语义为研究目标,首先设计一种基于关键语义的特征提取方法抽取视频主要内容的多维融合特征,再设计一种基于目标候选区域的人物检测方法并行分类和定位视频中的群体人物,最后设计一种基于时空轨迹的语义抽取方法完成对群体人物行为的理解。本文的工作创新主要体现在以下三个方面:(1)利用视频帧层次聚类结果选取聚类中心,使用K-means算法优化层次聚类结果,抽取视频关键语义序列,利用双向特征处理通道融合多层级视频特征,完成视频多维融合特征的提取。在KTH数据集上进行关键帧提取实验,实验结果表明本文设计的基于视频内容的关键帧提取算法具有较高的关键帧查全率,能够有效聚焦视频关键语义。在COCO数据集上进行特征提取实验,实验结果表明本文设计的基于卷积神经网络的特征融合算法所提取的视频特征能够有效利用低层位置信息,具有更强的特征表达能力。(2)利用重复删除网络进行候选框去重,融合分类置信分数和分类概率结果选定目标候选框,引入多任务损失结构进行训练学习,并行处理目标边界框的类别分类和位置回归。在COCO数据集上进行目标检测实验,实验结果表明本文设计的基于多维融合特征的目标边界框提取算法获得较优的目标检测效果,能够更好地回归目标位置。在Volleyball数据集上进行人物定位实验,实验结果表明本文设计的基于人物特征的视频群体人物定位算法能够通过一阶段调参准确定位人物位置,减少计算成本。(3)利用掩码位置匹配特征进行帧间人物匹配,通过两层循环神经网络关联群体人物间的行为关系,构建行为时空关联模型抽取视频中群体人物的行为语义。在Volleyball数据集上进行语义抽取实验,实验结果表明,本文设计的基于运动特征的视频群体人物轨迹跟踪算法能够持续准确地追踪运动轨迹,更适用于群体人物场景,本文设计的基于循环神经网络的视频群体人物行为关联算法能够有效融合时空线索,具有较高的语义抽取准确率。