论文部分内容阅读
随着深度学习不断发展,卷积神经网络已经广泛应用到各种计算机视觉领域。对于图像中的人群计数问题,本文主要利用卷积神经网络来解决人群图片中尺度不一、分布不均、背景复杂等造成的人群计数误差。具体的研究内容如下:1、基于一致性损失函数约束的全局感知人群计数算法。人群密度对于生成精确的密度图有着关键的作用,基于这一出发点,本文提出一种全局感知神经网络,该网络由两个部分组成:第一部分使用VGG网络的前十层,作为本文的基础主干网络;网络的第二部分由特征提取分支和全局感知分支组成。该设计在特征提取网络后加入全局感知分支,利用全局池化层获取特征图的均值输出,并将输出缩放至原特征图大小,再将全局感知分支的输出特征和特征提取分支的输出特征融合在一起,生成密度图。基于原图包含的人数与其裁剪之后的子图包含的人数之和相等这一现象,本文提出一致性损失函数,一致性损失函数与欧式距离损失函数相结合作为网络最终的损失函数。2、基于排序损失函数约束的双分支尺度感知人群计数算法。由于拍摄角度不同造成人群图片中人头尺度不一致,本文提出了一种双分支尺度感知神经网络,该网络由两个主要部分组成:第一部分使用VGG网络的前十层,作为本文的基础主干网络;网络的第二部分为双分支(分别称为Branch_S和Branch_D)网络,Branch_S通过浅层全卷积网络提取低级信息(头部斑点),Branch_D使用深层全卷积网络提取高级语义特征(面部和身体)。两个不同分支学习的特征可以解决由于透视效果和图像大小差异而导致的尺度不一致问题。将两个分支中提取的不同尺度特征融合在一起,生成预测的密度图。基于原图包含的人数必然不少于其任意子图包含的人数这一事实,利用图像内部的人数约束关系本文提出排序损失函数,排序损失函数与欧式距离损失函数相结合作为网络最终的损失函数。3、基于结构相似性损失函数约束的多通道融合分组卷积网络人群计数算法。相机视角引起的头部尺度多变性和人群分布的多样性是图像人群计数中存在的两个主要挑战,很多方法试图通过采用多列或者多分支网络来解决这些问题,但由于受列数或分支数的限制,提取的特征尺度有限。本文提出一种面向稠密人群计数的多通道融合分组卷积神经网络,该网络主要由两个部分组成:第一部分使用VGG网络的前十层,作为本文的基础主干网络;网络的第二部分为多通道融合分组卷积模块,多通道融合分组卷积模块是本网络的关键组成部分,该模块中每个分组卷积模块都与其他层之间密集相连以获得不同层次的特征,同时,引入分组卷积来减少网络参数。本文采用生成密度图的方式完成计数任务,因此,基于图片的结构相似性提出结构相似性损失函数,结构相似性损失函数与欧式距离损失函数相结合作为网络最终的损失函数。本文从三个不同或相同的角度出发提出三种人群计数算法,并且在三个公开的数据集上与现有算法相比,取得了有竞争性的实验结果。