论文部分内容阅读
随着全球化的不断推进,群体性聚集活动和行为发生的频率越来越高,智能监控作为有效对人群活动进行管控和处理分析的工具被广泛应用在各种各样的场合。进一步,想要对人群活动进行分析,其中最重要和基础的指标则是人群密度。目前,人群计数的研究实现了较大的发展,但是面对复杂多变的人群场景,仍然存在一系列的挑战。近年来,卷积神经网络(CNN)成为计算机视觉研究领域的热点话题,其优秀的特征提取和泛化能力被广泛应用在各种各样的计算机视觉任务上。同样,CNN可以有效解决在复杂背景下人群计数特征提取这个关键的问题。然而,目前的深度计数网络往往采用多列或者多尺度的结构设计,这类设计存在参数冗余,难训练等一系列问题,导致最终模型的计数性能受到严重制约。为了有效解决对尺度相关特征提取的问题,本文基于VGG网络和深度残差理论,设计了一种深度残差计数网络(RBBCNN)。整个网络以残差块为基本单元,从语义上分为编码和解码两个阶段,针对不同的输入输出关系,辅助于三种不同的残差单元来实现具体的残差连接,整个网络兼顾加深网络以增强模型的表征能力来提取人头特征和易训练等特点。同时,为了验证残差连接的有效性,我们也进行了有效性分析的对比实验。在ShanghaiTech、UCSD和MALL上三个经典的不同稀疏程度的人群计数数据集上实验表明,RBBCNN能够兼顾稀疏和稠密的人群场景,实现较低的计数误差。此外,本文还设计出了一种基于跨层并行的深度计数模型(CLPNet),该网络有效地融合了跨层特征和多尺度特征,来解决人群场景中人头尺度变化大的问题,为此又精心设计了五种尺度聚合模块来融合不同语义层级的特征。另一个解决密度、尺度变化大的措施是,CLPNet输出双路密度图来更好匹配不同大小的人头特征和预设的高斯核区域,从全局的图片层级考虑来降低计数误差。进一步,为了弥补欧式损失的不足,网络中引入结构相似性损失来度量周围像素的相关性,联合欧式损失对整个网络进行参数优化。在特定数据集上,我们进行了有效性的对比分析,同时在四个主流的数据集上也进行了结果的对比试验和分析,结果表明CLPNet具有较高的计数精度和较强的泛化能力。