论文部分内容阅读
人体的视觉感知与理解在安防监控、自动驾驶、人机交互、视频内容分析等方面有诸多的应用前景,因而一直是计算机视觉领域的重要研究课题,受到工业界和学术界的广泛关注。多年来,研究员们围绕这一课题中的关键技术展开研究,并取得了丰硕成果。然而,目前的技术研究大多是聚焦于其中的主流问题,技术覆盖不够全面,将这些技术落地到实际应用场景时,尚存在一些诸如恶劣光照条件下对人体的检测定位不够理想,对人体细粒度行为的识别不够准确等问题。因此,针对实际应用场景面临的复杂挑战,研究更鲁棒的视觉感知算法,具有重要的现实意义。
本文围绕人体的视觉感知与理解的关键技术展开研究,重点探索了基于多光谱(彩色图和热成像)的行人检测算法和基于骨架辅助的视频行为识别算法。具体来说,本文的研究成果可概括如下:
·提出了一种光照感知自适应的多谱行人检测方法。考虑到彩色图在恶劣光照下的成像质量差的固有缺陷,采用了包含彩色图和热成像的多光谱数据进行行人检测,重点对信息融合方法进行探索。将Faster R-CNN拓展用于多模态输入,讨论了6种不同的基础网络融合结构并分析了在实现细节上的优化方式。实验显示,即使是基础的网络融合方式,经过实现细节的优化,检测性能上已几乎赶上一些采用额外模块的复杂方法。还发现彩色图对行人的判别能力和光照条件有很强的相关性,于是进一步提出了光照感知融合模型IAF R-CNN,模型包含彩色图和热成像的两个子网络以及光照感知融合模块。引入光照感知加权融合机制,首先根据光照感知网络预测光照值,然后通过门控函数产生自适应的融合权重,并用以加权融合两个子网络的检测输出,从而得到最终的检测结果。实验表明,本文提出的IAF R-CNN在不同光照条件下都能鲁棒地检测行人,检测精度超过了之前发表的工作。
·提出了一种协同检测分割的多光谱行人检测方法。上一方法虽然对多光谱行人检测算法的检测精度有一定提升,但建立的人类检测基准显示,现有检测算法和人类感知能力相比还有很大差距。为了进一步缩小这个差距,又提出了MSDS—RCNN多光谱行人检测模型,该模型包含一个多光谱区域推荐网络用于提供行人包围框推荐,和一个多光谱候选框分类网络用于处理困难样本分类。在网络训练时,将包围框编码为语义分割掩码并作为额外的监督,采用多任务损失函数,联合优化检测任务和语义分割任务。还利用了不同模态分支和不同网络阶段的互补性,进行多分支集成得到最终检测结果。实验表明,MSDS—RCNN在检测精度上显著超过了其它方法,在KAIST数据集上较之前最好的结果降低了27%的相对误差。因为KAIST数据集原始的训练数据包含很多有问题的标注,还建立了一份纯净版本的训练数据标注,并基于此分析了数据噪声对训练所得模型的性能影响。将这份纯净版本的训练数据标注开放,希望这有助于多光谱行人检测问题上的后续研究。
·提出了一种骨架信息辅助的视频行为识别方法。骨架信息是表征人体行为的重要高级特征,有助于辨识细粒度的人体行为。现有基于骨架的方法大多是以固定格式的单人骨架(如13×2的坐标数组)作为算法输入的,但是真实视频中往往会出现多个人体,或有的人只有部分身体可见。本文提出了一种灵活的的人体骨架信息编码策略,可以将不规则的2D人体骨架输入编码为光点图像和位移图像,然后可直接作为卷积神经网络的输入,从而将骨架模块整合于行为识别网络中。还验证了骨架特征和全局特征是高度互补的,进而提出了一个结合全局特征和骨架特征的行为识别框架,通过加权融合方式集成全局和骨架特征。在公开数据集上验证了本文方法的有效性,识别准确率超过了之前的方法。
本文围绕人体的视觉感知与理解的关键技术展开研究,重点探索了基于多光谱(彩色图和热成像)的行人检测算法和基于骨架辅助的视频行为识别算法。具体来说,本文的研究成果可概括如下:
·提出了一种光照感知自适应的多谱行人检测方法。考虑到彩色图在恶劣光照下的成像质量差的固有缺陷,采用了包含彩色图和热成像的多光谱数据进行行人检测,重点对信息融合方法进行探索。将Faster R-CNN拓展用于多模态输入,讨论了6种不同的基础网络融合结构并分析了在实现细节上的优化方式。实验显示,即使是基础的网络融合方式,经过实现细节的优化,检测性能上已几乎赶上一些采用额外模块的复杂方法。还发现彩色图对行人的判别能力和光照条件有很强的相关性,于是进一步提出了光照感知融合模型IAF R-CNN,模型包含彩色图和热成像的两个子网络以及光照感知融合模块。引入光照感知加权融合机制,首先根据光照感知网络预测光照值,然后通过门控函数产生自适应的融合权重,并用以加权融合两个子网络的检测输出,从而得到最终的检测结果。实验表明,本文提出的IAF R-CNN在不同光照条件下都能鲁棒地检测行人,检测精度超过了之前发表的工作。
·提出了一种协同检测分割的多光谱行人检测方法。上一方法虽然对多光谱行人检测算法的检测精度有一定提升,但建立的人类检测基准显示,现有检测算法和人类感知能力相比还有很大差距。为了进一步缩小这个差距,又提出了MSDS—RCNN多光谱行人检测模型,该模型包含一个多光谱区域推荐网络用于提供行人包围框推荐,和一个多光谱候选框分类网络用于处理困难样本分类。在网络训练时,将包围框编码为语义分割掩码并作为额外的监督,采用多任务损失函数,联合优化检测任务和语义分割任务。还利用了不同模态分支和不同网络阶段的互补性,进行多分支集成得到最终检测结果。实验表明,MSDS—RCNN在检测精度上显著超过了其它方法,在KAIST数据集上较之前最好的结果降低了27%的相对误差。因为KAIST数据集原始的训练数据包含很多有问题的标注,还建立了一份纯净版本的训练数据标注,并基于此分析了数据噪声对训练所得模型的性能影响。将这份纯净版本的训练数据标注开放,希望这有助于多光谱行人检测问题上的后续研究。
·提出了一种骨架信息辅助的视频行为识别方法。骨架信息是表征人体行为的重要高级特征,有助于辨识细粒度的人体行为。现有基于骨架的方法大多是以固定格式的单人骨架(如13×2的坐标数组)作为算法输入的,但是真实视频中往往会出现多个人体,或有的人只有部分身体可见。本文提出了一种灵活的的人体骨架信息编码策略,可以将不规则的2D人体骨架输入编码为光点图像和位移图像,然后可直接作为卷积神经网络的输入,从而将骨架模块整合于行为识别网络中。还验证了骨架特征和全局特征是高度互补的,进而提出了一个结合全局特征和骨架特征的行为识别框架,通过加权融合方式集成全局和骨架特征。在公开数据集上验证了本文方法的有效性,识别准确率超过了之前的方法。