论文部分内容阅读
自动驾驶技术是提高交通运行效率、降低事故发生率、增强辅助驾驶智能化体验的重要手段。随着硬件运算能力的不断提升,以及低成本的环境状态采集设备的迭代更新,自动驾驶相关课题在近年来引发了科研人员的广泛关注和深入研究。自动驾驶系统通常由环境感知、路径规划和决策控制三部分构成,而实现对复杂交通场景状态的准确感知是系统稳定运行的基础和前提。由于基于机器视觉的环境感知技术具有适用范围广、安装部署便利、算法成熟度高、硬件价格相对低廉等方面的优势,使其逐渐成为了目前主要的研究方向之一。本文关注于自动驾驶环境感知任务中的行人检测、单目标跟踪和多目标跟踪课题,通过探究、改进现阶段相关算法中存在的问题与不足,实现对复杂交通场景下行人的有效检测和运行轨迹估计,进而及时预警并避免事故的发生。所涉及的主要工作如下:(1)为了解决基于部件的行人检测仅利用子模型与主模型之间的空间先验对人体结构进行编码,缺乏对部件之间关联属性进行有效描述的问题,建立了基于人体树图模型的行人检测框架。首先,定义人体各部件之间的父子关系,通过对父子部件对所属类型进行聚类,获取训练样本的隐藏变量。其次,为了兼顾类内紧密性和类间分离性,基于均方误差和戴维森堡丁指数构建包含两阶段适应度函数的混合粒子群聚类(Hybrid Particle Swarm Clustering,HPSC)算法,解决K-means对初始聚类中心敏感,且聚类中心数量依据主观经验而定的缺陷。最后,在检测阶段利用离线训练模型,结合动态规划算法求解状态转移方程生成行人检测结果。在基准数据集上的测试结果证明了所提改进策略的有效性,以及整体行人检测算法的准确性与鲁棒性。(2)针对复杂交通场景下YOLO-V4算法在应对行人密集遮挡方面存在的性能局限,通过优化网络结构,并设计有效的多尺度特征融合策略和网络损失函数,构建了改进的YOLO-V4行人检测框架(Improved YOLO-V4,Im-YOLOV4)。首先,根据行人检测对象将算法设定为单一网络输出,并利用所提阶梯融合策略整合来自多种尺度的图像信息,在保证锚点的宽高比估计依然由数据驱动的情况下,有效解决原始网络对于近似目标的无效锚点分配问题。其次,调整输出特征图与网络输入图像的分辨率比率,以减少训练样本的标签重写案例。最后,引入排斥力的概念对边界框回归损失函数进行优化,进一步改善模型对于密集遮挡行人的检测鲁棒性。实验结果表明,Im-YOLOV4能够显著提高原始算法的行人检测性能,且在自动驾驶领域应用具有更高的鲁棒性。(3)为了提升基于孪生网络的单目标跟踪算法在复杂交通场景下的行人跟踪性能,提出了一种包含多阶段的单目标跟踪框架D-CRPN(Siamese Tracking with Deeper Networks and Cascaded Region Proposal Network,D-CRPN)。首先,通过内部裁剪操作对残差模块进行重构,并利用其搭建骨干网络,以从模型结构本身解决填充操作对于网络平移不变性的破坏。其次,为了有效整合具有强互补性的深层语义和浅层空间信息,为不同阶段网络设计了特定的特征传输模块(Feature Transfer Block,FTB),并对整体网络的RPN输出进行决策级融合,进一步提升模型的跟踪性能。最后,针对RPN模块的输出响应图提出了一种质量度量方法,并将其应用于决策级融合时自适应权重的计算。实验结果表明,所提D-CRPN在采用更深主干网络的情况下,能够有效利用网络不同阶段输出信息的互补性,切实提高算法的目标跟踪准确率。(4)针对实际交通场景下的人员多目标跟踪需求,结合所提Im-YOLOV4行人检测器和D-CRPN单目标跟踪器,提出了一种基于时空线索融合与优化级联匹配的多目标跟踪框架。首先,利用运动模型和外观模型设计了可靠的在线多目标跟踪算法流程。其次,在时空线索融合阶段,通过跟踪质量评价实现对候选结果的扩充,并考虑遮挡因素制定了适应的单目标跟踪器停止更新条件;在长期线索提取阶段,提出了轨迹历史外观筛选策略和轨迹评分机制,以提升长期线索质量并对级联匹配优先级次序进行优化。最后,通过运动估计和运动补偿消除相机抖动对于运动信息约束有效性的影响,并利用外观及运动匹配和数据关联算法完成多目标跟踪任务。在MOT Challenge 16和MOT Challenge 17数据集上的测试结果表明,所提方法通过融合视频长短期线索实现了对真实场景下行人的鲁棒多目标跟踪。