论文部分内容阅读
数据的类别不平衡问题是指数据集中各类别样本量比例严重失衡。交通事故数据是一种典型的不平衡数据:一般来说,仅导致财产损失的轻微事故占比最大,轻伤事故次之,重伤或死亡事故通常较少。传统分类模型往往更适用于平衡数据,在不平衡数据场景下只能提供次优的分类结果,即模型对多数类事故预测精度较高,但对少数类事故预测精度较低。然而,导致重伤或死亡的少数类事故常常才是决策者关注的重点。解决交通事故严重程度的极度不平衡问题,对于提高模型预测精度,深入挖掘各个特征因素的影响机理具有重要的理论和实际意义。论文的具体工作如下:首先,本文以两车追尾事故为研究对象,从美国芝加哥数据门户网站提取了2016-2020年共164361条事故数据,在对数据合并、清洗、标签编码后,利用链式方程多重插补法(Multiple Imputation by Chained Equations,MICE)填补数据缺失值,最终得到70668条涉及两车追尾的完整事故数据。再从驾驶员特征、车辆特征、道路特征和环境特征四个方面共选取18个事故特征作为模型的因素变量,经过独热编码后最终得到75个二分类自变量。其次,为解决事故数据严重程度的高度不平衡问题,本文将条件表格生成对抗网络(Conditional Tabular Generative Adversarial Networks,CTGAN)引入到交通安全领域,对三分类事故数据平衡化处理,最终生成了仅财产损失事故:轻伤事故:重伤及死亡事故为1:1:1的完全平衡数据。为对比不同数据平衡方法的效果,同时从过采样算法中选取SMOTE(Synthetic Minority Over-Sampling Technique)、ADASYN(Adaptive Synthetic Sampling)和KMeans SMOTE(K-Means+SMOTE)算法,从联合采样算法中选取SMOTEENN(SMOTE+Edited Nearest Neighbours)算法对数据平衡化处理。利用SDMetrics库(The Software Design Metrics tool for the UML)中的TVComplement指标对不同算法生成的人工数据进行质量评估,结果证明:CTGAN生成的人工数据更符合真实事故数据分布规律,其中重伤及死亡的人工事故数据质量得分0.9387,平均质量得分0.9480。之后,本文选取了随机森林和XGBoost两个集成学习模型,分别基于CTGAN、SMOTE、ADASYN、KMeans SMOTE以及SMOTEENN处理后的平衡数据构建了10个预测模型。选取Accuracy、F1-score、G-mean和AUC作为模型的评估指标,通过从横纵向比较模型结果发现,基于CTGAN的随机森林模型和XGBoost模型都提高了对少数类数据的预测精度,同时XGBoost模型相较于随机森林模型具有更强的预测性能。结果证明,CTGAN+XGBoost模型对少数类事故预测精度最高,综合分类性能最强,总体预测精度为0.7746,对轻伤事故预测精度为0.3885,对重伤及死亡事故预测精度为0.2258,AUC达到了0.6367。最后,基于可视化解释模型SHAP对最优模型CTGAN+XGBoost的预测结果进行了分析,深入探讨了影响事故严重程度的特征因素。从总体事故样本、仅财产损失事故样本、轻伤事故样本以及重伤及死亡事故样本四个方面分析了各个因素对事故的影响,从分析结果可知:事故前后车驾驶员行为、车辆类型、交通控制设施和年龄是影响事故严重程度的关键因素;不论前车后车,男性均比女性更容易发生追尾交通事故;设置道路分隔带能有效避免死亡事故发生,降低事故风险。并根据可视化分析结果,分别从人、车、路和环境四个方面提出针对性改善措施,从实际上降低事故风险,提高行车安全。本文依托国家自然科学基金青年基金项目“考虑数据不平衡及模型可解释性的交通事故严重程度致因机理研究”(批准号:52102404)开展研究。