基于CTGAN及模型可解释性的不平衡交通事故严重程度影响因素研究

被引量 : 0次 | 上传用户:rayasoft
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据的类别不平衡问题是指数据集中各类别样本量比例严重失衡。交通事故数据是一种典型的不平衡数据:一般来说,仅导致财产损失的轻微事故占比最大,轻伤事故次之,重伤或死亡事故通常较少。传统分类模型往往更适用于平衡数据,在不平衡数据场景下只能提供次优的分类结果,即模型对多数类事故预测精度较高,但对少数类事故预测精度较低。然而,导致重伤或死亡的少数类事故常常才是决策者关注的重点。解决交通事故严重程度的极度不平衡问题,对于提高模型预测精度,深入挖掘各个特征因素的影响机理具有重要的理论和实际意义。论文的具体工作如下:首先,本文以两车追尾事故为研究对象,从美国芝加哥数据门户网站提取了2016-2020年共164361条事故数据,在对数据合并、清洗、标签编码后,利用链式方程多重插补法(Multiple Imputation by Chained Equations,MICE)填补数据缺失值,最终得到70668条涉及两车追尾的完整事故数据。再从驾驶员特征、车辆特征、道路特征和环境特征四个方面共选取18个事故特征作为模型的因素变量,经过独热编码后最终得到75个二分类自变量。其次,为解决事故数据严重程度的高度不平衡问题,本文将条件表格生成对抗网络(Conditional Tabular Generative Adversarial Networks,CTGAN)引入到交通安全领域,对三分类事故数据平衡化处理,最终生成了仅财产损失事故:轻伤事故:重伤及死亡事故为1:1:1的完全平衡数据。为对比不同数据平衡方法的效果,同时从过采样算法中选取SMOTE(Synthetic Minority Over-Sampling Technique)、ADASYN(Adaptive Synthetic Sampling)和KMeans SMOTE(K-Means+SMOTE)算法,从联合采样算法中选取SMOTEENN(SMOTE+Edited Nearest Neighbours)算法对数据平衡化处理。利用SDMetrics库(The Software Design Metrics tool for the UML)中的TVComplement指标对不同算法生成的人工数据进行质量评估,结果证明:CTGAN生成的人工数据更符合真实事故数据分布规律,其中重伤及死亡的人工事故数据质量得分0.9387,平均质量得分0.9480。之后,本文选取了随机森林和XGBoost两个集成学习模型,分别基于CTGAN、SMOTE、ADASYN、KMeans SMOTE以及SMOTEENN处理后的平衡数据构建了10个预测模型。选取Accuracy、F1-score、G-mean和AUC作为模型的评估指标,通过从横纵向比较模型结果发现,基于CTGAN的随机森林模型和XGBoost模型都提高了对少数类数据的预测精度,同时XGBoost模型相较于随机森林模型具有更强的预测性能。结果证明,CTGAN+XGBoost模型对少数类事故预测精度最高,综合分类性能最强,总体预测精度为0.7746,对轻伤事故预测精度为0.3885,对重伤及死亡事故预测精度为0.2258,AUC达到了0.6367。最后,基于可视化解释模型SHAP对最优模型CTGAN+XGBoost的预测结果进行了分析,深入探讨了影响事故严重程度的特征因素。从总体事故样本、仅财产损失事故样本、轻伤事故样本以及重伤及死亡事故样本四个方面分析了各个因素对事故的影响,从分析结果可知:事故前后车驾驶员行为、车辆类型、交通控制设施和年龄是影响事故严重程度的关键因素;不论前车后车,男性均比女性更容易发生追尾交通事故;设置道路分隔带能有效避免死亡事故发生,降低事故风险。并根据可视化分析结果,分别从人、车、路和环境四个方面提出针对性改善措施,从实际上降低事故风险,提高行车安全。本文依托国家自然科学基金青年基金项目“考虑数据不平衡及模型可解释性的交通事故严重程度致因机理研究”(批准号:52102404)开展研究。
其他文献
永磁除铁器具有磁力强、结构简单、能耗小、操作简便、使用成本低等特点,本文主要介绍了不同种类型的永磁除铁器及其在多元材料前驱体中的应用,通过在多元材料前驱体制备过程中全流程使用永磁除铁器,可以有效低降低多元材料前驱体的磁性异物。
期刊
<正>鸭病毒性肝炎(Duck virus hepatitis,DVH)简称鸭肝炎,是主要发生于3周龄以下雏鸭的一种传播迅速、高度致死性的传染病。我国于1963年首次报道本病,分离的毒株为血清Ⅰ型。1965年在英国发现并分离了鸭病毒性肝炎病毒Ⅱ型。1969年美国人分离出鸭病毒性肝炎病毒Ⅲ型病毒。
期刊
干眼症是激光角膜屈光手术术后常见的并发症之一,本文总结了近年来激光治疗角膜屈光手术后干眼症的文献,对术后干眼症的治疗方法进行了综述,以期为术后干眼治疗提供更多临床思路。
期刊
电池制造过程出现的缺陷问题会极大影响电池产品的安全性等,其中产线金属异物侵入可能导致自发性内短路甚至引发热失控,然而目前关于其在电池内部的演化机理及相应的外在表征的研究较少,尤其是针对微小金属异物的研究。因此本研究在电池中植入百微米直径铜颗粒,模拟产线金属异物侵入形成缺陷电池,分析了缺陷电池内短路电流特征,拆解研究了内短路区域的微观结构,通过模型仿真了内短路区域的电位分布,综合解释了缺陷对产线关键
期刊
动力电池的安全日益受到关注,电池中异物的种类和尺寸对安全性能有较大的影响。基于软包装动力电池生产线常见的异物,从非金属、金属不同异物的种类和尺寸等角度分析对电芯的影响,提供软包装电池对异物耐受力的检测方法。机械和循环测试,以及对测试后电池拆解的结果表明,金属和硬质橡胶粒径一般不大于600μm以及纤维长度不大于2 000μm,对软包装电池的影响不大;电池在满电状态下,对异物的敏感度更高。
期刊
科学探究是科学学习的主要方式之一,也是培养学生科学思维的重要途径。在科学探究教学中,探究问题的设计是发展学生科学思维的关键。教学中,教师可以通过设计模拟绘图类问题、归纳分析类问题、质疑改进类问题,培养学生的科学思维,从而更好地提升学生探究能力,发展学生核心素养。
期刊
以长时间高血糖为特点的糖尿病作为一种日益流行的慢性代谢性疾病,可导致严重的健康问题。据估计,约25%的糖尿病患者会出现伤口愈合不良的现象,并可能导致下肢截肢,随之而来的是高昂的经济和社会成本。以间充质干细胞(Mesenchymal Stem Cells,MSCs)和生物材料为基础的细胞治疗在治疗糖尿病性溃疡方面具有巨大的潜力,但其作用机制以及与抗糖尿病药物的联合作用尚未完全阐明。本文首先通过慢病毒
学位
报纸
期刊
目的:建立测定氨溴特罗口服溶液中羟乙基纤维素的高效液相色谱-电雾式检测器(HPLC-CAD)方法。方法:采用TSKgtl G2000SW(60 cm×7.5mm, 10μm),以10 mmol·L-1乙酸铵(pH 4.5)-乙腈=95∶5为流动相,柱温:30℃,流速:1.0 mL·min-1,电雾式检测器的蒸发温度为50℃。结果:该方法对羟乙基纤维素专属性良好,精密度、平行性和回收率均满足分析要求
期刊