论文部分内容阅读
目的:1.采用单因素分析,探讨脑卒中型烟雾病的临床特征;2.建立和验证烟雾病缺血性/出血性脑卒中危险因素的机器学习模型;3.比较六个机器学习模型的性能;4.采用联合三个机器学习模型共同的特征重要性排序与单因素分析结果相结合的方法,确定烟雾病患者缺血性/出血性脑卒中的危险因素。方法:采集南昌大学第二附属医院大数据库中2012年1月1日至2019年12月31日入院的确诊为烟雾病的患者相关资料(包括患者的性别、发病年龄、民族、长期居住地、医疗保险类型、住院次数、吸烟史、饮酒史、烟雾病家族史、高血压病史、糖尿病病史、入院时空腹血糖、血脂水平、血小板计数、受累血管及血管受累程度、Suzuki分期、合并动脉瘤、首次发作脑卒中的类型以及合并其它疾病等因素);根据入选标准和排除标准将入选的患者分为三部分,其中2012年1月1日至2017年12月31日入院的入选患者按7:3比例被随机分割为训练数据集和内部验证数据集,用于模型的构建和内部验证;并将2018年1月1日至2019年12月31日入院的入选患者作为模型独立的外部验证数据集,用于模型的外部验证;所有入选的患者根据首次发作的脑卒中类型被纳入脑梗死组和脑出血组。首先,采用单因素分析,比较2012年1月1日至2017年12月31日入院的入选患者的相关资料,从而探讨脑卒中型烟雾病患者的临床特征,并根据分析结果初步筛选烟雾病患者缺血性/出血性脑卒中的危险因素;再者,对所采集的训练数据集分别采用XGboost(extreme Gradient Boosting)、SVM(Support vector machine)、LR(Logistic regression)、MLP(Multilayer Perceptron)、RF(Random Forest)和NB(Naive Bayes)六种机器学习算法建立六个烟雾病缺血性/出血性脑卒中危险因素的分析模型,并在内部验证数据集和外部验证数据集中对六个模型进行验证;而后比较这六个模型的性能。最后,采用联合三个模型(XGboost,SVM和LR模型)共同的特征重要性排序与单因素分析结果相结合的方法,综合分析确定烟雾病患者缺血性/出血性脑卒中的危险因素;结果:1、研究对象根据入选标准和排除标准采集南昌大学第二附属医院大数据库中2012年1月1日至2019年12月31日入院的烟雾病患者的相关资料,共994例患者入选(脑梗死组共496例,脑出血组共498例);其中2012年1月1日至2017年12月31日入院的入选患者共790例(脑梗死组共397例,脑出血组共393例),采用单因素分析比较这部分患者的资料,并将这部分患者按7:3的比例随机分割为模型的训练数据集和内部验证数据集(训练数据集n=553,内部验证数据集n=237);2018年1月1日至2018年12月31日入院的入选患者共204例(脑梗死组共99例,脑出血组共105例),这部分患者被作为模型独立的外部验证数据集(n=204)。2、临床特征本研究第2章的结果显示:脑卒中型烟雾病患者中,脑梗死组与脑出血组的患者例数基本相等(397例:393例),男女性别比例为1.02:1,中老年(≥45岁)为高发年龄(551例,69.75%);入选的烟雾病患者“乡镇居住地”比较常见(664例,84.05%),且患者颈内动脉受累(434例,54.94%)较大脑中动脉受累(356例,45.06%)略常见,就血管受累程度而言,受累血管狭窄(625例,79.11%)较闭塞(165例,20.89%)常见;入选的烟雾病患者Suzuki分期主要集中在第2,3,4,5期。3、单因素分析两组患者的“性别”、“发病年龄”、“长期居住地”、“医疗保险类型”、“住院次数”、“高血压病史”、“糖尿病病史”、“入院时空腹血糖”、“高密度脂蛋白”、“甘油三酯”、“合并动脉瘤”、“受累血管”、“血管受累程度”以及“Suzuki分期(2,3,4,5期)”均存在显著差异;在这些因素中,“女性”、“中老年(≥45岁)”、“住院次数较多”、“高血压病史”、“空腹血糖增高”、“高密度脂蛋白降低”、“甘油三酯增高”、“受累血管狭窄”和“Suzuki分期第2,3期”可能是烟雾病患者发生缺血性脑卒中的危险因素;然而,“男性”、“青壮年(18岁—44岁)”、“乡镇居住地”、“住院次数较少”、“颈内动脉受累”、“受累血管闭塞”、“合并动脉瘤”以及“Suzuki分期第4,5期”,这些危险因素可能与烟雾病患者发生出血性脑卒中密切相关。4、模型的建立和验证对所采集的数据集分别采用XGboost、SVM、LR、MLP、RF和NB六种机器学习算法建立烟雾病缺血性/出血性脑卒中危险因素的分析模型,并对这六个模型在内部验证数据集和独立的外部验证数据集中进行验证。六个机器学习模型在内部验证数据集中的区分能力均较好(AUC>0.75);外部验证集的结果显示,六个模型在外部验证数据集中的评价指标与它们各自在内部验证数据集中的相应评价指标非常接近。因此,提示这六个模型均不存在数据“过拟合”,模型的结果准确可靠。5、模型的比较在六个机器学习模型中,XGboost,SVM和LR模型的区分能力最佳,尤其XGboost模型表现最为突出,它们在内部验证集中的AUC值依次分别为0.874(95%CI:0.859,0.889)、0.855(95%CI:0.839,0.871)、0.854(95%CI:0.838,0.869)。在内部验证集中,XGboost模型就区分能力和准确性方面可能都优于SVM和LR模型,但在统计学上无显著性差异;相对于SVM和LR模型,XGboost模型在内部验证数据中的准确能力均有所改善,改善率分别为3.1%和3.2%,但在统计学上无显著性差异。6、模型的特征重要性两组患者的“Suzuki分期”、“合并动脉瘤”、“乡镇居住地”、“发病年龄”以及“住院次数”在XGboost,SVM和LR模型的特征重要性排序中都排在前十位,其中“Suzuki分期”、“合并动脉瘤”和“乡镇居住地”在三个模型的特征重要性排序中更是依次排在前三位,提示这些因素对模型的结果有很大的影响。结论:1.脑卒中型烟雾病的临床特征:脑卒中型烟雾病患者脑梗死与脑出血的发病率基本相等,中老年(≥45岁)是高发年龄,女性略多见,乡镇居住地多发,以颈内动脉狭窄多见,Suzuki分期主要集中在第2,3,4,5期。2.单因素分析结果显示:“女性”、“中老年(≥45岁)”、“住院次数较多”、“高血压病史”、“空腹血糖增高”、“高密度脂蛋白降低”、“甘油三酯增高”、“受累血管狭窄”和“Suzuki分期第2,3期”这些危险因素可能与烟雾病患者发生缺血性脑卒中密切相关;3.单因素分析结果显示:“男性”、“青壮年(18岁—44岁)”、“乡镇居住地”、“住院次数较少”、“颈内动脉受累”、“受累血管闭塞”、“合并动脉瘤”以及“Suzuki分期第4,5期”这些危险因素可能与烟雾病患者发生出血性脑卒中密切相关。4.XGboost、SVM和LR等机器学习模型在分析烟雾病缺血性/出血性脑卒中危险因素方面的结果准确、可靠;其中XGboost模型表现最优秀,SVM和LR模型次之。5.多模型联合的结果显示:“Suzuki分期”、“合并动脉瘤”、“乡镇居住地”、“发病年龄”和“住院次数”可能是烟雾病患者发生出血性脑卒中的重要危险因素。