使用XGBoost机器学习方法预测辽宁省人间布鲁氏菌病发病的研究

来源 :中国医科大学 | 被引量 : 0次 | 上传用户:longxmb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:通过分析2008-2017年辽宁省人间布鲁氏菌病(简称:布病)发病规律和气象特征的重要程度,探索季节性ARIMA(Autoregressive Integrated Moving Average,ARIMA)模型、XGBoost(e Xtreme Gradient Boosting,XGBoost)机器学习模型在布病发病短期预测中的应用。通过平均绝对误差(Mean Absolute Error,MAE)、均方根误差(Root Mean Squard Error,RMSE)和平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)指标比较ARIMA模型和XGBoost机器学习模型的预测效果,从中选择出最适合辽宁省布病预测的模型。为传染病发病的精准预测提供新的思路,为制定辽宁省布病预防预警策略提供科学依据。方法:将2008年1月-2016年12月辽宁省人间布鲁氏菌病发病数据和气象数据作为训练集;将2017年1月-2017年12月辽宁省人间布鲁氏菌病发病数据作为测试集。用训练集中布鲁氏菌病发病数据建立ARIMA模型,并使用测试集测试ARIMA模型预测效果;用训练集中布鲁氏菌病发病滞后数据建立XGBoost机器学习模型(不含气象因素),并使用测试集测试XGBoost机器学习模型预测效果;通过随机森林交叉验证的方法从训练集中布鲁氏菌病发病和气象的滞后数据中筛选出特征变量,使用特征变量建立XGBoost机器学习模型(含气象因素),并使用测试集测试XGBoost机器学习模型预测效果。结果:1.2008-2017年辽宁省人间布鲁氏菌病发病呈现春季增长趋势,5月份发病人数最多;秋季呈下降趋势,12月份发病人数最少。2.通过随机森林交叉验证对训练集进行了特征筛选,并得到了10组数据变量,按照其重要程度由大到小排序如下:发病数滞后12个月、发病数滞后个1月、发病数滞后11个月、发病数滞后2个月、发病数滞后10个月、湿度滞后7个月、气温滞后10个月、气压滞后4个月、气压滞后11个月、湿度滞后2个月。3.季节性ARIMA(0,1,2)×(0,1,1)[12]模型训练集的MAE、RMSE和MAPE值分别为18.842、25.975和16.749%;测试集的MAE、RMSE和MAPE值分别为49.653、58.970和29.122%。XGBoost模型(不含气象因素)训练集的MAE、RMSE和MAPE值分别为12.248、19.013、和11.622%;测试集的MAE、RMSE和MAPE值分别为39.687、44.449和26.303%。XGBoost模型(含气象因素)训练集的MAE、RMSE、MAPE分别为11.777、18.560、10.276%;测试集的MAE、RMSE、MAPE分别为28.955、37.864、17.973%。结论:1.2008-2017年辽宁省人间布病发病呈现较明显的季节性。2.对于2008-2017年辽宁省人间布病发病数预测,XGBoost模型(不含气象因素)比乘积季节性ARIMA(0,1,2)×(0,1,1)[12]模型预测精度更高。3.对于2008-2017年辽宁省人间布病发病数预测,XGBoost模型(含气象因素)比XGBoost模型(不含气象因素)和乘积季节性ARIMA(0,1,2)×(0,1,1)[12]模型预测精度都要高。4.对于2008-2017年辽宁省人间布病发病数预测,加入气象数据能够大幅提高XGBoost模型的预测精度。
其他文献
文章从张弦结构的特性出发,以张弦结构的力学逻辑为原则,通过对张弦结构形态和界面属性的总结,对张弦结构的空间表现与强化进行深入分析解读,试图突破传统张弦结构的限制和禁锢,为张弦结构在公共建筑中的设计应用提供一种艺术性的空间表现方法。
目的 建立低共熔溶剂(deep eutectic solvent,DES)-超高效液相色谱-串联质谱法(ultra performance liquid chromatography-tandem mass spectrometry, UPLC-MS/MS)快速检测肉制品、水产品中3种非法添加工业染料(刚果红、酸性金黄、红2G)的分析方法。方法 样品经水稀释,微量DES分散萃取,乙腈复溶。三重四极
目的:调查体检人群中甲状腺结节的发病情况,同时研究影响甲状腺结节发病的相关指标,分析影响其患病的相关危险因素,通过随访了解甲状腺结节的发生发展变化,为健康人群预防甲状腺结节的发生和早期筛查提供依据。方法:选取2017年至2019年在中国医科大学附属第四医院体检中心做甲状腺超声检查的566名健康体检者为研究对象,收集研究对象的基本情况、相关检验检查指标。随访患甲状腺结节者3年甲状腺超声的变化情况,包
目的:高血压因其高患病率和随之而来的心血管疾病风险,成为一项全球范围内的重大公共卫生问题。超重和肥胖是高血压发病的常见危险因素,可以用来衡量超重肥胖的体重指数(Body mass index,BMI)已被证实是高血压的可靠预测指标。但迄今为止很少有研究证明BMI在一定时间内的变化与近期和远期高血压发病结局之间的关系。本研究旨在调查BMI变化对中国辽宁农村地区高血压发病的影响。方法:本研究为一项前瞻
目的:丙型肝炎病毒(HCV)感染的流行情况通常根据目前抗-HCV抗体的阳性率来评估,而HCVRNA的阳性率被认为是临床抗病毒治疗的主要标准。本研究采用抗-HCV和HCVRNA检测方法,对辽宁省人群近5年来的HCV感染情况进行了调查,探讨育龄期人群血清HCV感染情况以及血清抗-HCV阳性母亲所分娩的新生儿丙型肝炎病毒感染情况,为临床筛查丙肝高危人群及合理干预减少丙肝母婴传播提供依据。研究方法:本研究
目的:肥胖和胰岛素水平可以通过新陈代谢相互影响。但是,它们的时间序列关系及其对高血压的影响通常是未知的。本研究旨在探讨腰臀比(WHR)和甘油三酯-葡萄糖指数(Ty G)之间的关系及其对高血压的影响。方法:于2013年在辽宁省大洼、彰武和辽阳县农村地区采用多阶段随机整群抽样方法建立了心血管疾病研究队列,并于2015年8月—2016年1月对其中≥35岁农村居民进行随访调查。采用交叉滞后路径分析描述了W
为了解重庆市草莓农药残留状况,2019—2021年在实验室对来自该市102家企业150批次的草莓进行了68项农药残留检测。结果表明,共检出农药23种,样品农药检出率为94.67%,不合格率为10.67%,春草莓不合格率略高。对草莓检出农药的我国限量与美国、日本的规定进行比较,按美国的规定不合格率最低,为0.67%,说明这150批次产品食用安全风险较低。绝大多数样品检出多种农药,甚至1个样品中检出农
目的:阐明2004年1月至2017年12月辽宁省肾综合征出血热(Hemorrhagic Fever with Renal Syndrome,HFRS)的流行特征和变化规律;筛选和肾综合征出血热发病相关的气象因素并分析两者的滞后效应;比较长短期记忆神经网络模型(Long Short-Term Memory,LSTM)和自回归求和移动平均模型(Auto-Regression Integrated Mo
目的:布鲁氏菌病是一种世界范围内广泛分布的人畜共患病,由布鲁氏菌引起,人类通常通过直接接触受感染的动物,食用或饮用受污染的动物及其产品或吸入受污染的空气而感染疾病。目前,我国人布鲁氏菌病的诊断主要从流行病学接触史、临床症状、实验室检查三部分进行,但由于人类布鲁氏菌病的临床表现主要为发热、关节痛、乏力、出汗等,属于非特异性表现,疾病初期易被误诊或漏诊而导致病情延误,成为难以治愈的反复性疾病,不仅给健