论文部分内容阅读
目的: 流行性感冒(简称流感),是由流感病毒引起的急性呼吸道传染性疾病,具有起病急、传播快、感染性强等特点。仅20世纪以来,人类就经历了五次世界性的流感大流行,它们分别是1918年的“西班牙流感”、1957年的“亚洲流感”、1968年的“香港流感”、1977年的“俄罗斯流感”和2009年的甲型H1N1流感,每一次大流行都造成了巨大经济损失,严重的社会恐慌,并对人类健康产生了严重威胁。在全世界范围内,每年约有25~50万人死于流感。目前,根据预测模型自变量的不同,流感疫情预测的方法主要分为三大类:一类是不考虑气象等因素,仅依赖历史流感发病数据的流感疫情预测;另一类是传统的使用气象因素作为自变量预测流感疫情;最后一类是基于互联网数据的流感疫情预测,主要是基于流感相关核心词的谷歌趋势,百度指数等互联网搜索数据的流感疫情预测。又根据预测因变量的不同—流感发病率或基于发病率的发病率等级,预测模型分为预测发病率的回归模型和是否暴发流行的分类模型。同时机器学习的算法也被广泛应用于流感疫情预测的回归和分类模型中。虽然有多种机器学习算法用于流感疫情预测,且都有不错的预测效果,但并没有对各种预测模型预测性能进行系统的比较。香港位于中国华南沿海地区,是全世界人口密度最高的地区之一;仅自1968年以来,香港就暴发了三次流感暴发流行,分别是1968年的有H3N2病毒引起的“香港流感”,2009年的由甲型H1N1引起的香港流感暴发流行以及2015年的香港流感暴发流行,每次流感暴发流行都对香港地区的造成了较大的经济损失并对人们的健康产生了严重威胁,流感疫情的预测有利于降低和控制流感对社会的危害。本研究中,我们以香港地区为例,基于气象因素和流感搜索指数分别构建了多种回归和分类预测模型预测流感疫情,并评价各模型的预测性能,挑选最佳的预测模型,用于流感疫情预测。 方法: 香港地区2011年7月1日至2016年8月27日,共270周的流感样病例周求诊率从香港卫生署卫生防护中心的官方网站获得;我们从香港天文台官方网站获取了同时期香港地区的气象变量的数据;同时,我们分别收集了同时期香港流感相关的谷歌核心词的谷歌趋势和百度核心词的百度指数。我们计算所有气象因素、流感相关核心词的谷歌趋势和百度指数与香港流感样病例周求诊率的交叉相关系数,筛选出最大绝对交叉相关系数大于等于0.3的气象因素和流感相关核心词;我们将筛选出来的流感相关的谷歌核心词和百度核心词分别构建谷歌流感搜索指数和百度流感搜索指数;然后我们分别以滞后0~8周的气象因素和流感搜索指数(谷歌流感搜索指数和百度流感搜索指数)为自变量,构建多种回归(ARIMA,多元逐步线性回归,LASSO线性回归,支持向量回归和BP神经网络)和分类预测模型(条件推理树,K近邻算法,Logistic回归,朴素贝叶斯,支持向量机,Bagging决策树,Boosting决策树和随机森林);在构建分类预测模型时,我们分别以香港流感样病例周求诊率的第75百分位数(P75)和第90百分位数(P90)为分界点,将香港流感样病例周求诊率转化为两个二分类变量—是否流感“暴发流行”(我们假定香港流感样病例周求诊率大于等于P75或P90会发生流感“暴发流行”,小于P75或P90不会发生流感“暴发流行”)。对于回归模型,我们采用了平均绝对百分比误差和均方根误差来评价模型的预测性能;对于分类模型,我们采用了准确率,灵敏度,特异度,阳性预测值,阴性预测值和约登指数这六个统计学指标评价分类模型的预测效果。 结果: 无论是在基于滞后的气象因素还是流感搜索指数的回归预测模型中,五种回归预测模型的预测误差从小到大的顺序均是BP神经网络<支持向量回归
其他文献