论文部分内容阅读
目的:探讨传染病动力学模型、一元时间序列ARIMA模型及多元时间序列ARIMAX模型在新疆喀什地区结核病流行状况的验证性研究与发病趋势预测中的应用。根据动力学验证结果,针对喀什地区结核病实际发病情况建立符合结核病流行特征的预测模型。了解新疆喀什地区结核病的总体流行趋势,为相关部门提前做好结核病的防控措施提供科学的依据。方法:(1)采用动力学模型对新疆14个地(州、市)2005-2014年的结核病数据进行拟合,利用2015-2017年结核病数据进行验证,对验证结果进行评价,得到各地区参数的估计值和基本再生数R0,根据14个地州市的基本再生数的大小定量验证新疆南疆地区结核病疫情的严重性,尤其是喀什地区的情况。(2)其次,针对喀什地区结核病发病数序列图和ADF(Augmented Dickey Fulle)测试来测试原始序列的平稳性。序列是非平稳的,为了消除序列的趋势和季节性,应用一阶普通差(d=1)和一阶季节差(D=1)以使其稳定。通过自相关图(ACF)和偏自相关图(PACF)特征,以分别识别模型中的参数:p,q,P和Q。然后,使用最大似然估计(MLE)方法来估计模型中的参数。为评估已建立的ARIMA模型的适用性,分别检验模型的参数和残差,并应用Ljung-box(Q)检验来检查模型的残差是否为白噪声。最后,如果几个模型满足参数显著且模型的残差序列为白噪声的条件,则可以使用Akaike信息准则(AIC),Schwarz贝叶斯信息准则(SBC),模型的RMSE指标和MAPE来选择最优单变量模型。(3)为了建立最优的多变量模型,我们将气象变量作为回归变量考虑到模型中,以检验它们是否可以提高ARIMA的预测性能。对结核病例数和气候数据进行了互相关分析,以找出最佳预测因子及其最终滞后期,并将其纳入最终模型。为了消除每个气象变量序列的趋势和季节性特征,需要对每个气象变量进行差分处理以实现稳定性。再执行预白化过程,为每个单独的气象变量建立最佳ARIMA模型,将该模型用作过滤器来过滤输入序列和输出序列。最后,通过互相关函数(CCF)计算滤波后的输出序列和输入序列的互相关系数,从而完成预白化处理。通过互相关图判断输入序列和输出序列之间的滞后关系,多变量ARIMA模型中包括与结核病例数显著相关的气候变量(P值<0.05)。总之,带有输入变量的ARIMA模型称为动态回归模型,简写为ARIMAX。ARIMAX模型的最佳选择标准仍然是AIC和MAPE。结果:动力学模型结果显示南疆的喀什地区R0为11.38(95%CI:11.3311.50)。东疆地区的乌鲁木齐市和北疆地区的伊犁哈萨克自治州R0分别为5.46(95%CI:5.285.50),2.22(95%CI:2.182.28)。南疆地区结核病疫情远高于北疆和东疆地区,尤其是喀什地区结核病疫情最为严重。其次,单变量季节性ARIMA(0,1,1)×(0,1,1)12模型是预测新疆喀什地区结核病病例的最佳模型(验证阶段均方误差,MAPE=16.77%,AIC=847)。我们将获得的气象数据作为回归变量纳入单变量模型中,以提高模型的预测精度。ARIMAX模型用于分析2011年至2017年新疆喀什地区结核病例数与气象因素之间的相关性。当月降水量为7个月滞后,浮尘天数为4个月滞后,月平均气温为0个月滞后,日照时数为6个月滞后引入单变量模型,结果显示ARIMA(0,1,1)×(0,1,1)12+7个月滞后的月降水量模型可以提高单变量模型的预测性能(AIC=846.23,验证阶段的MAPE=12.53%)。结论:本文的结核病动力学模型拟合良好,具有可行性,验证结果具有可靠性。时间序列模型可以作为预测新疆喀什地区结核病病例的有用工具。因此,它可以为结核病的预防和治疗提供科学依据。将气象变量引入模型可以提高其准确性。