论文部分内容阅读
目的: 本研究旨在使用较大样本农村队列,构建并评价不同算法的6年高血压发病风险预测模型,为农村人群中高血压高危人群的筛选及干预提供科学依据。 方法: 资料来源于河南省某农村6年随访的队列研究,以整群抽样法于2007-2008年实施基线调查,2013-2014年完成随访,采用问卷调查、体格检查和血样标本收集数据,最终纳入8319名35-74岁研究对象,将研究对象按照乡镇分为建模队列(4796人)和验证队列(3523人)。 在建模队列中,采用单因素Cox回归筛选高血压预测因子,建立分性别的多因素Cox回归、人工神经网络(Artificial Neural Network,ANN)、朴素贝叶斯分类器(Naive Bayes Classifier,NBC)和分类回归树(Classification and Regression Tree,CART)高血压预测模型,在验证队列中评价模型的区分度和校准度。模型的内部验证采用10×10交叉验证,区分度和校准度分别用受试者工作曲线下面积(Area Under theReceiver Operating Characteristic Curve,AUC)和modified Nam-D’Agostinoχ2评价。 结果: 1.在6年随访内,建模队列中男、女分别发生432例和604例高血压,发病密度分别为40.3964例/1000人年和35.3113例/1000人年;验证队列中,男、女高血压发病377例和442例,发病密度分别为40.3856例/1000人年和37.1054例/1000人年。 2.男性中建立Cox回归模型(Men model1,M1)、ANN、NBC和CART4个模型,M1模型的预测效能最佳,纳入年龄、收缩压(Systolic Blood Pressure,SBP)、舒张压(Diastolic Blood Pressure,DBP)、高血压家族史、腰围(Waist Circumference, WC)、年龄与WC交互项和年龄与DBP交互项,其β系数分别为:0.2650、0.0554、0.1300、0.3441、0.0626、-0.0011和-0.0019,M1模型在验证队列中的AUC为0.771(95% Confidence Interval,95%CI:0.750,0.791),校准度χ2=6.3057,P=0.7090。 3.女性中建立Cox回归模型W1(Women model1)和W2(Women model2)、ANN、NBC和CART5个模型,其中W1、W2和ANN模型的预测效能最好, W1模型纳入年龄、SBP、DBP、WC、水果蔬菜摄入情况、高血压家族史、年龄与WC交互项和年龄与DBP交互项,其β值分别为0.3430、0.0525、0.1956、0.0807、-0.1345、0.2189、-0.0013和-0.0026,W2模型在W1模型的基础上增加了高密度脂蛋白,其β分别为0.3413、0.0525、0.1943、0.0799、-0.1356、0.2094、-0.0014、-0.0026和-0.2807,ANN模型纳入SBP、DBP、年龄、高血压家族史、体质指数。W1、W2和ANN模型在验证队列的AUC分别为0.765(95%CI:0.746,0.783)、0.764(95%CI:0.746,0.783)和0.756(95%CI:737,0.775),其校准度χ2分别为6.7832(P=0.1135)、7.4046(P=0.1160)和4.7447(P=0.3145)。 结论: 1.预测农村人群6年高血压发病风险,男性中Cox回归模型优于ANN、NBC、CART模型,女性中Cox回归和ANN模型优于NBC和CART模型。 2.男性中M1模型和女性中W1和ANN模型具有较好的预测效能,推荐用于预测农村人群6年高血压发病风险。