论文部分内容阅读
心血管病是一种对身体极具伤害性的疾病。近年来,我国心血管病的发病率和死亡率逐年上升,给我国的社会与经济带来了严重的负面影响。心血管病是中国乃至全世界的头号死亡病因,且心血管病具有高死亡率和高致残率的特点,使得患心血管病的人们难以痊愈,所以心血管病的一级预防显得格外重要,而很多研究表明,心血管病的大部分主要危险因素是可以人为调整的。因此有必要针对心血管病,开发准确高效的早期预测工具来识别高危人群,进行发病预警,同时建议高危人群改变不合理的生活习惯来调整危险因素水平,从而降低心血管病的发病风险。本文在分析已存在的疾病预测方法的基础上,鉴于SVM算法和DS证据理论的优势,提出了一种SVM-DS疾病预测模型,用于心血管病预测。该模型基于SVM算法进行建模,用建立好的模型对病情进行预测,将SVM模型输出的后验概率转换为BPA函数,引入DS证据理论,将BPA函数进行合成,根据决策规则输出最终预测结果。接着,本研究提出将疾病相关的危险因素划分为主要危险因素和潜在危险因素,对两部分危险因素分别进行分析的策略,以心脏病为例,通过对心脏病相关危险因素进行Logistic回归多因素分析,得到了与心脏病显著相关的危险因素。然后将数据集按2:1:1的比例进行随机抽样后分成训练集、验证集以及测试集。接着根据危险因素的划分标准将训练集、验证集、测试集划分为6个对应的数据集。然后基于Logistic回归、SVM和SVM-DS分别建立疾病预测模型,其中,Logistic回归、SVM基于训练集和验证集建模,SVM-DS基于训练集建模,将模型对验证集预测的TPR和TNR作为BPA函数的构造依据。训练过程中对SVM模型的惩罚因子、核函数参数进行调试,找到各个模型的最优参数。最后在测试集上检验三种模型的预测效果,三种模型在测试集上都有不错的预测表现,其中SVM-DS模型的总体识别率最高,对正类和负类的识别率也较高,且通过计算ROC曲线下面积AUC发现:0.8889SVM<0.8899Logistic<0.9052SVM-DS,认为SVM-DS模型是性能最好的模型。实验表明,对于心脏病的预测,SVM-DS模型的预测结果更加可靠,算法的性能也更加稳定。本文提出的SVM-DS模型对心脏病的早期预警有一定的借鉴意义,该模型经扩展后可应用于其他心血管病的预测。