基于机器学习的心脏病预测模型研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:eric_nj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
心脏是整个循环系统的主要能量来源,是身体中最重要的一个器官,它为身体的各个部分提供纯净的血液。如果心脏不能健康地工作,人们就不能进行日常的行为活动,当心脏病不能将血液推送至人体的其他部位时,就会引起心脏病。随着物质生活的不断富裕,现代人存在着很多不良的饮食习惯,加之不爱运动等多方面的影响,心脏病的发病率越来越高,已经发展成为危害人们生命的十大死亡原因之一,严重影响了我国社会发展和经济增长。患心脏病的人群年龄也有逐渐减小的趋势,不只是老年人,在中年和青壮年人群中也有较高患心脏病的风险。心脏病发病前没有显著的征兆,突然发病会产生严重的危害,因此如何对心脏病进行有效的诊断与治疗已成为当前医学领域的一个重要课题。基于心脏病的类型众多且引发心脏病的影响因素繁杂多样,如何有效提高心脏病的诊断效率成为医学领域亟待解决的问题。幸运的是,在大数据和人工智能技术快速发展的时代,医疗数据的类型和数量日益丰富,人们开始将统计模型应用于疾病研究领域当中,为心脏病的诊断和预测提供了新途径。而机器学习是计算机科学的发展领域,基于机器学习方法在处理复杂问题时能够获得较好的拟合模型,将机器学习运用于心脏病的预测,能以更少的计算时间提供更快的预测,并以更好的准确性来保证预测的结果,进而能够实现对高危人群的及时预警和干预,就能避免更多的人死亡,同时降低诊断成本。因此,本文的主要研究内容如下:(1)以美国加州大学提供的UCI机器学习数据库的Heart Disease数据集中303条真实的心脏病数据作为研究对象,数据主要包括年龄、性别、胸部疼痛类型、静息血压等14个特征属性。首先利用R语言对收集到的数据集进行数据预处理,将多分类变量转换为二分类变量,缺失值按照众数的方法进行填充,方便后续对模型的建立。(2)利用R语言对数据进行单因素和双因素的可视化分析。通过刻画连续型自变量的单因素直方图以及与因变量之间的箱线图、分类型自变量的单因素柱状图以及与因变量之间的棘状图来切实把握各自变量与因变量之间的关系。在此基础上,通过热力图中颜色的深浅直观地展现出各变量间由相关系数展现出来的变量间线性相关程度。(3)利用Python建立模型。首先,对离散型特征进行one-hot编码,以使分类变量转化成机器学习易于利用的形式。其次,将数据集按8:2的比例划分成训练集和测试集,这样可以方便后面对模型进行训练和验证。再次,通过对数据进行标准化处理,消去数据单位的约束,将其无量纲化,方便各种不同单位和量级的指标之间能够进行对比和加权。然后在测试集上基于逻辑回归、朴素贝叶斯、决策树、随机森林算法来构建心脏病的诊断分类器,并用测试集进行验证,以判断测试集上的样本是否患有心脏病。(4)模型评估。通过混淆矩阵、准确率、精确率、召回率、F1值这一系列指标对各模型进行对比分析,并结合ROC曲线和AUC值来对模型进行评价分析,最终得出随机森林算法下建立的分类模型比其余三种的模型预测效果更好,为建立心脏病预测系统提供支持,进而有助于医生能更精确的对心脏病进行诊断预测。本文基于机器学习算法对心脏病模型进行研究,能够在心脏病发病之前较为准确的做出诊断并及时进行干预,为临床诊断提供了参考价值,从源头上降低了心脏病的发病率和死亡率,并且此种方法也可以沿用于其他疾病领域,对于患者、医院、社会都具有重要现实意义。
其他文献
<正>2020年以来,习近平总书记在多次会议上强调,要深化供给侧结构性改革,充分发挥中国超大规模市场优势和内需潜力,构建国内国际双循环相互促进的新发展格局。党的十九届五中全会通过的《中共中央关于制定国民经济和社会发展第十四个五年规划和二○三五年远景目标的建议》,明确将加快构建以国内大循环为主体、国内国际双循环相互促进的新发展格局作为“十四五”时期经济社会发展的重要指导思想。
期刊
<正>推动制造业高端化是《中国制造2025》的基本要求之一,是解决技术短板的重要途径,是实现科技自立自强的着力点,是坚定不移建设制造强国的必经之路。北京市海淀区作为全国双创示范基地,已形成具有海淀特色的高精尖经济结构,制造业高技术、智能化特征明显。海淀区制造业约1/3的规模以上企业为高新技术企业,且智能制造水平较高,企业平均智造系数为0.9198,高于全国平均智造水平。因此,应充分利用现有发展优势
期刊
<正>近日,习近平总书记在武汉考察时再次强调实现科技自立自强的重要性和紧迫性。作为科技创新统计工作者,要深刻领会总书记讲话精神,认真思考并准确把握科技创新发展的新形势新特点,以此作为推进科技创新统计工作的理论指导和实践遵循。科技自立自强关乎国运。科技自立自强是国家强盛之基、安全之要。从国内视角看,坚持科技自立自强是贯彻新发展理念的内在要求。新发展理念以创新为首,解决的是发展动力的问题。只有加大高水
期刊
构建优势互补、高质量发展的区域经济布局和国土空间体系,是促进区域协调发展、加快构建新发展格局、推动高质量发展的现实选择。区域经济质量与经济韧性密切相关,经济韧性是区域在遭受外部突发事件时所展现出来的抵御风险冲击并不断进行调整、适应、恢复进而实现创新转型的能力,它是衡量区域发展质量的重要指标。本文以新冠肺炎疫情爆发以来国内三大区域8个省市经济韧性的不同表现为例,结合新发展格局下区域高质量发展的新要求
在“逆全球化”愈演愈烈、新冠肺炎疫情多点散发等多重因素冲击下,增强产业链供应链韧性,已成为向不确定性经济增长注入稳定预期的战略抉择。本文依据科学性、系统性和可比性原则,揭示产业链供应链内涵和机理,构建包括“应对抵抗力、适应恢复力、自主控制力和领先竞争力”维度的产业链供应链韧性评价指标体系,通过熵值法测度对江苏地区主要城市的产业链供应链韧性进行评价分析,并探寻对南通的启示。研究发现:江苏地区主要城市
<正>粤自然资规字[2019]4号各地级以上市人民政府,各县(市、区)人民政府,省有关部门:按照《财政部国土资源部中国人民银行银监会关于规范土地储备和资金管理等相关问题的通知》(财综[2016]4号)、《国土资源部财政部中国人民银行中国银行业监督管理委员会关于印发<土地储备管理办法>的通知》(国土资规[2017]17号)、《自然资源部办公厅关于进一步规范储备土地抵押融资加快批而未供
期刊
<正>党的十八大以来,以习近平同志为核心的党中央从坚持和完善中国特色社会主义制度、推进国家治理体系和治理能力现代化的战略高度、推进人民代表大会制度理论和实践创新,形成习近平总书记关于坚持和完善人民代表大会制度的重要思想,推动人大工作取得历史性成就,人民代表大会制度更加成熟、更加定型。大竹县人大常委会坚持以习近平新时代中国特色社会主义思想为指引,牢牢把握中央、省委、市委和县委人大工作会议的新部署新要
期刊
蒸汽发生器传热管一、二回路之间压力边界是压水堆核电站的核心部件,其完整性对核电站的安全性和经济性起着重要的作用。随着服役年限的增加,由于流致振动和热循环引起的高周疲劳和腐蚀疲劳问题日益突出,特别是传热管表面缺陷(如划伤、凹陷、微动磨损或微裂纹)会显著降低传热管的疲劳强度,导致传热管表面或缺陷处过早萌生裂纹甚至引起传热管破裂,引起放射性污染甚至报废整个蒸汽发生器。因此,研究核电蒸汽发生器传热管的疲劳
本文以2008年全球经济危机的冲击为研究背景,测度了我国内地四大地区(东部地区、中部地区、西部地区、东北地区)256个地级市在抵抗期(2008-2010)和恢复期(2010-2018)的经济韧性。在此基础上分析了城市经济韧性的区域差异,并运用地理探测器方法探究不同区域城市经济韧性的影响因素。结果表明,抵抗期城市经济韧性西部>东北>中部>东部,恢复期则为中部>西部>东部>东北。进一步分析发现:不同地