基于集成学习的心血管疾病风险预测研究

来源 :广东财经大学 | 被引量 : 0次 | 上传用户:Hamihami
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
心血管疾病(Cardiovascular Disease)是一个广义的术语,它是心脑血管疾病的统称,一旦心血管疾病患者没有得到及时有效的治疗,将会严重危害人体健康。而近年来,机器学习技术的快速发展也引领着智慧医疗的蓬勃发展,本文便是基于这样的背景之下,使用集成学习算法建立心血管疾病风险预测模型。在本文第三章中,使用多种特征工程方法对原始数据集进行分析、处理,以期提高数据集质量。在本文第四章中,使用包括集成学习算法在内的八种算法以及Stacking模型对心血管疾病数据集进行建模及对比分析。本文的主要工作及创新点如下:(1)使用多种数据可视化方法探索心血管疾病与各项临床指标之间的关联,充分利用单变量分析、多变量分析等方法,发现和归纳了心血管疾病的致病规律。为特征工程阶段的顺利开展确立了事实依据。(2)在特征工程阶段:融合血压定义等临床知识对样本的异常值进行检测,使样本的异常值检测方法更符合真实世界规律。依照数据探索阶段获得的规律以及有关指标分级标准对样本中的指标进行特征转换,由此创造了脉压、体重质量指数等新特征,其在经各算法得出的特征重要性排名中排名前列,证明了特征工程工作的有效性。它能为模型预测阶段提供高质量的数据集。(3)在模型预测阶段:充分比较集成学习算法及传统单一算法的预测性能,并使用Optuna框架进行超参数调优,最终选择CatBoost、LightGBM和XGBoost算法作为Stacking模型的基模型算法。(4)在Stacking模型预测阶段:使用CatBoost、LightGBM和XGBoost三种集成学习算法作为Stacking模型的基模型算法,并使用逻辑回归作为第二层模型的结合算法,最后对比分析了各模型的特点:Stacking模型以准确率74.38%、召回率70.57%和AUC值0.8095的成绩取得了最优的预测性能,特别是在召回率的表现上以0.58%的优势领先于基模型算法能取得的最好结果。在召回率上的优秀表现意味着该模型能够尽可能最多的找出人群中潜在的心血管疾病患者。故本文使用Stacking模型作为最终的预测模型。
其他文献
随着大数据时代的到来,银行的单一金融产品很难满足不同用户的需求,同时,传统的营销策略面临着严峻的市场挑战。因此,银行业迫切需要基于大数据驱动的精准营销来帮助银行寻找目标客户并为客户推荐合适的金融产品。有效地挖掘营销数据中的有用信息对提高银行核心竞争力显得尤为重要。本文是以公开数据集bank marketing营销数据集为背景,预测银行客户是否会认购定期产品为目的来进行研究的。主要工作如下:(1)构
学位
<正>为全面做好常态化疫情防控下的助企稳岗工作,江西省瑞金市财政局认真落实中央、省、市关于稳就业决策部署,坚持“就业是最大的民生”理念,聚焦稳市场主体稳岗位稳就业,精准落实落地相关政策,确保全市就业局势总体平稳。助企纾困稳岗就业。2022年以来,为企业减负养老保险费1502.76万元、工伤保险费255.55万元、失业保险费226.5万元,缓缴企业养老保险30.08万元、工伤保险0.52万元、失业保
期刊
<正>2022年以来,南充市营山县就业局全面梳理就业创业政策、服务举措、招工渠道等,成立由主要领导牵头、业务骨干组成的就业政策宣讲团赴中小学校、技能培训现场、党校课堂、城乡社区、经开区企业等场所,对培训学员、驻村干部、企业员工、社区群众等重点群体开展就业政策宣讲70余场次,促进重点群体更充分就业、更高质量就业。
期刊
燃气使用企业的增多,大大增加了燃气安全隐患。但经过大量走访与调研发现,大多数企业现有的燃气安全检测系统已难以适应与日俱增的数据模式,在数据的采集模块、存储模块以及时序数据的可视化模块的设计上显现出诸多不足。本文对传统的燃气安全检测系统进行改进实验,针对燃气采集数据的时序特性,设计并实现基于时序数据库的燃气安全检测系统以应对新形势下海量数据模式的需要。主要创新工作如下:(1)为应对燃气数据采集中出现
学位
乳腺癌是威胁女性生命健康的恶性肿瘤,死亡率极高。凭借医生的客观经验去判断患者的预后状态是远远不够的。本文在乳腺癌细胞数据集的基础上,提出了一种新的特征选择算法和非均衡数据处理算法,建立了一种新的乳腺癌预测模型来解决数据冗余和非均衡样本的问题,大致工作内容分为以下三点:(1)由于乳腺癌数据集因数据维度众多易产生特征冗余问题,所以提出一种基于Jaccard系数的mRMR特征选择算法。它是在mRMR的基
学位
随着国民经济水平的快速发展,截止至2021年我国机动车保有量达到了3.9亿辆,但随之交通事故的频发率也在逐年上涨,目前我国交通事故发生率位居世界第一。交通部门公布的数据表明,造成交通事故的主要因素是疲劳驾驶,疲劳驾驶监测成为了交通安全领域的重点研究对象,对保障交通安全以及驾驶员的人身安全有着重要的意义。因此本文提出了一种非侵入式的基于人脸状态特征的疲劳驾驶监测方案,通过高精度的人脸检测及面部特征点
学位
<正>在新能源平价时代到来之际,中核汇能通过产业扶贫,摸索出一条资源获取的独特路径——在提升了贫困地区群众收入的同时,扩大了公司装机规模。随着新能源平价时代的到来,对开发企业而言,优质资源获取的难度日益加大。中核汇能有限公司(以下简称"中核汇能")通过产业扶贫,拓展市场渠道,不断摸索出一条资源获取的独特路径——在提升了贫困地区群众收入的同时,扩大了公司装机规模。
期刊
众所周知,会计师事务所在协调政府和企业之间关系,发挥着重要桥梁纽带作用,具有法定社会职能“第三人”属性。虽然行业健康有序发展,但会计师事务所竞争日趋激烈,受到诸多挑战。其中,客户服务质量标准、评价以及改善是会计师事务所提升行业竞争力,实现可持续发展的重要课题之一,受行业内及社会各界广泛关注。客户服务质量问题的研究与应用,主要集中在零售、餐饮、保险等领域,评价和改善会计师事务所行业客户服务质量问题探
学位
The present study aims to develop the role of Human Resource Management(ΗRM)during a period of pandemic,highlighting and showing the contribution of teleworking-telecommuting,online-remote working as
学位
<正>为实地掌握惠企减负政策落实成效,近期,成都市大邑县人社局对全县185家规上工业企业进行了全覆盖走访调研。成都市大邑县人社局近期组建了10支走访调研工作组,对全县185家规上工业企业进行全覆盖走访调研。详细了解各项助企纾困政策落实情况及成效,宣传讲解惠企涉企政策和相关法律法规,掌握企业生产经营面临的困难问题,听取企业对大邑县委、县政府的意见建议,就企业关心关注的问题答疑解惑。
期刊