论文部分内容阅读
近年来,中国在健康医疗领域发起了一场“供给侧”改革,成立了卫生与健康委员会,出台了“健康中国2030”、家庭医生签约模式等指导性政策法规,努力建立更广泛的人健康服务体系。健康体格检查是面向社会全人群的基础性健康服务,目前基于健康体检数据的研究主要面临两个问题,一是随着健康体检服务的普及,健康体检数据虽然覆盖面越来越广、数据量越来越大,但是缺乏与疾病的直接关联,并且数据专业性不强、项目差异较大,采用机器学习方法开展疾病风险预测通常难以得到较好的精度;二是随着疾病筛查技术的不断更新,健康体检项目组合越来越丰富、价格差异越来越大,通常情况下依赖于医疗经验的健康体检项目设计方法已经不适用,难以甄别出最具信息价值和全面反映身体状况的体检项目,降低了健康体检的效益。针对上述问题,本文从健康体检数据的病史记录出发,通过对受检者病史的特点和分布进行总结梳理,建立了健康体检数据与6类慢性疾病的特征关联;针对健康体检数据的数据量大、阳性样本率低、特征稀疏特点,本文应用轻型梯度提升(LightGBM)算法以及单边梯度采样(GOSS)和互斥特征绑定(EFB)技术,建立了基于健康体检数据的慢性疾病风险预测模型,并将预测结果与可拓展梯度提升(XGBoost)算法进行对比;提出基于特征重要性和价格的体检项目排序方法,提取与慢性疾病风险预测关联程度最高的100项特征,整理和归类为3类、42个体检项目,实现了健康体检项目的优化;总结健康体检项目的特点规律,提出健康体检项目选择的一般原则,针对家庭医生体检、职工体检和慢病体检开展体检套餐设计。本文实现了适用于健康人群的慢性疾病风险预测方法,通过与XGBoost算法进行对比,证明了该方法具有更好的预测精度,在解读异常数据之外提出了一种新的、有效的健康体检数据分析方法。针对健康体检套餐组合依赖于专家经验和调查问卷等主观认识,缺乏系统性的问题,提出了基于特征重要性和价格影响因素的健康体检项目排序方法,实现了数据驱动的健康体检项目优化,完成了适用于不同群体的健康体检套餐设计。