【摘 要】
:
糖尿病是一种严重影响人们身体健康的慢性疾病,根据世界卫生组织数据,全球患有糖尿病的成年人数量已经超过四亿,意味着平均来看每11个成年人当中大约就会存在1个糖尿病患者。过去几年里全球糖尿病患者数量处于持续增长的状态。妊娠期糖尿病是一种常见的糖尿病类型,是最初在妊娠期发现的糖代谢异常,其患病率也在逐年增高,给母体和胎儿的健康带来了极大的危害,因此妊娠期糖尿病的预防和预测工作越来越有必要。当今机器学习算
论文部分内容阅读
糖尿病是一种严重影响人们身体健康的慢性疾病,根据世界卫生组织数据,全球患有糖尿病的成年人数量已经超过四亿,意味着平均来看每11个成年人当中大约就会存在1个糖尿病患者。过去几年里全球糖尿病患者数量处于持续增长的状态。妊娠期糖尿病是一种常见的糖尿病类型,是最初在妊娠期发现的糖代谢异常,其患病率也在逐年增高,给母体和胎儿的健康带来了极大的危害,因此妊娠期糖尿病的预防和预测工作越来越有必要。当今机器学习算法和数据挖掘技术在医疗健康方面的研究和应用越来越广泛,同时也越来越深入。目前已经有研究人员使用统计学习和数据挖掘相关算法来对某些疾病的患病因素进行分析,对患病风险进行预测。不过在应用医疗数据建模进行疾病预测和病因分析时,往往会遇到数据异常值多、缺失值多、样本数量不充足、正负样本不平衡等问题,以往的预测诊断模型在处理这类数据时预测的准确性尚不能满足实际需求。集成学习是一种擅长处理企业真实数据的算法,通过对基础模型进行组合,把弱学习器集成为强学习器,比单一算法具有更好的泛化能力。本文利用含有体检指标、生理信息和基因信息的1200条真实医疗数据,基于多种集成学习算法建立孕妇患妊娠期糖尿病的风险预测模型,以提高模型预测能力为主要目标,进行的主要研究工作如下:一是通过数据预处理及特征选择确定了本文的预测模型所需要的特征。首先对特征的缺失值用null填充,同时对连续型特征进行等距离分割,计算每个特征的Ⅳ值,用以表示单一特征的重要性,对特征的重要性从大到小排序,结合前向搜索算法进一步确定最优特征子集,最终筛选出TG、孕前BMI、VAR00007、AST、SNP37、SNP20、年龄、SNP11、SNP46、SNP53、SNP31、SNP43、孕次、SNP40、收缩压、SNP3、hsCRP、SNP6、wbc、舒张压、SNP5、SNP35、SNP52、SNP34和Cr共25个特征。代入后续的预测模型中。通过特征选择减少了无用的和作用很小的特征对模型的干扰,降低过拟合风险,提高了模型的泛化性能。二是应用简单平均法和Stacking算法进行模型融合提升了模型预测能力。首先建立了 Logistic回归模型、决策树模型、随机森林模型、AdaBoost模型以及GBDT模型,对每个模型进行超参数优化,并对调参前后模型性能进行比较。然后对调参后的最优模型分别用简单平均法和Stacking算法建立混合模型以提高模型预测能力,最后对所有模型的表现进行比较分析。分析发现,决策树、Logistic回归等单一模型在处理缺失率高、异常值多的医疗数据时会由于过拟合等问题表现不佳,集成学习模型对高缺失、质量差的医疗数据的拟合效果要优于决策树、Logistic回归等单一模型。集成学习中性能最优的是GBDT,其AUC值及F1值皆最高,精度与随机森林相等。在最后的模型融合方面,用简单平均法融合3个集成模型后,模型性能优于任何基学习器。以决策树、随机森林、AdaBoost、GBDT为初级学习器,以Logistic回归模型为元学习器建立Stacking混合模型,进一步提高了模型预测能力。Stacking模型的AUC值比GBDT模型提升了 0.04,F1值提升了 0.04,精度提升了 0.05,Stacking混合模型在提高妊娠期糖尿病预测模型预测能力方面起到了一定的积极作用。本文的研究对于医生诊断决策可以起到一定的辅助支持作用,减少医生在诊断妊娠期糖尿病时的误诊概率,同时也进一步丰富了集成学习算法在医疗领域的应用。
其他文献
习近平总书记2020年5月22日在参加十三届全国人大三次会议内蒙古代表团审议时发表的重要讲话中提出:人民至上、生命至上。总书记对人民生命和健康问题给予高度重视。尤其2020年初新型冠状病毒在全球爆发蔓延,人类更加意识到生命面前无小事,也意识到生命教育的重要性。在整个社会中,大学生这个群体是最朝气蓬勃、积极主动的,同时也是充满创造力的群体,社会主义事业的成功建设主要依靠这一群体来完成。在实际生活中,
对教学策略的解释,从广义来讲,包括教与学的策略。因此,既需要研究学生怎样学习,也需要研究如何因材施教。一直以来,在作为视觉性艺术的美术教学中,无论是画“所见”还是画“所知”,实质是源于视觉性经验的“桎梏”和视觉记忆的表征、加工与保持策略等的差异。研究初中生的视觉记忆,一是为了了解影响初中生视觉记忆加工与保持的因素;二是为了了解初中生的视觉记忆差异对绘画表现的具体影响。三是研究视觉记忆训练的教学策略
水淹胁迫是限制我国西南地区鸭茅产量和品质提升的主要环境因子,已经成为一种不容忽视的非生物胁迫。鉴定鸭茅耐涝相关的功能基因,并探究其调控机制是鸭茅种质创新,提高鸭茅耐涝能力的必要途径。以鸭茅耐涝品种“滇北”为试验材料,分别经水淹胁迫处理0、8和24 h后,利用Illumina Hiseq测序平台对鸭茅叶片进行小RNA测序。结果表明,在水淹胁迫处理下共鉴定得到208个差异表达基因(DEGs),经过筛选
我国目前的退休制度仍沿用1978年5月24日第五届全国人民代表大会常务委员会第二次会议原则批准,现在仍然有效的《国务院关于安置老弱病残干部的暂行办法》和《国务院关于工人退休、退职的暂行办法》(国发[1978]104号)文件所规定的退休年龄。当时的人口预期寿命不到50岁,如今国情发生了翻天覆地的变化,人口预期寿命已达近80岁。《中国健康与养老报告》显示,到2015年底,中国60岁及以上人口达到了 2
本研究以贵州典型黄壤和石灰土为研究对象,设置添加外源Ca13CO3(30g/kg干土)和灭菌处理,通过100天室内培养试验,结合高通量测序技术,研究外源碳酸钙对土壤CO2释放、土壤活性有机碳和土壤微生物群落的影响,揭示碳酸钙对该地区典型土壤CO2释放的贡献及对SOC矿化的激发效应,并探讨其微生物学机制。主要结果如下:(1)土壤中总CO2释放速率和13C-CO2释放速率均在培养的第1天达到峰值,之后
随着世界经济规模的不断发展,传统工业企业产能过剩导致实体投资利润率下滑,为了追求利润最大化,越来越多的实体企业不断将资金投向金融和房地产行业,去探寻新的利润增加点,实体经济的金融化趋势由此形成。金融化并不是一种单纯的经济现象,而是资本和利润占有方式的内在转变。从理论上来看,金融化是一把双刃剑,它既能够通过“蓄水池效应”提高企业融资效率,对实体经济产生积极的影响,又能够通过“挤出效应”使资本累积与主
证券市场作为我国市场经济发展的“晴雨表”和“助推器”,利用资源配置功能对我国产业结构进行了巨大调整。时至今日,我国证券市场的世界地位已至关重要、不容置疑。虽然在市场规模、产品种类和监管制度方面依然存在很多瑕疵,但瑕不掩瑜,随着证券市场日益规范化与法制化,证券市场的发展已经愈来愈能够代表和体现我国经济市场化的发展进程。纵观前人研究所得,国外学者对于证券市场的日益发展是否能够推动经济发展这一观点还存在
“如果你想致富,那就先建路。”交通基础设施建设一直是世界各国发展进程中的一项具有竞争力的投资项目,据统计,交通类项目在世界银行2013-2017年间的借贷中占比约达15%,已有研究表明交通基础设施建设对宏观经济和微观企业都产生了深远的影响。高铁作为一种新型交通工具,在促进人流、信息流的运输与传递方面具有速度快、运量大、准点率高等优势,一举成为我国振兴经济、促进发展的新带动点。高铁的开通压缩了时空距
经济全球化趋势带动了世界贸易增长,但近几年随着贸易保护主义重新兴起,阻碍了很多跨国企业全球化的发展。作为全球第二大世界经济体是经济全球化的受益者,也是经济全球化的推行者,中国在面对美国的贸易阻挠时继续推行经济改革,提出“新常态”的经济结构鼓励跨国企业加大对华投资,形成中国新型全球化的经济背景。中国新型全球化从经济学角度看,提倡更大范围内的贸易自由和更有效的资源分配来促进跨国企业的全球化发展;从企业
如今,我国人口老龄化形势较为严峻,人们对于健康服务的需求逐步增大。而传统的线下医疗面临着资源总量匮乏、资源地域配置不合理等问题,无论在数量还是在质量上均无法契合当代人们的需求。在这样的时代背景下,我国提出了一系列鼓励互联网医疗发展的利好政策,很多移动互联网医疗平台应运而生,而2020年的新冠肺炎疫情爆发也为这类平台的发展提供了新的契机。因此,面对激烈的行业竞争,企业应如何找准用户痛点,深挖用户需求