论文部分内容阅读
再住院预测作为医疗健康领域的一个重要研究方向,逐渐受到学者和业界的重视。精准和个性化的再住院预测对未来提升全民健康医疗、医疗公共服务水平和国家医疗保险统筹规划具有重大的应用价值。随着医疗信息化的不断完善,医疗领域逐渐积累了大量的数据,为再住院预测研究提供更好的数据基础。电子健康记录(EHRs)基于电子形式按时间纵向地收集个人在不同时间的医疗健康数据,作为数据驱动医疗研究的重要载体。电子健康记录具有来源广、类型多和维度高的性质,包含很多和再住院预测相关的信息。传统的再住院预测方法是专家提取和再住院预测相关的特征用以表示病人的再住院环境。由于电子健康记录的维度很高,提取特征时会造成特征爆炸问题,无法判断大量的特征与再住院之间的相关性。若提取特征数量过少,则又无法保证预测方法的准确性。为了解决海量特征降维问题,应该在庞大而复杂的电子健康记录中准确找到和再住院行为最相关的特征组合进行再住院预测,这样既保证预测的准确性又能提高方法的性能。此外,电子健康记录具有时序性和关联性,医疗事件能被表示为医疗事件序列。人们的健康状况不仅仅和当前的身体状况相关,更与以前的疾病、诊疗和服药等密切相关。疾病的发展路径和治疗路径共同决定健康走向,如未来可能会患某种疾病、再次住院和服用某种药物等。因此,可以将医疗健康记录以就医画像图的形式表示,这样可以更加形象地表达病人的就医历史。就医画像图不仅体现了电子健康记录的时序性和关联性,也解决了数据稀疏性等问题。针对上述问题,本文从最优特征组合和就医画像图两方面对病人再住院预测进行研究,分别建模得到两种病人再住院预测模型。本文的主要工作包括:1.基于最优特征组合的再住院预测模型(A Hospital Readmission Prediction Method Based on Optimal Feature Combination,MulFeature)。该方法利用 了遗传算法的适者生存,不适者被淘汰的自然进化过程搜索最优特征组合进行再住院预测。具体来说,本文首先为每位患者提取和选择多个特征,用来表示病人的再住院环境;然后患者的特征作为输入,通过具有多目标适应度函数的遗传算法选择再住院最优特征组合;最后,集成学习算法用于对患者进行分类,以确定患者是否在未来一段时间间隔内重新入院。2.基于病人就医画像图的再住院预测模型(Predicting Hospital Readmission From Longitudinal Healthcare Data Using Graph Pattern Mining Based Temporal phenotypes,Tephe)。该方法基于图理论知识得到每位患者的时序表征,利用时序表征对每位患者是否再住院进行预测。具体而言,每个患者的医疗事件序列首先由就医画像图表示;基于图模式挖掘,我们定义更显著的频繁子图作为时序表型,这能够使我们更好地了解疾病的演变模式和治疗路径;此外,设计了一种贪心算法,为每位患者计算频繁子图的最优表达系数;最后,根据频繁子图的最优表达系数,利用随机森林进行再住院预测。本文使用多家综合医院在2011年到2016年内收集的病人真实电子健康记录来评估两个再住院预测方法。电子健康记录包括三部分数据:临床诊疗数据、健康体检数据和医疗保险数据。为了验证基于最优特征组合的再住院预测模型,本文分别将精神分裂症病人和冠心病病人的电子健康记录作为实验数据。实验结果表明,与基线方法相比该方法是有效的。本文在真实临床场景下验证基于病人就医画像图的再住院模型,将冠心病患者的电子健康记录作为实验数据。与基线方法相比,在该临床场景下本文的方法在预测任务中更具有竞争力。