论文部分内容阅读
目的近年来我国医疗卫生费用快速增长,病人再住院率居高不下且人均住院费用较高,剖析医疗费用可发现少数患者可解释大部分医疗卫生费用。慢乙肝是我国的重大卫生问题,乙肝治疗是一个长期过程,容易导致各种并发症和高医疗费用。构建可用于预先识别高危患者的预测模型有助于患者提前了解自己健康状况,早期治疗和干预,以减少可能的疾病进展与经济压力,更合理地分配医疗资源。因此本研究利用临床治疗队列数据构建精准和个性化的慢乙肝和肝硬化患者次年(未来12个月)住院风险及高直接医疗费用风险的预测模型,重点关注患者疾病发展的早期阶段,加强干预治疗,预防患者病情恶化,为合理优化医疗资源配置、控制疾病费用提供数据佐证。方法本研究为回顾性队列研究,基于广州某传染病专科医院信息系统收集2011年-2017年诊断为“慢乙肝”和“肝硬化”患者相关就诊信息。按照随机分组原则把数据集分成训练集(70%)和验证集(30%)。针对类别不平衡问题运用SMOTE算法均衡原始训练集得到类别平衡训练集后,围绕患者次年住院和次年高直接医疗费用(总医疗费用的前5%)作为结局变量展开描述分析。并以当年人口学特征、生化检查结果、治疗方案等指标作为自变量,采用多因素Logistic逐步回归、随机森林变量重要性筛选方法构建临床预测模型。通过灵敏度、特异度、F1-measure、G-mean、AUC和校准曲线共6个预测模型评估指标综合筛选最优预测模型,并用验证集(30%)数据进行验证,最后对最优预测模型建立简易实用的列线图。结果1.本研究纳入27736例慢乙肝医保患者,其中有400人(1.44%)次年住院,1565人(5.64%)次年高直接医疗费用,人均年总直接医疗费用为5768.89元,年高直接医疗费用阈值为14994.56元;纳入7022例肝硬化医保患者有602人(8.57%)次年住院,179人(2.55%)次年高直接医疗费用,人均年总直接医疗费用为10331.48元,年高直接医疗费用阈值为32529.69元。2.类别不平衡数据集构建的预测模型,灵敏度普遍比特异度低,有的预测模型特异度高达88.5%,灵敏度只有65.3%,F1-measure基本不超过30%,部分模型只有5.4%,G-mean普遍为70%左右,AUC值基本在0.7-0.8之间,校准曲线密集分布在对角线下方或偏离对角线;相比之下,经SMOTE算法后的类别平衡数据集,同样分析方法得到的预测模型性能提高明显,特异度虽然相比基于类别不平衡训练集的预测模型要低,但是灵敏度有所提高,F1-measure和G-mean基本达到80%,AUC均有所提高,校准曲线相对更靠近对角线。3.慢乙肝次年住院模型纳入年龄、当年住院、拉米夫定、恩替卡韦、替比夫定和DNA病毒载量变量,最优训练集和验证集的AUC分别为0.846和0.852;慢乙肝次年高直接医疗费用模型纳入当年住院、间接胆红素、干扰素、保肝药、总胆红素和谷丙转氨酶变量,最优训练集和验证集的AUC分别为0.847和0.671;肝硬化次年住院模型纳入当年住院、总蛋白、谷丙转氨酶、白蛋白、谷草转氨酶和年龄变量,最优训练集和验证集的AUC分别为0.944和0.787;肝硬化次年高直接医疗费用模型纳入总蛋白、恩替卡韦、当年住院、年龄、谷草转氨酶和白蛋白变量,最优训练集和验证集的AUC分别为0.963和0.857。结论1.基于SMOTE算法的类别平衡数据集比原始数据集建模效果更好,模型对于正负两类样本的识别率趋于平衡。2.本研究从人口学特征、实验室指标、药物使用、治疗方案四个方面共29个变量构建慢乙肝和肝硬化患者未来住院风险及高直接医疗费用风险的预测模型,模型性能良好,具有一定的应用价值。