论文部分内容阅读
数据驱动的医疗(data driven healthcare)旨在运用大规模的数据,通过数据分析、机器学习等方法,实现疾病风险预测,以提供最好的和最个性化的护理。电子病历中蕴含着大量有价值的信息,是推动这一数据驱动医疗革命成功的主要载体。然而,电子病历中一次入院包含可变大小的多次诊断,使得入院信息难以表示;且每次入院在时间上具有无规律性,同时疾病的发展具有长期依赖性,以上是实现有效疾病预测的现实挑战。随着深度学习领域知识和技术的不断发展,研究基于电子病历运用深度学习技术对疾病风险预测的方法,为医生诊断提供参照,对于提高临床诊断的及时性、准确性,降低医疗成本具有现实意义。但是,目前国内外的相关研究不是很多,为了解决上述挑战,本文将做如下研究:1、针对电子病历信息难以表示,即电子病历中记录的入院信息极其稀疏,本文基于自然语言处理(Natural Language Processing,NLP)中词嵌入模型,通过对诊断进行特定编码表示,把同种类型的向量池化成一个向量,然后一次入院被特定类型的池化向量表示,通过这种方式可变大小的入院被嵌入到一个连续的向量空间,将作为预测模型的输入。2、针对电子病历中信息具有时序性问题,提出了长短期记忆网络(Long Short-Term Memory,LSTM)模型,通过对遗忘门进行修改,即引入遗忘机制,对无规律时间进行处理。所提出的模型与马尔可夫、循环神经网络方法比较,实验结果表明该方法的有效性。3、针对慢性病是一个长期的过程,改进的LSTM模型受限于对长期疾病风险进行预测,在前期提出的LSTM基础上,提出了一种混合深度神经网络模型LSTM+CNN,通过引入卷积神经网络(Convolutional Neural Networks,CNN)来整合诊断信息,并通过实验与朴素贝叶斯、随机森林传统方法和深度学习方法性能比对,实验结果表明了该方法的有效性。4、设计基于深度学习的疾病风险预测软件实现。该软件包括电子病历信息管理、预测模型、可视化模块,对实际的疾病风险进行预测,对医生的诊断提供参考,以提高疾病风险预测的及时性和准确性。