论文部分内容阅读
随着信息技术的快速发展,健康大数据研究为健康领域带来了巨大机遇。面向规模庞大、关联复杂健康大数据的相关研究能够帮助人们更加科学地认知疾病的病因,分析健康行为的关键影响因素,并且对研发相应的技术方法至关重要。同时,相关研究对于提高公共卫生事件的追踪和应急响应能力、传染病早期预警信号的发现能力和对诊断性检测方法的研发能力有重要意义。数据分析和应用研究成为面向健康大数据研究领域的一个核心研究课题,相关研究工作正逐步展开。 本文聚焦于电子医疗病历系统数据和互联网社交媒体中公共卫生事件数据等两种典型健康大数据,在海量的模型方法中筛选出有效的研究手段,形成对疾病共病症影响评估和公共卫生事件相关微博流行度等级预测等方面完善的研究模式。本文所完成的主要工作包括: 1、针对疾病共病症风险问题,本文面向高血压患者门诊记录数据,采用自然语言理解的方式将海量数据标准化,并统计出高血压患者中最常见的20种共病症。随后,对各种共病症在不同性别和年龄段人群中的分布模式进行分析。发现男性和女性高血压患者的部分共病症风险具有显著差异;随着年龄增长,各种共病症呈现出五种不同发病模式;低龄高血压患者和高龄高血压患者的共病症风险存在显著差异。此外,本研究基于网络分析理论对高血压共病症网络进行分析,证明高血压常见共病症间具有很强的关联关系。 2、针对疾病共病症对患者时间和经济方面影响的评估问题,本文面向慢性阻塞性肺疾病患者住院病历数据,根据查尔森共病症指数、相关文献和数据集信息确定共病症列表,采用ICD-10国际疾病分类编码对各种共病症负担进行统计和评估。随后,通过统计分析方法对比慢阻肺和非慢阻肺患者的时间负担和经济负担。结果表明慢阻肺患者的时间负担会提高,而经济负担增加并不明显,共有6种共病症会同时显著提高慢阻肺患者的住院时间和经济负担,这意味着慢阻肺患者应更关注这些共病症并及早展开预防措施。 3、针对公共卫生事件中微博流行等级预测问题,本文面向H7N9禽流感疫情爆发期间疫情数据和相关微博数据,采用格兰杰因果检验验证实际病例数与微博转发热度间的时间相关性,并在此基础上,采用用户、微博和新兴传染病相关信息等简单特征构建微博流行等级指标体系,进而提出新兴传染病相关微博流行度等级预测模型。该模型可以快速、准确地预测新兴传染病相关微博的流行度水平,为互联网疫情监测系统性能优化提供重要方法支撑。 综上所述,本文基于不同形式健康大数据的特点,形成了各自有效的数据分析、管理和应用的研究模式。通过充分、快速、有效地从数据中发现有价值的信息,为后续决策做出支撑。