论文部分内容阅读
随着自然环境的改变,越来越多的流行病不断出现并威胁着人类的生命健康。因此我们有必要对流行病的致病因子进行研究并对未来发病趋势进行预测。流行病预测需要大量的发病病例以及相关属性数据,传统的研究方法过于依赖官方发布数据,这些数据往往会存在数据滞后的问题。针对此问题,我们引入了开源数据作为补充对流行病预测进行了研究,开源数据具有信息量丰富、更新速度快、结构复杂等特点。由于数据准备和获取阶段工作量较大,本文研究了数据自动发现的关键技术来解决此问题。在预测模型建立过程中,不同格式的数据需要转换为相同格式以满足模型输入要求,本文研究了数据自动组织的关键技术来简化多源异构数据的处理。在模型建立阶段,选择一个预测效果好的模型也很重要,本文研究了模型自适应选择关键技术来简化模型探索的过程。 针对上述存在的问题及其解决方案的关键技术,为了简化流行病预测的过程,本文设计了一个基于开源数据的流行病预测平台,该平台能满足不同种类的流行病的预测。本文的主要贡献有: 1.提出了基于开源数据的流行病风险预测平台的技术框架并实现了该平台,为流行病预测提供了较为方便的研究平台。 2.研究了数据自动发现、多源异构数据组织、多预测模型比较分析等关键技术,实现了对网络数据的自动发现与采集、异构数据的自动组织与处理、不同类型的流行病预测模型的自行选择,在一定程度上解决了数据滞后问题、简化了数据预处理过程以及快速准确的选择合适的模型。 3.以狂犬病风险预测为例,包括狂犬病病例的获取、属性数据的组织、模型的选择等过程,验证了平台的可用性。