论文部分内容阅读
某医院信息化建设的发展,迫切需要建立一个数据仓库,为临床辅助诊断和日常管理决策等提供支持。病例资源库系统正是应医院的要求而开发,集成医院信息系统的数据,通过数据挖掘技术,挖掘和分析出数据价值,用于辅助临床诊断和支撑管理决策,以及科研、教学。ETL(Extract Transformation Loading,ETL)工具就是处理从医院的多个信息系统中获取业务数据,进行数据清洗和和转换,存储到病例资源库中的过程。本文的研究目标是实现一个具有病例资源库特点的ETL工具,处理从数据源抽取数据导入到病例资源库中。本文首先分析了病例资源库对ETL工具的需求,分析了数据源数据的特点,基于元数据的思想设计出ETL工具的体系结构。然后重点设计了ETL工具中元数据的结构,设计了ETL模块的处理流程,最后根据设计的结果实现了ETL工具。在设计和实现中,ETL工具中的元数据,中间产生的临时数据,都采用XML进行组织和存储,并且数据的清洗和转换方法也都是基于XML的。通过元数据技术,大大减轻了ETL工具实现的复杂度,提高了系统的扩展性以及灵活度。元数据文件中规则制定的策略是本文的一个探索。在ETL的整个流程中,数据的处理都是在XML文件上进行,而不是传统的数据库,这也是本文对ETL工具的一个探索。本文设计和实现的ETL工具已经交付某医院,系统的可用性、稳定性和扩展性都得到了实际验证。