论文部分内容阅读
随着计算机网络和数据库技术的飞速发展以及人们获取数据手段的多样化,各种数据资源日益丰富数据量急剧增加,大学作为社会大家庭的一个重要成员,信息化和网络化程度也随之发生了巨大变化,许多部门在不同程度上依靠计算机软件来辅助完成工作,通过使用这些软件提高了业务处理能力和办公效率。但是日益增多的、不同种类的信息数据也给数据库管理带来了很多的问题,主要表现在数据清洗和数据复制两大方面,比如怎么样纠正数据错误、避免错误决策、降低决策风险?怎么样能够使各部门之间的信息既能灵活交流和共享,又能统一管理和使用?目前主要的方法是对这些数据进行数据清洗和数据的同步复制。通过清洗使我们得到的元数据是可信的、安全的、一致的,然后把这些清洗后的数据通过数据同步复制工具灌入公共数据库中去,从而使学校的各个部门能够共享数据资源。本文介绍了基于ETL(Extract,Transfer,Load)的数据清洗和数据复制的原理,并在实际工作中加以应用,主要工作如下:(1)介绍现阶段国内外数据复制和数据清洗的主要技术及其应用;(2)指出大学各个部门之间的数据源、数据质量和数据的一致性方面存在的问题;(3)分析数据存在的质量问题并设计清洗策略和复制策略;(4)阐述如何运用数据清洗和同步复制工具Oracle Data Integrator(简称ODI)把来自各个不同数据源的数据抽取出来,按照预定的规则清洗,然后转移,复制加载到目标数据库(即公共数据库)中去,以达到数据资源共享的目的。(5)论文在预防可疑数据的清洗策略方面和如何兼顾数据复制的效率和性能方面有待进一步讨论。