先知型数据质量分析系统关键技术的研究与应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:qq664374004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着企业信息化进程的加速和经济全球化给企业带来的竞争压力不断加剧,越来越多的企业想要构建自己的数据仓库系统,整合企业大量的、分散的、杂乱无章的数据,期望从中发现对企业经营有益的信息,为企业的战略决策提供支持,从而提升企业的竞争力。基于强烈的现实需要,和成功数据仓库项目所带来的巨大效益和影响,对数据仓库的研究在学术界和工业界得到蓬勃的发展。目前,数据仓库技术已经成为计算机研究领域的一个热点,在金融、通信、大型零售等行业也已经得到了广泛的应用。 数据准备是构建数据仓库的基础,也是数据仓库项目能否成功的关键。由于用于数据准备的数据源来自不同时期、不同硬件平台、不同的操作背景,其中隐含着大量的“脏数据”。如何在数据准备的过程中对数据质量进行有效的控制?对ETL流程进行改造,设计一个灵活、简洁、功能强大的能对各种数据质量问题进行有效控制的数据质量分析系统具有重要的意义。 本文的主要研究工作和成果如下: (1)对ETL和数据质量分析的相关理论进行了阐述和分析,重点探讨了其中的元数据管理、数据质量分析方法、知识库管理等相关理论。 (2)研究并设计了一个具有简洁性、灵活性和可扩展性的ETL架构。该架构中包含数据抽取过滤功能和数据质量控制器功能;包含的数据清洗缓冲区支持多次清洗,可以有效地提高数据清洗的质量;包含灵活、便捷的对数据清洗方案的自动生成和人工编辑手段,可以有效地应对可预见的但未曾处理过的数据质量问题。 (3)开发并实现了一个基于新架构的ETL工具(Prophet ETL Designer)。该工具在应用实现上体现了它的简洁、易用性;在流程控制上,体现了ETL流程对数据的灵活控制:在数据质量控制上,为用户提供了一个灵活、方便、功能强大、性能优越的数据质量管理机制。 (4)介绍了在构建先知型数据质量分析系统过程中涉及到的关键技术,包括:数据质量的分析方法、元数据存储库的设计和数据清洗方案的生成机制。 本文的主要创新点在于提出并设计了一个先知型数据质量分析架构,并在此基础上实现了先知型数据质量分析系统。该架构是对主流ETL架构的改进,在数据质量控制的功能、性能、灵活度方面有显著的提高,可以有效处理可预见的但未曾出现过的数据质量问题,达到“先知”的目的。
其他文献
三维破碎文物拼接技术是计算机辅助文物复原的核心技术,是计算机视觉、图象分析和模式识别中的突出难题,它被应用到考古学、古生物学、文物复原等许多领域。近年来国际上关于破
在视频监控系统中,相对于内容较为固定的背景,人们更多关注运动前景。在夜晚等场景下,由于环境光亮度较低,摄像头会自动提升感光系数,另外前景距离摄像头较远,摄像头获取的人
无线网络应用广泛,已经引起相关研究人员的高度注意。在应用无线网络的实践中,为了提升网络性能,自然而然涌现出大量的优化问题。和其他领域的情形类似,无线网络中的优化问题也常
大数据环境下产生的数据大多是海量的,而并非所有这些数据都属于正常数据,其中可能包含大量噪声或者离群点数据。这些离群点数据通常具有异乎寻常的重要性,可以通过数据挖掘中的
随着计算机和机器人学的发展,现代机器人已经不仅仅在工业制造方面,而且期待能在农业、林业、军事、医疗、文娱、家用、科学研究等许多方面得到广泛的应用。然而对于家庭服务
随着语义web技术的不断进步,人们开始更多的关注其在web服务方面的应用。人们期望能系统而准确的对服务应用领域的概念进行抽象和定义,从而把语义web的优势与web服务的优势相融
Web服务经常需要被组装成一个复合Web服务,以完成单个服务不能完成的任务。复合Web服务必须确保按照正确的方式调用组件服务完成既定目标。这就需要多种控制结构,包括顺序、条
形式化方法经过几十年的研究发展,为并发系统的建模与验证做出了巨大的贡献。事件结构是一种主流高效的形式化方法,由基于抽象动作的事件以及事件之间的因果、矛盾、并发三种逻
智能Agent技术的诞生和发展是分布式人工智能技术和网络技术发展的必然结果。基于网络的分布式人工智能是在传统人工智能的基础上发展起来的,本质是采用人工智能等技术,研究一
开放环境下,越来越多的分布式系统被应用于各个领域,如资源共享,电子商务等。这些应用系统与传统的集中式系统相比,有资源丰富,容错性好,节省服务器维护开销等优点,但同时存在不同于