动态数据仓库中实时数据流更新与物化样本视图的研究与实现

来源 :浙江大学 | 被引量 : 0次 | 上传用户:huxianding
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息作为现代企业的宝贵资源,占据着越来越重要的地位。而数据仓库作为数据信息的载体,旨在通过通畅全面的信息管理,达到有效的决策支持。传统的数据仓库通常以支持企业内部战略性决策为主,而基于营运导向的动态数据仓库则是以提供企业外部战术性决策为主。动态数据仓库是一种创新理念,但是其技术基础和架构思想还是来源于传统的数据仓库。ETL(数据的抽取、转换、加载)作为数据仓库构建的一个十分重要的环节,贯穿于项目的始终,在整个数据仓库中扮演着非常重要的作用。动态数据仓库的出现,对于ETL的实时性方面提出了较高的要求,实时ETL的研究也成为了数据仓库领域研究的一个重点。此外,物化视图作为数据仓库中另一个重要的组成部分,旨在提高数据仓库系统的查询响应,减轻查询的计算压力。物化视图的设计、选取和维护,也是动态数据仓库应用中的研究热点之一。本文作者以某跨国金融公司内部一个大型金融软件系统所采用的动态数据仓库为背景,广泛探讨与剖析了企业级动态数据仓库的架构与实施过程中的各方面问题。介绍了动态数据仓库的体系架构和各个组成部分,对于其中的关键技术进行了系统而深入的研究。对动态数据仓库的实时ETL中的关键技术——实时数据流更新技术,进行了深入研究与分析,提出了一种针对动态数据仓库分布式集群的D-MESHJOIN算法,并通过实验证明该算法在动态数据仓库集群环境中具有良好的性能与扩展性。此外,对动态数据仓库中一种特殊的物化视图——物化样本视图,进行了深入研究与实践,设计了一种新型的基于ACE+树的视图组织结构,该视图结构在已有研究基础上进行改良,解决了以往样本视图不支持动态增量维护的问题,并在实践运用中证明其有效性;同时,针对集群环境中数据表分区的情况,给出了分布式的物化样本视图查询策略。通过对动态数据仓库架构实施、应用研究等一系列研发工作,最终给出了针对性的解决方案。对于类似的企业级动态数据仓库的构建,实时ETL和物化样本视图的实现,具有一定的参考价值与实践意义。
其他文献
近几年,随着我国铁路路网干线的提速以及高速、客运专线和重载铁路的发展,动车组的速度最高已经达到380km/h,路网设备维护已成为运输生产组织、行车安全中的关键问题,现有的
随着条形码技术的发展和POS(Point Of Sells)系统的普及,零售企业中的日常交易数据被大量收集,这些数据背后蕴藏着巨大的商机。作为数据挖掘中最活跃的研究方法之一,关联规则
XML (extensible markup language),即可扩展的标记语言,是一种允许用户用特定领域的标记来描述文本含义和结构的元标记语言。随着互联网和网络技术的快速发展,符合XML规范的
近年来,随着众多P2P应用系统的出现,对等技术再一次成为研究的焦点。P2P基于对等的思想,具有很好的扩展性、健壮性、隐私性和高性能,在文件共享、分布式计算、协作系统、搜索
随着计算机技术与多媒体技术的迅猛发展,高等院校的教学形式和活动形式都发生了巨大的变化,无论是教学、会议、培训、活动都越来越依赖于多媒体的运用与支持。多媒体教学极大地
云计算是随着并行计算、网格计算、分布式计算等技术的发展与融合而产生的新技术,近年来许多IT巨头加大云计算的研究投入,随着市场的成熟,它的发展规模也越来越大,它在市场中的投
近些年来,随着网络技术和通信技术的不断发展以及用户对网络需求日益多样化。通过IP网络传输多媒体信息的技术也不断推陈出新,于是基于Internet网络的数字会议系统作为一种新
随着语义Web的深入研究发展,本体作为语义Web实现的关键,得到了广泛研究,出现了大量异构的、动态变化以及质量较差的本体,这些本体制约着语义Web的进一步发展。为了促进语义W
本文主要研究了基于符号计算求解两类孤立子方程的对称群及其算法。文中分别对微分差分方程和2+1维偏微分方程进行了研究,并总结出求解非线性微分方程完全群的算法步骤。第二
随着计算机产业的快速发展,软件的规模不断扩大,软件的测试工作也越来越复杂,如何提高测试的效率已成为被广泛关注的问题。形式化方法的研究和应用已有30多年的历史,它的优越