实时数据仓库数据流更新算法研究与应用

来源 :湖南大学 | 被引量 : 0次 | 上传用户:zb272939419
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实时数据集成是实时数据仓库在ETL架构实施过程中的关键步骤,其中的连接操作直接关系到实时数据集成的性能。在实时数据仓库的环境下,数据流的高效连接是保证实时数据集成的关键。为了保证实时数据仓库中数据集成能够实时高效地进行,解决实际中常见的数据偏斜分布问题,本文提出了一种数据流更新算法EH-JOIN。本文主要的工作内容如下:首先,论文以现代企业广泛运用的数据仓库为研究背景,分析比较了传统数据仓库和实时数据仓库的区别和联系。详细介绍了实时数据仓库ETL架构模型,对实时数据捕获技术和实时数据更新技术进行了深入研究。然后,论文分析了实时数据流更新技术中几种常见的算法,并且根据多输入连接效率、重复元组概率和I/O复杂度等几个关键指标来评价这些数据流更新算法,指出了这些算法的优缺点。接着,针对实际中常见的数据偏斜分布情形,论文基于MESHJOIN算法,提出了 一种数据流更新算法EH-JOIN,修改传统的哈希连接方法使之可以利用索引,并将部分频繁使用的主数据持久存储在内存中,有效地解决高速流下频繁的磁盘访问问题;提出了 EH-JOIN算法的开销模型。通过实验证明,EH-JOIN算法在性能上明显优于其他常见算法;另外通过比较包含了非交换部分和不包含非交换部分的算法的性能差异,验证了其磁盘缓存中非交换部分的积极作用;而且,通过验证EH-JOIN算法的预测开销模型,证明了 EH-JOIN算法的开销模型的准确性。最后,将本文提出的EH-JOIN算法应用到某高尔夫公司现有的数据仓库系统中,对实时数据仓库中的实时数据更新有着良好的支持作用,帮助决策人员更好对实时数据进行统计分析。综上所述,论文所提出的数据流更新算法EH-JOIN,具有一定的理论意义和应用价值。
其他文献
目的探讨β-catenin在急性心梗后梗死区心肌组织的修复愈合过程中的表达变化.方法建立大鼠急性心梗模型,分别用免疫组化和原位杂交方法检测大鼠急性心梗后心肌组织β-catenin
2013年12月4日,习近平在政治局集体学习时提出,要运用历史唯物主义的基本原理和方法论来研究和推进我国全面深化改革,这令人耳目一新,带有拨乱反正的意义。探讨改革问题必须
文章从全野外数字化测图工作的外业、内业以及测量成果各个阶段,对全野外数字化测图与平板仪测图的优缺进行了对比分析;结合全野外数字化测图的工作实际,对全野外数字化测图