论文部分内容阅读
数据仓库中的数据大多来源于多个分散、异构及自治的底层业务数据库,其信息以实视图的形式存储。通过物理上的预先存储,加快了查询响应时间,大大提高了数据仓库的性能。然而,底层数据库中的数据是不断变化的,为使数据仓库实视图能够同步反映数据源的变化,必须对数据仓库中的相关数据进行及时维护。
实视图的维护是数据仓库中的关键技术,随数据源和数据量的不断增加,对数据仓库实视图维护的效率提出了更高的要求,采用完全更新显然是不可行的,研究实视图的增量维护策略将具有重要的理论价值和实践意义。
在介绍数据仓库及实视图的概念基础上,对三层数据仓库增量维护体系结构进行了改进,在数据仓库基库与数据仓库之间增加组件包装器,将当前数据库副本转换成数据仓库所需要的有效格式,同时利用触发器技术获取底层数据库系统的增量。
针对现有实视图增量更新算法存在的效率不高或处理不完善等不足,利用清除旧数据和保存历史相结合的方法对维表的更新进行改进,在清除旧数据时充分考虑到了决策的准确性、即时性和高效性等多个因素,并结合用户需求获得最佳平衡点。同时利用扩展技术元数据聚集相关标识符和当前标志指示符对实视图增量更新进行改进,避免了对事实表进行的不必要的修改,简化了更新过程,提高了增量更新的效率。
现有的聚集函数增量更新算法只考虑到某些特殊情况,不具有通用性,因此根据聚集函数更新的特点将其分为可自维护聚集函数和不可自维护聚集函数两类,针对不同情况对聚集函数的增量更新进行了完善。
为了测试改进算法的功能及效率,在实验中对实视图利用增量更新及完全更新两种方式进行处理,通过时间及空间的对比,证明了改进算法在数据仓库实视图的维护中的有效性。