论文部分内容阅读
经过多年发展,数据仓库已广泛应用于各行业,随着时间的推移,数据仓库中的数据量迅猛增长,为了解决查询响应所需时间越来越长的问题,物化视图技术应运而生,并已成为数据仓库中的一个研究热点。物化视图技术将视图所对应数据加以实际物理存储,通过预计算的方式加快查询响应速度,然而,其本身也需要耗费大量的资源,因而如何选择一组合适的视图进行物化就成为数据仓库查询中的一个重要问题。现有的物化视图选择技术多为静态选择算法,在一定程度上与决策支持应用系统的动态特性相矛盾,而动态物化视图选择算法研究较少,且存在系统开销过大的缺点。针对这两者的不足,在前人研究的基础上,本文提出并实现了一个基于聚类的动态物化视图选择算法,该算法结合使用了所提出的静态物化视图改进算法与聚类改进算法。本文在探讨了数据仓库、物化视图选择及聚类分析等技术的基础上,进行了基于聚类的动态物化视图选择方法研究,提出了一种基于聚类的动态物化视图选择算法CBD-MVS。该算法利用聚类技术来对数据仓库中的用户查询语句进行聚类,再对聚类后的各个簇中的用户查询语句进行合并,得到数量较少的候选物化视图,然后再选择一种合适的静态物化视图选择算法来得到最终的物化视图。本文的主要研究内容为:1.针对现有聚类算法在对用户查询语句进行聚类处理的不足,把频繁闭项目集应用到聚类分析技术中,通过对用户查询语句执行频繁闭项目集挖掘算法,得到基于属性字段的关联规则,并根据这些规则求得属性字段的关联度矩阵和特征向量,计算出属性字段集相似度,执行k均值聚类算法获得聚类结果。实验表明该方法得到了较好的聚类结果。2.探讨了数据仓库技术及物化视图技术,着重研究了静态物化视图选择算法Greedy、BPUS和PBS,并分析其不足之处,提出了一种改进算法BGA。该算法使用启发式搜索算法的思想搜索格图,利用数据立方体格图之间存在的依赖关系,结合代价模型筛选出具有最大效益的物化视图,并将存储空间与新增效益共同作为阈值,在获得了与BPUS算法相同视图查询代价效果时,所耗费的时间明显少于后者。实验证明该算法是十分有效的。3.研究了数据仓库中物化视图的动态选择问题,针对现有物化视图选择算法的不足,提出了一种基于聚类的动态物化视图选择算法CBD-MVS。该算法采用基于频繁闭项目集的聚类算法对用户查询语句进行聚类,应用视图合并算法建立候选物化视图,利用改进的静态选择算法BGA生成最终应该被物化的视图。实验表明该算法是有效可行的。