基于聚类的动态物化视图选择研究

来源 :江苏大学 | 被引量 : 3次 | 上传用户:helen527
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
经过多年发展,数据仓库已广泛应用于各行业,随着时间的推移,数据仓库中的数据量迅猛增长,为了解决查询响应所需时间越来越长的问题,物化视图技术应运而生,并已成为数据仓库中的一个研究热点。物化视图技术将视图所对应数据加以实际物理存储,通过预计算的方式加快查询响应速度,然而,其本身也需要耗费大量的资源,因而如何选择一组合适的视图进行物化就成为数据仓库查询中的一个重要问题。现有的物化视图选择技术多为静态选择算法,在一定程度上与决策支持应用系统的动态特性相矛盾,而动态物化视图选择算法研究较少,且存在系统开销过大的缺点。针对这两者的不足,在前人研究的基础上,本文提出并实现了一个基于聚类的动态物化视图选择算法,该算法结合使用了所提出的静态物化视图改进算法与聚类改进算法。本文在探讨了数据仓库、物化视图选择及聚类分析等技术的基础上,进行了基于聚类的动态物化视图选择方法研究,提出了一种基于聚类的动态物化视图选择算法CBD-MVS。该算法利用聚类技术来对数据仓库中的用户查询语句进行聚类,再对聚类后的各个簇中的用户查询语句进行合并,得到数量较少的候选物化视图,然后再选择一种合适的静态物化视图选择算法来得到最终的物化视图。本文的主要研究内容为:1.针对现有聚类算法在对用户查询语句进行聚类处理的不足,把频繁闭项目集应用到聚类分析技术中,通过对用户查询语句执行频繁闭项目集挖掘算法,得到基于属性字段的关联规则,并根据这些规则求得属性字段的关联度矩阵和特征向量,计算出属性字段集相似度,执行k均值聚类算法获得聚类结果。实验表明该方法得到了较好的聚类结果。2.探讨了数据仓库技术及物化视图技术,着重研究了静态物化视图选择算法Greedy、BPUS和PBS,并分析其不足之处,提出了一种改进算法BGA。该算法使用启发式搜索算法的思想搜索格图,利用数据立方体格图之间存在的依赖关系,结合代价模型筛选出具有最大效益的物化视图,并将存储空间与新增效益共同作为阈值,在获得了与BPUS算法相同视图查询代价效果时,所耗费的时间明显少于后者。实验证明该算法是十分有效的。3.研究了数据仓库中物化视图的动态选择问题,针对现有物化视图选择算法的不足,提出了一种基于聚类的动态物化视图选择算法CBD-MVS。该算法采用基于频繁闭项目集的聚类算法对用户查询语句进行聚类,应用视图合并算法建立候选物化视图,利用改进的静态选择算法BGA生成最终应该被物化的视图。实验表明该算法是有效可行的。
其他文献
计算机现实模拟是计算机图形学和现实世界表现相结合的产物,流体模拟则是计算机现实模拟领域的一个重要研究方向。大多数流体模拟研究均采用基于物理的模拟方法,需要考虑周围
下一代网络(NGN,Next Generation Network)技术的发展已经进入成熟阶段,国内通信运营商在其技术优点的驱动下大量进行国内的NGN网络建设,大约每年以30%左右的速度增加。目前
建立在统计学习理论和结构风险最小原则上的支持向量机在理论上保证了模型的最大泛化能力,因此与建立在经验风险最小原则上的神经网络模型相比,理论上更为完善。支持向量机是
随着互联网的迅速发展,人们通过网页分享与交流着大量的信息,如何快速全面准确地获取互联网上的信息,成为人们迫切关心的问题。网页话题识别研究将为网页搜索与检索、经济决
随着人们对科学技术和社会发展的日益重视,学术领域呈现多元化、信息化、现代化的趋势。在这种情况下,我们比以往任何时候都迫切地需要高效、全面、方便的学术信息。但另一方面
随着网格技术的快速发展,数据传输技术越来越凸显出它的重要性,因为它不仅在处理海量数据的数据网格中占据着不可撼动的位置,在计算网格、服务网格等领域也起着至关重要的作
随着半导体技术的发展和信息技术以及数字化产品的普及,嵌入式系统已被应用到网络、手持通信设备、仪器仪表、国防军事以及自动化控制等各个领域。而结合视频监控的嵌入式应
现有的搜索引擎都是对整个页面建立索引并用于检索的,但某些页面中可能包含不同的主题块,如果用户提交的多个关键词恰好分别位于不同的主题块内,则即使页面与用户检索请求不
在公共安防领域,视频监控发挥着越来越重要的作用。目前,视频监控正在朝数字化、网络化和智能化三个方向发展,由于编码格式的快速发展,以及监控前端设备的发展,数字化和网络化已经
随着计算机技术、通信技术和多媒体技术的飞速发展,数字图像广泛应用到社会生活的方方面面,数字图像的分类和检索技术也随之发展。传统的基于文本关键词的数字图像分类和检索