一种数据流滑动窗口上的索引连接策略

来源 :第二十二届中国数据库学术会议 | 被引量 : 0次 | 上传用户:wangligang987123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,数据流的应用(DataStreamAppli-cation)变得越来越广泛.在数据流的应用中,传统的数据与查询模型已经不再适用.在传统的数据库应用中,数据是持久稳固的.通常,数据库中包含的是无序的静态数据集,这些数据的插入与删除操作相对于查询的插入与删除是很少的.用户可以随时加入查询来得到关心的结果.但在数据流中,数据是连续不断的、无界的、并且速度可能是变化的、以一种序列(流式)的形式在线到达的.一些典型的数据流应用如:传感器数据处理、在线拍卖、网络监控、入侵检测控制、电话呼叫记录以及股市信息分析等等.本文介绍了一种在滑动窗口上建立索引的方法,从而提高连接查询处理的效率.对滑动窗口进行划分,并在上面采用了红黑树建立索引,使得能够支持范围查询.由于是把元组的连接属性值作为索引的节点键值,相同的值会加入到一个节点上,因此当元组的连接属性值重复越多时索引会越显出优势.另外,本文中讨论都是以两个流的连接为例,如何将索引的方法扩展到多流连接和异步流连接是将来的工作.
其他文献
随着因特网的快速发展,电子文档的数量增长极快,使得文本自动分类对于信息处理的意义变得更加重要,文本自动分类已成为一项重要的研究课题.目前,国内外学者已经提出了多种文本分类方法,如:Bayes、支持向量机、群体智能、神经网络、N-gram等,但仍然有很多问题亟待解决.本文针对文本分类提出了基于最大模糊支撑树的文本分类算法ATCMT,实验结果表明该算法是一种有效的方法.只要文本特征抽取准确、相似性度量
随着数据库技术的广泛应用,关系型数据库中保存了海量的数据,其中包括大量的用户隐私数据,例如住址、年龄、身份证号码、邮件地址、常用的银行卡号等.用户对隐私数据要求越来越多的保护,特别是电子商务的广泛开展使得这方面的需求越来越突出.数据隐私指用户有自主的权力来决定在什么时候,以什么样的方式,提供哪些数据和其他人进行交流.研究者在Hipocratic数据库的研究中提出限制非授权访问是隐私保护中一条非常重
本文在分析了CA数据样本的特性并进行多次实验之后,提出了适用于CA的数据挖掘方法.在运用了改进后的K-Mean和K-Mode方法的试验的最终结果表明,在由第IV类自动机生成的样本集中,虽然每个样本形态复杂,但是样本与样本之间存在一定相似性与规律性,这些发现会对利用CA来模拟预测现实世界的研究工作有所帮助.
RBAC的概念在20世纪70年代就已经提出,但是在此后的二十年中没有引起人们足够的重视.直到1996年R.S.Sandhu等人正式提出了RBAC96参考模型,这个模型由RBAC0,RBAC1,RBAC2和RBAC3四个子模型构成,RBAC0是最基本的模型,包括角色的授权(permis-sion)分配和用户的角色分配.RBAC1在RBACO的基础上增加了角色的层次(RoleHierarchy)概念,
本文提出了一种隐通道使用检测方法,通过挖掘数据库中审计信息检测隐通道的使用.作为一种特殊的信道,隐通道的发送者与接收者的行为之间存在依赖关系.通过分析与寻找审计表中记录的操作之间的依赖关系,可以检测出构成隐通道的操作.该方法并不依赖于对系统彻底的隐通道分析,并可以用于时序隐通道以及其他未知隐通道的识别.
作为信息交换和发布的标准数据格式,近年来XML已经得到了广泛应用.如RSS(RDFSiteSummary)技术,它是一种以XML为标准进行站点之间共享内容的简易方式,涉及的应用包括blog最新内容收集和新闻信息集成,将来还可能涉及到新闻搜索、求职信息注册等.对于一个持有大规模RSS文档的数据源,随着用户查询数量的不断增加,其信息检索和发布将成为一大负担.而RSS数据的结构简单,包含大量的文字描述,
已有的OLAP操作的研究成果大多基于单机环境.然而随着数据量的激增,已有的串行算法在海量数据面前显得力不从心;此外,并行计算技术已经在并行数据库领域得到充分的认定与发展,PC机群系统又因其价格低廉与完全并行而得到广泛的应用,于是研究基于PC机群系统的并行OLAP操作算法逐渐成为研究人员关注的一个重要问题,本文介绍基于维属性划分存储的并行聚集算法.
30多年来,数据库技术发展迅速且得到了广泛应用.一方面,数据建模形式多样,从层次数据库、网状数据库、关系数据库、对象数据库,直到关系对象数据库等等;另一方面,数据规模也越来越大.传统数据库技术的一个共同点是:数据存储在介质中,可以多次利用;但是在20世纪末,一种新型应用对它提出了有力的挑战.这种名为数据流(datastream)的应用模型广泛出现在众多领域,数据流不同于存储在磁盘上的关系数据,而是
联机分析处理(OLAP)是一种数据分析技术,它通过提供多角度、多粒度的查询和展现数据的功能,使得人们得以灵活地观察和分析数据.本文提出了一种基于单调性对聚集查询结果进行导航的方法.我们根据聚集查询结果在数据立方体格结构上的单调性,将OLAP常用的聚集函数分为两大类,一类满足向下(弱)单调性质,另一类满足向上单调性,分别找到向下(弱)单调聚集查询结果的上界入口集和向上单调聚集查询结果的下界入口集,作
函数依赖是一种常见的数据依赖,反映了数据之间的完整性约束.然而,现实世界存在着大量非精确的函数依赖,例如病理学家希望获得不同饮食习惯与不同疾病的关系,市场营销人员希望知道不同的年龄阶层与商品购买力间的关系等.这些数据间普遍存在的非精确的函数依赖关系为近似函数依赖(ApproximateFunctionalDependencies.近似函数依赖在知识发现、隐私保护和数据推演等方面都有着重要的作用.本