面向数据流的Top-k复杂事件查询技术研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户：neiki1120

【摘要】

：

互联网产业的快速发展在带来数据规模爆炸式增长的同时,也使大数据呈现出越发鲜明的流式特征,数据流以其特有的实时性、突发性、易失性和无限性给传统数据库带来了巨大的挑战

【作者】

：

陈贵丹

【出处】

：

湖南大学

【发表日期】

：

2004年期

【关键词】

：

数据流复杂事件处理 Top-k连续查询 Top-k支配查询动态自适应分区 k-skyband

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网产业的快速发展在带来数据规模爆炸式增长的同时,也使大数据呈现出越发鲜明的流式特征,数据流以其特有的实时性、突发性、易失性和无限性给传统数据库带来了巨大的挑战。复杂事件处理技术采用事件检测的方法,通过事件属性和事件层次结构之间的关系,使用各种规则处理算法对事件进行匹配和关联,对海量的数据流进行不断的过滤,从中找出满足规则约束条件的事件集合,挖掘出用户感兴趣和有用信息,并提供快速响应。复杂事件处理技术能够满足海量数据处理中高吞吐量、低延迟的需求,是数据流处理的关键技术之一。研究能够适应数据流多样、海量、无限、时变等特性的动态的分析技术及高效的处理算法是数据流实时处理的关键。国内外研究学者相继提出了针对不同应用场景的数据流Top-k复杂事件查询算法。但是,现有研究成果不够完善。这些算法大多对数据流分布和参数变化比较敏感,本论文分别针对数据流动态自适应分区的Top-k连续查询问题、数据流的Top-k支配查询等问题进行了一定的研究和探讨。本文主要的研究工作总结如下:(1)基于动态自适应分区技术的Top-K连续查询算法由于数据流的实时性、持续性、无限性等特点,本文采用滑动窗口技术来处理数据流的连续查询。论文首先采用定长分区策略把窗口分区成多个不相交的子窗口,定长分区方法在维护候选集的时候会造成不必要的维护成本。针对这个问题,进一步提出了动态自适应分区算法,该算法可以根据数据流的动态分布自适应调整分区的大小,并通过曼惠特尼秩和检验检测分区的大小是否合适。然后通过全局过滤和局部过滤方法,提前过滤那些对最终结果集没有贡献的对象,降低通信成本。最后在大量实验的基础上验证了算法的高效性。(2)分布式数据流的Top-k支配查询算法针对传统Top-k查询评分函数不好指定,skyline查询结果集大小不好控制等问题,提出了数据流的Top-k支配查询算法,Top-k支配查询继承了 Top-k查询和skyline查询的优点,因此在决策支持等领域发挥着重要作用。本章采用SparkStreaming+HDFS的分布式查询框架,提出了基于Filter-based的Top-k支配查询算法,并结合subspace skyline和SKYBr技术高效过滤非k-skyband对象,达到提前剪枝的目的,提升了算法的性能。最后通过真实数据集验证了算法在时间和空间方面的性能。

其他文献

农业开发项目投资应引起重视

农业开发项目投资应引起重视张振友最近，河北省农村社会经济调查队对海河流域农业开发示范区２５个县（市）进行了调查。调查发现，近几年，国家与地方投资建成了一大批农业开发项目，对我省

期刊

农业开发农业投资农业发展中国

新时期高校办公室管理工作初探

【正】党的十四届五中全会提出的“九五”计划和2010年远景目标,对我们领导干部的管理工作提出了新的更高的要求。马克思说:“一切规模较大的直接社会劳动或共同劳动,都或多

期刊

高校办公室工作办公室管理工作新时期综合协调能力科学管理思想政治工作领导管理水平领导者知识素质法的认识论

重复刺激的末位优势效应

探讨在RSVP任务中重复刺激的呈现位置和报告方式对重复知盲效应的影响,检验该研究提出的注意资源最优化假设和末位优势效应。实验1操作了刺激性质和重复刺激位置,得出了刺激

期刊

重复知盲末位优势效应类型标记个体化理论建构/归因理论注意资源分配最优化假设

高等学校文科学报研究会成立大会暨主编研讨会纪要

【正】全国高等学校文科学报研究会成立大会暨主编研讨会,于1988年11月5日至9日在湖南师范大学举行。出席大会的有29个省、市、自治区(宁夏因故缺席、台湾、香港、澳门代表

期刊

高校文科学报研究会研讨会纪要高等学校学报工作学报质量筹备组编辑工作高校学报学报编辑

浅论盖斯凯尔夫人的《克兰福德》

【正】盖斯凯尔夫人(1810—1865),原名伊莉莎白·克莱格霍恩·斯蒂文森,十九世纪前期英国批判现实主义作家之一。马克思对她评价较高,把她和狄更斯、萨克雷、夏洛蒂&

期刊

小姐教区长女仆小说十九世纪作品女帽商玛莎巴顿贵族阶级

基于混合模型的POI表示学习

移动通信和传感设备等位置感知技术的发展促使位置数据的规模和价值不断提高,成为了基于位置的服务(Location Based Service,LBS)不断壮大的有力支撑,也是学界和产业界共同关注的宝藏。与此类似,POI(Point Of Interest)作为位置数据的核心要素也受到了越来越多的关注。本文围绕两类典型的位置数据:轨迹数据和签到数据,开展了如下工作。首先,本文研究了从轨迹数据中识别停留

学位

轨迹数据签到数据混合模型POI向量表示

动物多肽毒素的异源表达纯化与活性研究

动物多肽毒素有很多优良的性质,其作用范围广泛,对血液系统、神经系统、免疫系统以及细菌真菌均有不同的作用,是开发新型药物和新型杀虫剂抗生素的重要资源库。其中,富含二硫

学位

蜈蚣毒素蚂蚁毒素E.coli SHuffleTM菌株自动诱导表达电压门控离子通道

人际关系图式激活对注意资源分配的影响:基于ERPs的研究

基于自我他人人际关系理论模型,本研究试图探索在人际关系图式激活条件下个体对信息的认知加工过程中如何分配注意资源,从而深入探讨人际关系图式中各元素的组成、分配以及之

会议

人际关系图式自我图式他人图式脚本如果-那么原则

藤县话声母的中古来源

【正】藤县话(取老鸦塘为代表点)的二十二个声母p、p‘、b、m、f、v、t、t‘、d、n、l、θ、tJ、tJ‘、I】、J、j、k、k‘、q、h、7对于中古汉语声母系统,有继承,有超越。从

期刊

声母系统中古汉语藤县古声纽代表点方言壮语音标送气塞音发音部位

试论党政干部的知识结构

【正】邓小平和陈云同志提出干部要革命化、年轻化、知识化、专业化,并且指出四个现代化是否有希望,要看干部能不能“四化”.广大党政干部要实现革命化、知识化、专业化,使自

期刊

知识结构党政干部核心知识母系统四化建设个体人马列主义毛泽东思想知识总量文学艺术

面向数据流的Top-k复杂事件查询技术研究

与本文相关的学术论文