高频项监测算法及其在网络业务流中的应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:goodcat13579
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据流是指一系列实时、高速、持续到来的输入数据项.近年来,数据流因其广泛出现在网络业务流、传感器网络、大规模天文观测、金融即时行情以及各种记录日志中而备受关注.数据流高速、海量的特点带来了算法及应用层面的众多根本性问题.其中,计算高频项是计算机网络、数据库和数据挖掘领域共同面对的最重要问题之一,然而要在有限存储空间内实时监测大流量数据的高频项却是一个极大的挑战.该文在充分研究各种数据流基本模型和算法策略的基础上,给出了两种计算无限数据流高频项的改进算法,提出了一种计算滑动窗口数据流高频项的近似算法,设计了一个基于窗口的数据流高频项实时监测系统.高频项监测是指在任何时刻都能计算出当前出现频率超过指定阈值的数据项.该文经过分析对比发现,在各种算法策略中计数方法是最适合于解决高频项监测问题的有效方法.数据流可以分成无限数据流和窗口数据流两种.无限数据流计算对象是整条输入数据流,在无限数据流下统计高频项的困难在于数据项种类太多以致内存需求无法满足.为此,该文在保证算法具有常数误差界的前提下,对现有的两种采用计数策略的弱近似算法提出了改进.实验结果表明改进算法在近似解精度,时间和空间效率上均有不同程度的改善与提高.滑动窗口数据流是一种时间敏感数据流,它只计算新近出现的w个项,更符合实际网络业务流的应用.但使用滑动窗口需要隐式删除过期数据项,这导致需要Ω(w)存储空间.因此,该文给出了一种具有可控近似度的single-pass算法,有效降低了存储空间.另外,有时候用户还要对比高频项的变化趋势,为此该文又引入了多尺度时间窗口思想,利用多尺度时间窗口可以监测中长期高频项的出现情况.综合滑动窗口和多尺度时间窗口两种策略,该文设计了一个基于窗口的网络业务流高频项监测原型系统,该系统仅用少量内存即可同时监测短、中、长期高频项的出现情况.
其他文献
数据集成是运用一定的技术手段将分布、自治、异构的多个局部数据源中的数据按一定规则组织成为一个有机整体的过程。数据集成是一种现实需求,用户需要通过数据集成获得一个一
当前,Web技术在Internet上得到了广泛的应用,它支持实时的信息发布、动态的用户交互以及与后台系统灵活的安全的连接.因此如何构造功能更加强大、应用更为灵活、开发更为简便
该文在对国内外研究现状进行了深入分析的基础上,将模糊数学理论的基本思想和方法引入到经典关系数据库中,深入探讨了模糊空值环境下关系数据库的基本关系操作、查询和更新处
主流通信基带处理器大多采用协处理器对某些实时性要求高,但不适于矢量处理的复杂算法进行加速。随着通信技术发展和日益增长的数据速率需求,协处理器中加速引擎种类和数目不断
Web服务是当今Internet上在线服务和应用集成领域的一个热点,它是一种松散藕合的、与语言和平台无关的,跨企业、跨因特网集成应用的技术平台,可用于建立具有互操作性的分布式应
计算机视觉作为当今最为活跃而又富有挑战意义的研究领域,其研究内容和应用领域相当广泛.该文以在六自由度并联机器人平台上建立视觉系统为主要的工程应用背景,对线性模型摄
随着无线通信的日益发展,对其服务所涉及的领域及其服务质量都有了更高的要求,第三代无线通信标准成为了世界目光的焦点.而对中国具有自主知识产权的TD-SCDMA标准的研究,更加
面向对象的开发方法是一种很有发展前途的方法,它强调以系统中的数据或信息为主线,全面、系统、详细的描述系统的信息模型,指导系统的设计。面向对象程序是由可复用软件构件-对
随着电信网络综合通信能力的增强,电信运营商有很多业务增长机会及提高利润的时机.用户也要求提供各种全新的服务,如宽带接入、VPN服务、VOIP、WEB托管等,特别是VoIP业务已经
软件测试是保证软件质量最重要的方法之一.动态测试是软件测试过程中极为重要的一环.动态测试工作量巨大,费时费人费力.因此,在实际的工作中,测试工程师往往需要利用测试支撑