数据流频繁项集挖掘算法的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户：st65210163

【摘要】

：

随着互联网的发展,世界已经走向信息时代。在许多应用领域都产生了数据流。如何使用有限的存储空间进行快速和近似的频繁项集挖掘是数据流频繁项集挖掘最基本的问题。本文对

【作者】

：

李红霞

【机构】

：

东北大学

【出处】

：

东北大学

【发表日期】

：

2009年期

【关键词】

：

数据流挖掘频繁项集挖掘频繁项集

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的发展,世界已经走向信息时代。在许多应用领域都产生了数据流。如何使用有限的存储空间进行快速和近似的频繁项集挖掘是数据流频繁项集挖掘最基本的问题。本文对数据流的频繁项集挖掘问题进行了深入地研究,主要做了以下工作：(1)对现有的数据流频繁项集挖掘算法进行了分析研究,在此基础上,引入了最小支持度阈值可变的思想,设计了一个最小支持度阂值可变的数据流频繁项集挖掘算法MRFIVMST,用来挖掘数据流中的最近频繁项集。并通过实验验证了算法的性能。(2)在对算法Lossy Counting与estDec分析的基础上,考虑用户感兴趣的因素,将FP-Tree结构改进为NFI-Tree结构,同时改进了estDec算法的计数衰减方式,设计了一个计数误差可变的数据流频繁项集挖掘算法FIMVES。该算法能够保证不同长度的频繁项集计数严格控制在给定的最小支持度阈值范围内,使得挖掘结果的计数误差满足：(a)频繁1-项集的计数不含误差；(b)频繁2-项集计数的最大误差不大于ε(ε是用户给定的最大误差参数)；(c)频繁k(k>2)-项集计数的最大误差不大于2ε。从理论上证明了该结论的正确性,并利用该算法对模拟数据集进行了挖掘,实验结果表明,该算法能准确地找出用户感兴趣的频繁项集,并减少用户不感兴趣的冗余信息的存储开销与处理时间。

其他文献

两类平面Filippov系统的分支问题研究

在本文中,我们主要研究了两类平面Filippov系统的分支问题.通过运用微分方程的定性理论以及构造适当的Poincaré映射,我们首先讨论了由两个平衡点类型不同的线性系统构成的平

学位

平面 Filippov 系统线性系统哈密尔顿系统极限环滑动分支

最大化按时完工工件个数的单位长度工件的单机在线分批排序问题

本文研究在Lookahead作用下的单位长度工件的单机在线平行分批排序问题。目标函数为求最大按时完工工件个数。平行分批是指,多个工件可以组成一批同时加工,而每一批的加工时

学位

运筹学单位长度工件按时完工工件个数单机在线分批排序

范德蒙矩阵在矩阵对角化中的应用研究

本文围绕Vandermonde矩阵和广义Vandermonde矩阵展开讨论,归纳总结了它们的若干性质.　　首先介绍了Vandermonde矩阵和广义Vandermonde矩阵的概念和若干性质,如与多项式插值

学位

范德蒙矩阵结构分析对角化

临床试验中多种治疗的一种最优自适应设计

临床试验设计成为医学统计的热点研究内容,自适应设计应运而生,如广义Friedman’s罐子(GFU)模型、随机“胜者优先”(RPW)模型等。全文分为以下几个部分:　　在第一章中,介绍

学位

医学统计自适应设计临床试验最优配置规则参数检验

分数阶及时滞微分方程解及周期解的存在性

在工业工程，生态系统以及金融系统等实际系统的很多研究中，人们发现普遍存在退化、时滞以及脉冲现象，因此研究退化、脉冲时滞微分方程解的性态具有重要的现实意义。　　本文就退

学位

时滞微分方程分数阶微分方程周期解拓扑度重合度矩阵测度不动点定理

固定设计多维广义线性模型极大拟似然估计的渐近正态性

广义线性模型是经典线性模型的直接推广,它可适用于连续数据和离散数据统计分析,特别是属性数据和计数数据。　　假设数据由序列{(yi,xi),1≤i≤n}构成,其中yi是q维响应变量,

学位

广义线性模型极大拟似然估计渐近正态性

一类具时滞的HIV感染模型的分支分析

人体免疫缺陷病毒(HIV)的感染包含三个阶段，它开始于初期感染，然后是潜伏期，最后是艾滋病期或者是药物治疗期。在这篇论文中我们研究了M.S.Ciupe等人在2006年提出的一个有关初期

学位

病毒感染时滞系统稳定性分析数值模拟

数据流频繁项集挖掘算法的研究

其他学术论文