数据流频繁项集挖掘算法的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:st65210163
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,世界已经走向信息时代。在许多应用领域都产生了数据流。如何使用有限的存储空间进行快速和近似的频繁项集挖掘是数据流频繁项集挖掘最基本的问题。本文对数据流的频繁项集挖掘问题进行了深入地研究,主要做了以下工作:(1)对现有的数据流频繁项集挖掘算法进行了分析研究,在此基础上,引入了最小支持度阈值可变的思想,设计了一个最小支持度阂值可变的数据流频繁项集挖掘算法MRFIVMST,用来挖掘数据流中的最近频繁项集。并通过实验验证了算法的性能。(2)在对算法Lossy Counting与estDec分析的基础上,考虑用户感兴趣的因素,将FP-Tree结构改进为NFI-Tree结构,同时改进了estDec算法的计数衰减方式,设计了一个计数误差可变的数据流频繁项集挖掘算法FIMVES。该算法能够保证不同长度的频繁项集计数严格控制在给定的最小支持度阈值范围内,使得挖掘结果的计数误差满足:(a)频繁1-项集的计数不含误差;(b)频繁2-项集计数的最大误差不大于ε(ε是用户给定的最大误差参数);(c)频繁k(k>2)-项集计数的最大误差不大于2ε。从理论上证明了该结论的正确性,并利用该算法对模拟数据集进行了挖掘,实验结果表明,该算法能准确地找出用户感兴趣的频繁项集,并减少用户不感兴趣的冗余信息的存储开销与处理时间。
其他文献
在本文中,我们主要研究了两类平面Filippov系统的分支问题.通过运用微分方程的定性理论以及构造适当的Poincaré映射,我们首先讨论了由两个平衡点类型不同的线性系统构成的平
本文研究在Lookahead作用下的单位长度工件的单机在线平行分批排序问题。目标函数为求最大按时完工工件个数。平行分批是指,多个工件可以组成一批同时加工,而每一批的加工时
本文围绕Vandermonde矩阵和广义Vandermonde矩阵展开讨论,归纳总结了它们的若干性质.  首先介绍了Vandermonde矩阵和广义Vandermonde矩阵的概念和若干性质,如与多项式插值
“文章是人的智慧的火花,是人的生活创新的体验,是人的心灵个性的张扬。给文章注入生命,文章因此而鲜活;给生命注入知识,知识因此而厚重。”指导学生为做人而作文,在内容上求
临床试验设计成为医学统计的热点研究内容,自适应设计应运而生,如广义Friedman’s罐子(GFU)模型、随机“胜者优先”(RPW)模型等。全文分为以下几个部分:  在第一章中,介绍
在工业工程,生态系统以及金融系统等实际系统的很多研究中,人们发现普遍存在退化、时滞以及脉冲现象,因此研究退化、脉冲时滞微分方程解的性态具有重要的现实意义。  本文就退
在全面建设小康社会的新形势下,如何保证领导干部正确行使人民赋予的权力,自觉成为“三个代表”重要思想的实践者,这是加强党的作风建设的重大课题。要解决好这一重大历史性
兴趣是人们对认识需要的情绪表现,它是在过去知识经验,尤其在愉快体验积累的基础上形成的使人乐于积极持久地去接触、认识某一类新事物的一种意识倾向。学习兴趣是对学习活动
广义线性模型是经典线性模型的直接推广,它可适用于连续数据和离散数据统计分析,特别是属性数据和计数数据。  假设数据由序列{(yi,xi),1≤i≤n}构成,其中yi是q维响应变量,
人体免疫缺陷病毒(HIV)的感染包含三个阶段,它开始于初期感染,然后是潜伏期,最后是艾滋病期或者是药物治疗期。在这篇论文中我们研究了M.S.Ciupe等人在2006年提出的一个有关初期