面向不确定数据流环境的频繁模式挖掘算法的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:guanghuisir
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁项集挖掘是数据挖掘领域的一项重要工作,它是关联规则挖掘、聚类、分类的基础。随着信息技术的迅速发展,众多应用领域实时、持续、快速地产生大量的数据流。数据流由于自身的特点,使得在其上进行频繁项集挖掘面临巨大挑战。此外由于主观或客观原因,现实中很多数据是不确定的,其不确定性通常以概率的形式表示。传统的算法难以直接应用到不确定数据流上进行频繁项集挖掘,而且针对确定数据流设计的概要数据结构变的不再适用。因此,亟待研究并设计面向不确定数据流的高效概要数据结构和频繁项集挖掘算法。基于此,本文针对不确定数据流环境下频繁项集挖掘问题展开了以下研究工作:1、了解数据挖掘领域的相关知识,对数据流产生的背景、特点以及不确定数据产生的原因、表现形式、处理模型进行了详细的介绍。然后介绍了对不确定数据流进行频繁项集挖掘和Top-K频繁项集挖掘的经典算法,并分析了这些算法的优缺点,为下一步的研究奠定了基础。2、针对不确定数据流频繁项集挖掘的经典算法SUF-growth存在SUF-Tree的压缩率太低,造成挖掘算法的时空消耗太大的问题,提出了一种新的支持度的计算方法,即计算后缀支持度,并在此基础上提出了存储概要信息的树结构P-Tree及相应的挖掘算法P-growth算法。最后通过设置不同的最小支持度、窗口大小、批大小等参数值,与SUF-growth算法、UDS-FIM算法进行对比。实验表明,P-growth算法在时空消耗方面优于其余两个算法。3、针对在不确定数据流频繁项集挖掘的最小支持度阈值难以预先合理设定的问题,结合P-growth算法,提出了一种基于滑动窗口模型的Top-K频繁项集挖掘TOPPT-growth算法。为了提高挖掘算法的效率本文给出了两种优化策略:(1)动态设置挖掘阈值;(2)自适应调整剪枝阈值来提高算法的精确度与时空效率。最后对算法的性能进行了实验分析,实验表明所提出算法能够在保证运行时间和内存开销合理的前提下,有效地挖掘不确定数据流中的Top-K频繁M项集。
其他文献
锂离子电池因其在便携式移动设备、混合动力汽车(Hybrid Electric Vehicle,HEV)和电动汽车(Electric Vehicle,EV)中的应用而受到广泛关注。具有NASICON(钠离子导体)结构的Li_3V_2(PO_4)_3具有较高的理论容量(197 m Ah/g)和热稳定性,同时具有3D开放结构,为锂离子的传输提供了更广阔的固有空间。Li_3V_2(PO_4)_3具有较高的
作为互联网发展历程中的应用型网络,移动社交网络(Mobile Social Networks,MSN)一度改变了人们的信息传播渠道和生活方式。然而,大多数MSN应用涉及到移动用户的个人隐私信息,
飞行参数记录仪(Flight Data Recorder)简称FDR,是机上重要的数据采集、处理、显示、记录设备,肩负着飞行器飞行参数显示,飞行员训练比对,故障维修,事故分析等重要任务。各部
文化娱乐新闻是新闻事业的一个重要组成部分。我国当代文化娱乐新闻从20世纪80年代初登新闻版面,至今已有30多年的历史,并且拥有了自己的特色。《内蒙古日报》作为党报很早就
近年来,PCB行业取得了飞速发展。PCB向着小型化、多线路和高精度的方向不断开发,PCB的质量问题开始成为关注的热点。传统的检测手段不能满足PCB的发展需求,随着图像处理和机
目的:本研究采用酶联免疫吸附法检测冠心病血瘀证患者外周静脉血血清血小板衍生生长因子-BB(PDGF-BB)、血小板衍生生长因子受体-β(PDGFR-β)、单核细胞趋化因子-1(MCP-1)、基质金属蛋白酶-9(MMP-9)表达水平,采用RT-PCR技术检测冠心病血瘀证患者外周静脉血单核细胞中的PDGFR-β mRNA表达水平。并通过分析比较上述指标在冠心病患者与健康人群之间表达水平的差异性,进而探
随着近几年人工智能和大数据的技术的飞速发展,人脸识别技术也随之成为一个热门的话题。而在人脸识别技术中,最有挑战性的课题就是实时传输人脸识别。因为实时传输人脸识别在
1932-1945年的岁月对于中国的蒙古地区来说是一个被侵略被殖民的年代,同时也是一个启蒙和反抗压迫并存的年代。这一时期的蒙古文报刊虽然是各方面的政治势力所控制的宣传工具
在信息迅猛增长的今天,推荐系统在缓解信息过载方面发挥着关键作用。众所周知,推荐系统基于用户的历史行为数据,利用自身的算法逻辑,筛选并匹配出用户偏好的项目。目前推荐系
代码混淆技术作为一类重要的软件保护技术,能够有效防止他人剽窃软件中的智力成果,因此在软件保护领域得到广泛应用。代码混淆技术起源于对JAVA字节码的保护,后来经过人们的