不确定数据流频繁模式挖掘算法研究

来源 :东北大学 | 被引量 : 2次 | 上传用户:ttw961086
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据流模型在经济、军事、金融、电信等领域中普遍存在,同时在这些应用中,由于设备精度、传输丢失、环境干扰、设备故障、隐私保护和不同系统间集成等方面的原因,不确定性在数据流中广泛存在。因此,不确定数据流的数据挖掘算法就成为了一个新的研究方向。频繁模式挖掘作为数据流挖掘工作的重要组成部分,其研究已经历十多年的发展,理论上日趋成熟,但这些研究主要是基于确定性数据的挖掘算法。由于不确定数据增加了概率信息描述其不确定性,传统数据流挖掘算法都不能直接应用到不确定数据流中,因此如何针对不确定数据流进行频繁模式挖掘是不确定数据流管理领域亟待解决的一个重要问题。本文对数据管理中的不确定性现象和问题进行了归纳和总结,并对经典的数据流频繁模式挖掘算法进行了深入分析,在此基础上提出了一些适用于不确定流数据的频繁模式挖掘算法,并通过大量实验验证了其高效性。主要工作包括以下几个方面:(1)基于数据流普遍采用的滑动窗口模型,提出了高效的概率频繁项挖掘算法。该算法避免了每次窗口更新都重新计算答案,而是利用现有的计算结果进行增量更新,从而减少挖掘代价。另外,本文提出的过滤策略,可以显著地减少检测数据的数量,提高挖掘效率。实验结果表明,本文提出的算法可以有效减少候选集,降低搜索空间,改善其在不确定数据流上的性能。(2)基于滑动窗口模型,提出了一种高效的增量概率Top-K频繁项挖掘算法。该算法基于窗口中的现有数据对未来可能成为频繁项的元素进行预测,并提出相应的过滤策略,减少检测数据的数量,提高挖掘效率。同时,该算法对不同窗口中的相同候选元素进行压缩,显著减少存储空间。(3)提出了支持滑动窗口模型的概率阈值频繁模式挖掘算法。该算法设计了一种新的压缩数据结构CPFP-Tree,将同一分支中概率不同的相同项合并为同一节点,可以有效地压缩存储空间并维护不确定数据流的信息;另外,提出了基于CPFP-Tree树结构的挖掘算法(CPFP-mine),在挖掘阶段,利用剪枝策略仅保留必要的项集,并对该候选集进行动态地更新,避免重新计算。实验结果表明,本文提出的算法无论在时间还是在空间上均有较好的性能。(4)由于在挖掘的过程中会产生大量的频繁模式,且这些模式中存在冗余信息,为了解决该问题,普遍采用对结果集压缩的方法。一种解决方法是挖掘闭合频繁项集(frequent closed itemset),另一种解决方法是挖掘生成器项集(generator itemset),但后者在分类器构造应用方面具有更大的优势。因此本文基于不确定数据,对不确定生成器项集进行了形式化定义,并提出了生成器项集的概率计算方法及有效的挖掘算法。另外,本文还提出了相应的剪枝策略,可以有效地减少搜索空间并避免冗余计算。针对数据流环境,提出了一种增量的挖掘算法,该算法通过维护摘要数据结构GET (generator enumation tree)保存生成器项集和其他类型项集的边界信息,避免重复计算。最终通过实验验证了算法的有效性和高效性。
其他文献
目的观察奥氮平预防化疗所致恶心呕吐的疗效。方法收集180例化疗患者,分为观察组和对照组,各90例。两组均在化疗前30 min给予静脉滴注昂丹司琼针8 mg+奥美拉唑针40 mg减轻胃肠
本文在研究以跨境电子商务为核心,分析跨境电子商务“物流难”问题,并提出问题的破解对策,实现跨境电子商务的融合,促进电子商务的可持续健康发展,进而为相关研究人员提出一定的借
新修订的《农药管理条例》(以下简称新《条例》)自2017年6月1日起实施,各级农业部门要把握农药监管新常态,着力提升依法履职能力,全面提升农药监管法制化水平。一、准确把握
谈加快金融电子化进程的有效途径农业银行山东省枣在市市中区支行李居然江泽民总书记在本现银行信用卡系统暨设备辰示会时指出:学习国际先进经验,搞好金融电子化,促进社会主义现
在中国城市的历史发展进程中出现过许多极富特色的公共空间。本文选取公共商业空间、公共园林和城市广场三种空间类型作为研究对象分析它们在历史进程中的外在形态表现和内在
中国正处在经济转型期。近年来,3D打印、大数据、人工智能以及移动互联网等新技术层出不穷,这在引发组织内外部环境诸如供应方式、消费方式以及劳资关系等方面发生剧烈变化的
理学史的研究一直是学术界热点,对于理学相关的研究成果颇丰。本文将从理学在朝鲜的早期传播、在朝发展分期、社会影响以及其他等几个方面进行归纳综述。