关联规则分布式挖掘与增量式更新研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:zhangjianfa11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,其主要目标是从大型的数据库中挖掘出对用户有价值的模式。数据挖掘技术己经引起了信息产业界的广泛关注。关联规则是其中一个主要的研究方向,有着广泛的应用价值。关联规则研究取得了很多有价值的结果同时也面临很多挑战。分布式挖掘与增量式更新问题就是其中两个研究热点。本文对这两个问题作了一些探讨。 分布式挖掘研究的是如何从分布在不同地方的数据中有效地找出有用的知识。本文结合某财政系统的实际需求,提出了一种基于 JADE (Java AgentDEvelopment framework) 平台的分布式数据挖掘技术方案,并在此平台上实现了Apriori关联规则挖掘算法。在对财政数据进行预处理后,我们进行了关联规则挖掘试验,得出了一些有意义的规则。 在实际的关联规则挖掘应用中,人们并不总是能一下子找到自己感兴趣的关联规则,而是通过不断调整最小支持度阈值和最小置信度阈值,最终获得自己感兴趣的关联规则。这是关联规则更新问题研究的一个重要方面。本文提出了一种基于FP-Growth算法的面向更新的关联规则挖掘算法。该算法使用一种特殊链表作为存储结构,将事务数据库压缩存储在一种链表中,同时在挖掘中避免了递归挖掘大量条件FP-树的缺陷,并且当用户改变最小支持度阈值时,不需要再次扫描数据库,因而具有较好地适应关联规则挖掘的更新问题。算法分析表明,该算法具有较好的时空性能。 本文提出的这种针对财政系统具体需求挖掘方案,采用了将局部关联规则逐层综合的方法,但是如果需要挖掘全局关联规则,采用这种方法并不合适,下一步要进行在分布式数据库中挖掘全局关联规则的研究。
其他文献
非线性偏微分方程的Painlev′e分析方法( WTC方法),给出了偏微分方程的Painlev′e性质与可积性之间的关系。由于Painlev′e分析方法中的计算过程的复杂性并且存在很高的重复
本文分为两大部分. 第一部分主要讨论了超布朗运动和非线性微分方程的解的关系问题.给出了R(d≥3)中规则集D上偏微分方程-1/2△υ(x)+γ(x)υ(x)=0的最大、最小正解的概率表
本文针对凸性和光滑性较差的Banach空间,对Banach空间的粗范数和平的Banach空间,在ψ-直和上的遗传性进行了研究,证明:如果Banach空间 X 和 Y 的范数都是粗的,那么它们的ψ-直和空
本文考察一类可压缩的Heisenberg链方程组的周期初值问题,构造了它的显式差分格式、半离散的、全离散的谱格式以及拟谱格式,并利用有界延拓法证明了这些格式的收敛性与稳定性,最
结构可靠性问题是可靠性工程中的一个重要问题。衡量结构可靠性的主要指标是结构可靠度。结构可靠性问题包括可靠性设计和可靠度估计两部分,其中可靠度估计既是结构可靠性的评定工具,也在验证可靠性设计的合理性中发挥重要作用。结构可靠度估计问题曾是可靠性统计研究的一个热点,其最新的发展方向是将强度和应力由随机变量推广至随机过程。本文将结构可靠度估计问题与可靠性统计中另一前沿问题——退化失效问题相结合,探讨了强度
近年来,入侵检测已成为网络安全领域重要而迫切的课题,面对日益加剧的网络安全威胁,传统的安全技术如认证机制、加密和防火墙等已经难以胜任。入侵检测通常可以分为误用检测和异
本文的主要内容是对中国证券市场上的个股进行随机占优检验,并判断是否存在日期效应。第一章大体介绍了日期效应的概念及前人的研究结果。第二章介绍了随机占优的基本概念。第
随着我国经济社会的全面快速发展,教育事业也得到了全面快速发展.而以多媒体技术、网络技术以及计算机技术为主要内容的信息技术也逐步发展起来,并日益成为了创造性地开发人
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
新mapp组件:设置和控制多达15轴贝加莱进一步扩展了mapp软件模块组合。新的mapp Robo X和mapp Teach让这个组合比之前的机器人系统配置和操作前准备工作变得更快、更简单。ma