关联规则分布式挖掘与增量式更新研究

来源 :中山大学 | 被引量 : 0次 | 上传用户：zhangjianfa11

【摘要】

：

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程，其主要目标是从大型的数据库中挖掘

【作者】

：

黄鹄

【机构】

：

中山大学

【出处】

：

中山大学

【发表日期】

：

2007年期

【关键词】

：

数据挖掘关联规则分布式 JADE 增量更新

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程，其主要目标是从大型的数据库中挖掘出对用户有价值的模式。数据挖掘技术己经引起了信息产业界的广泛关注。关联规则是其中一个主要的研究方向，有着广泛的应用价值。关联规则研究取得了很多有价值的结果同时也面临很多挑战。分布式挖掘与增量式更新问题就是其中两个研究热点。本文对这两个问题作了一些探讨。分布式挖掘研究的是如何从分布在不同地方的数据中有效地找出有用的知识。本文结合某财政系统的实际需求，提出了一种基于 JADE (Java AgentDEvelopment framework) 平台的分布式数据挖掘技术方案，并在此平台上实现了Apriori关联规则挖掘算法。在对财政数据进行预处理后，我们进行了关联规则挖掘试验，得出了一些有意义的规则。在实际的关联规则挖掘应用中，人们并不总是能一下子找到自己感兴趣的关联规则，而是通过不断调整最小支持度阈值和最小置信度阈值，最终获得自己感兴趣的关联规则。这是关联规则更新问题研究的一个重要方面。本文提出了一种基于FP-Growth算法的面向更新的关联规则挖掘算法。该算法使用一种特殊链表作为存储结构，将事务数据库压缩存储在一种链表中，同时在挖掘中避免了递归挖掘大量条件FP-树的缺陷，并且当用户改变最小支持度阈值时，不需要再次扫描数据库，因而具有较好地适应关联规则挖掘的更新问题。算法分析表明，该算法具有较好的时空性能。本文提出的这种针对财政系统具体需求挖掘方案，采用了将局部关联规则逐层综合的方法，但是如果需要挖掘全局关联规则，采用这种方法并不合适，下一步要进行在分布式数据库中挖掘全局关联规则的研究。

其他文献

Painlevé分析的机械化实现

非线性偏微分方程的Painlev′e分析方法( WTC方法),给出了偏微分方程的Painlev′e性质与可积性之间的关系。由于Painlev′e分析方法中的计算过程的复杂性并且存在很高的重复

学位

数学机械化Painlevé分析截断展开特解非线性偏微分方程

超布朗运动，超α-稳定过程及分支α-稳定过程的性质

本文分为两大部分．第一部分主要讨论了超布朗运动和非线性微分方程的解的关系问题．给出了R(d≥3)中规则集D上偏微分方程-1/2△υ(x)+γ(x)υ(x)=0的最大、最小正解的概率表

学位

超布朗运动非线性微分方程最小正解最大正解S-极集α稳定过程

凸性较差的Banach空间的ψ-直和

本文针对凸性和光滑性较差的Banach空间，对Banach空间的粗范数和平的Banach空间，在ψ-直和上的遗传性进行了研究，证明：如果Banach空间 X 和 Y 的范数都是粗的，那么它们的ψ-直和空

学位

Banach空间ψ-直和粗范数圆点K-光滑点

一类可压缩的Heisenberg链方程组的数值解

本文考察一类可压缩的Heisenberg链方程组的周期初值问题，构造了它的显式差分格式、半离散的、全离散的谱格式以及拟谱格式，并利用有界延拓法证明了这些格式的收敛性与稳定性，最

学位

可压缩Heisenberg链方程周期初值问题有界延拓法数值解

强度为退化量时的结构可靠度估计问题

结构可靠性问题是可靠性工程中的一个重要问题。衡量结构可靠性的主要指标是结构可靠度。结构可靠性问题包括可靠性设计和可靠度估计两部分，其中可靠度估计既是结构可靠性的评定工具，也在验证可靠性设计的合理性中发挥重要作用。结构可靠度估计问题曾是可靠性统计研究的一个热点，其最新的发展方向是将强度和应力由随机变量推广至随机过程。本文将结构可靠度估计问题与可靠性统计中另一前沿问题——退化失效问题相结合，探讨了强度

学位

结构可靠度退化轨道模型布朗运动模型区间估计Monte Carlo模拟

有效解决U2R类型入侵检测的方案及组合优化

近年来，入侵检测已成为网络安全领域重要而迫切的课题，面对日益加剧的网络安全威胁，传统的安全技术如认证机制、加密和防火墙等已经难以胜任。入侵检测通常可以分为误用检测和异

学位

网络安全入侵检测支持向量机

中国证券市场的日期效应检验——Subsampling方法

本文的主要内容是对中国证券市场上的个股进行随机占优检验，并判断是否存在日期效应。第一章大体介绍了日期效应的概念及前人的研究结果。第二章介绍了随机占优的基本概念。第

学位

日期效应随机占优检验subsampling方法证券市场

信息技术在小学数学教学中的应用探讨

随着我国经济社会的全面快速发展,教育事业也得到了全面快速发展.而以多媒体技术、网络技术以及计算机技术为主要内容的信息技术也逐步发展起来,并日益成为了创造性地开发人

期刊

信息技术小学数学教学教学活动数学课堂教学快速发计算机技术多媒体技术主要内容网络技术经济社会教育事业开发人创造性智力问题探究认识

《再生》

请下载后查看，本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.

期刊

符合复杂运动学操作简单

新mapp组件:设置和控制多达15轴贝加莱进一步扩展了mapp软件模块组合。新的mapp Robo X和mapp Teach让这个组合比之前的机器人系统配置和操作前准备工作变得更快、更简单。ma

期刊

运动序列贝加莱研发者功能块研发时间参数化组件运动系统面板定义

关联规则分布式挖掘与增量式更新研究

与本文相关的学术论文